לאמן ולארח מודל ראיה ממוחשבת לזיהוי חבלה באמזון SageMaker: חלק 2 | שירותי האינטרנט של אמזון

הועלה מחדש על ידי אפלטון

עוקב: 0

ב חלק ראשון מתוך סדרה זו בת שלושה חלקים, הצגנו פתרון המדגים כיצד ניתן לבצע אוטומציה של זיהוי שיבוש מסמכים והונאות בקנה מידה גדול באמצעות שירותי AWS AI ו-Machine Learning (ML) למקרה שימוש בחיתום משכנתא.

בפוסט זה, אנו מציגים גישה לפיתוח מודל ראייה ממוחשבת מבוסס למידה עמוקה כדי לזהות ולהדגיש תמונות מזויפות בחיתום משכנתאות. אנו מספקים הדרכה לגבי בנייה, הדרכה והטמעה של רשתות למידה עמוקה אמזון SageMaker.

בחלק 3, אנו מדגימים כיצד ליישם את הפתרון על גלאי הונאות של אמזון.

סקירת פתרונות

כדי לעמוד ביעד של זיהוי שיבוש מסמכים בחתימת משכנתאות, אנו משתמשים במודל ראייה ממוחשבת המתארח ב- SageMaker עבור פתרון זיהוי זיוף התמונות שלנו. מודל זה מקבל תמונת בדיקה כקלט ומייצר חיזוי סבירות לזיוף כפלט שלו. ארכיטקטורת הרשת היא כפי שמתואר בתרשים הבא.

ארכיטקטורת מודל זיהוי שיבוש

זיוף תמונות כולל בעיקר ארבע טכניקות: שחבור, העתקה-הזזה, הסרה ושיפור. בהתאם למאפייני הזיוף, ניתן להשתמש ברמזים שונים כבסיס לאיתור וללוקליזציה. רמזים אלה כוללים חפצי דחיסה של JPEG, חוסר עקביות בקצוות, דפוסי רעש, עקביות צבע, דמיון חזותי, עקביות EXIF ודגם מצלמה.

בהינתן התחום הנרחב של זיהוי זיוף תמונות, אנו משתמשים באלגוריתם רמת השגיאה (ELA) כשיטה להמחשה לזיהוי זיופים. בחרנו בטכניקת ELA עבור פוסט זה מהסיבות הבאות:

זה מהיר יותר ליישום ויכול בקלות לתפוס התעסקות בתמונות.
זה עובד על ידי ניתוח רמות הדחיסה של חלקים שונים בתמונה. זה מאפשר לזהות חוסר עקביות שעלול להצביע על שיבוש - למשל, אם אזור אחד הועתק והודבק מתמונה אחרת שנשמרה ברמת דחיסה אחרת.
הוא טוב בזיהוי התעסקות עדינה יותר או חלקה יותר שאולי קשה לזהות בעין בלתי מזוינת. אפילו שינויים קטנים בתמונה יכולים להכניס חריגות דחיסה הניתנות לזיהוי.
זה לא מסתמך על התמונה המקורית ללא שינוי לצורך השוואה. ELA יכול לזהות סימני חבלה רק בתמונה הנשאלת עצמה. טכניקות אחרות דורשות לעתים קרובות את המקור ללא שינוי להשוות מולו.
זוהי טכניקה קלת משקל המסתמכת רק על ניתוח חפצי דחיסה בנתוני התמונה הדיגיטלית. זה לא תלוי במומחיות מיוחדת בחומרה או בזיהוי פלילי. זה הופך את ELA לנגיש ככלי ניתוח מעבר ראשון.
תמונת הפלט של ELA יכולה להדגיש בבירור הבדלים ברמות הדחיסה, מה שהופך את האזורים המעורבים לברורים לעין. זה מאפשר אפילו למי שאינו מומחה לזהות סימנים של מניפולציה אפשרית.
זה עובד על סוגי תמונות רבים (כגון JPEG, PNG ו-GIF) ודורש רק את התמונה עצמה לניתוח. טכניקות משפטיות אחרות עשויות להיות מוגבלות יותר בפורמטים או בדרישות התמונה המקוריות.

עם זאת, בתרחישים בעולם האמיתי שבהם ייתכן שיש לך שילוב של מסמכי קלט (JPEG, PNG, GIF, TIFF, PDF), אנו ממליצים להשתמש ב-ELA בשילוב עם שיטות שונות אחרות, כגון איתור חוסר עקביות בקצוות, דפוסי רעש, אחידות צבע, עקביות נתוני EXIF, זיהוי דגם המצלמה, ו אחידות גופנים. אנו שואפים לעדכן את הקוד עבור פוסט זה עם טכניקות נוספות לזיהוי זיוף.

הנחת היסוד של ELA מניחה שתמונות הקלט הן בפורמט JPEG, הידוע בדחיסה המאבדת שלה. עם זאת, השיטה עדיין יכולה להיות יעילה גם אם תמונות הקלט היו במקור בפורמט ללא אובדן (כגון PNG, GIF או BMP) ומאוחר יותר הומרו ל-JPEG במהלך תהליך החבלה. כאשר ELA מוחל על פורמטים מקוריים ללא אובדן, זה בדרך כלל מצביע על איכות תמונה עקבית ללא כל הידרדרות, מה שהופך אותו למאתגר לאתר אזורים שהשתנו. בתמונות JPEG, הנורמה הצפויה היא שהתמונה כולה תציג רמות דחיסה דומות. עם זאת, אם קטע מסוים בתמונה מציג רמת שגיאה שונה באופן ניכר, זה מרמז לעתים קרובות על שינוי דיגיטלי שבוצע.

ELA מדגיש הבדלים בשיעור הדחיסה של JPEG. לאזורים עם צביעה אחידה ככל הנראה תהיה תוצאת ELA נמוכה יותר (לדוגמה, צבע כהה יותר בהשוואה לקצוות בעלי ניגודיות גבוהה). הדברים שצריך לחפש כדי לזהות שיבוש או שינוי כוללים את הדברים הבאים:

לקצוות דומים צריכה להיות בהירות דומה בתוצאה של ELA. כל הקצוות בעלי הניגודיות הגבוהה צריכים להיראות דומים זה לזה, וכל הקצוות בעלי הניגודיות הנמוכה צריכים להיראות דומים. עם תמונה מקורית, קצוות בעלי ניגודיות נמוכה צריכים להיות בהירים כמעט כמו קצוות בעלי ניגודיות גבוהה.
מרקמים דומים צריכים להיות בעלי צביעה דומה תחת ELA. לאזורים עם יותר פרטים על פני השטח, כמו תקריב של כדורסל, סביר להניח שתהיה תוצאת ELA גבוהה יותר ממשטח חלק.
ללא קשר לצבע האמיתי של המשטח, כל המשטחים השטוחים צריכים להיות בעלי אותו צבע בערך תחת ELA.

תמונות JPEG משתמשות במערכת דחיסה אובדת. כל קידוד מחדש (שמירה מחדש) של התמונה מוסיף עוד אובדן איכות לתמונה. באופן ספציפי, אלגוריתם JPEG פועל על רשת של 8×8 פיקסלים. כל ריבוע 8×8 נדחס באופן עצמאי. אם התמונה אינה שונה לחלוטין, אז כל הריבועים בגודל 8×8 צריכים להיות בעלי פוטנציאל שגיאה דומים. אם התמונה לא השתנתה ונשמרה מחדש, כל ריבוע אמור להתדרדר בערך באותו קצב.

ELA שומר את התמונה ברמת איכות מוגדרת של JPEG. שמירה מחדש זו מציגה כמות ידועה של שגיאות על פני כל התמונה. לאחר מכן, התמונה שנשמרה מחדש מושווה לתמונה המקורית. אם תמונה משתנה, אז כל ריבוע של 8×8 שהשינוי נגע בו צריך להיות בפוטנציאל שגיאה גבוה יותר משאר התמונה.

התוצאות מ-ELA תלויות ישירות באיכות התמונה. אולי תרצה לדעת אם משהו נוסף, אבל אם התמונה מועתקת מספר פעמים, אז ELA עשוי לאפשר רק זיהוי של שמירות חוזרות. נסה למצוא את הגרסה האיכותית ביותר של התמונה.

בעזרת הכשרה ותרגול, ELA יכולה גם ללמוד לזהות שינויי קנה מידה, איכות, חיתוך ושמירה מחדש של התמונה. לדוגמה, אם תמונה שאינה JPEG מכילה קווי רשת גלויים (ברוחב 1 פיקסל ב-8×8 ריבועים), פירוש הדבר שהתמונה התחילה כ-JPEG והומרה לפורמט שאינו JPEG (כגון PNG). אם באזורים מסוימים בתמונה חסרים קווי רשת או שקווי הרשת משתנים, אז זה מציין חיבור או חלק מצויר בתמונה שאינה JPEG.

בסעיפים הבאים, אנו מדגימים את השלבים לקביעת התצורה, ההדרכה והפריסה של מודל הראייה הממוחשבת.

תנאים מוקדמים

כדי לעקוב אחר הפוסט הזה, השלם את התנאים המוקדמים הבאים:

יש לך חשבון AWS.
להקים סטודיו SageMaker של אמזון. אתה יכול להפעיל במהירות את SageMaker Studio באמצעות הגדרות ברירת מחדל מראש, מה שמאפשר הפעלה מהירה. למידע נוסף, עיין ב Amazon SageMaker מפשט את ההגדרה של Amazon SageMaker Studio עבור משתמשים בודדים.
פתח את SageMaker Studio והפעל מסוף מערכת.
הפעל את הפקודה הבאה בטרמינל:
git clone https://github.com/aws-samples/document-tampering-detection.git
העלות הכוללת של הפעלת SageMaker Studio עבור משתמש אחד ותצורות סביבת המחברת היא $7.314 דולר לשעה.

הגדר את מחברת ההדרכה של הדגם

השלם את השלבים הבאים כדי להגדיר את מחברת ההדרכה שלך:

פתח את tampering_detection_training.ipynb קובץ מהספרייה לזיהוי מסמכים.
הגדר את סביבת המחברת עם התמונה TensorFlow 2.6 Python 3.8 CPU או GPU Optimized.
אתה עלול להיתקל בבעיה של זמינות לא מספקת או להגיע למגבלת המכסה עבור מופעי GPU בחשבון AWS שלך בעת בחירת מופעים מותאמים ל-GPU. כדי להגדיל את המכסה, בקר במסוף שירות מכסות והגדל את מגבלת השירות עבור סוג המופע הספציפי שאתה צריך. אתה יכול גם להשתמש בסביבת מחשב נייד מותאמת למעבד במקרים כאלה.
בעד גַרעִין, בחר Python3.
בעד סוג מופע, בחר ml.m5d.24xlarge או כל מקרה גדול אחר.

בחרנו סוג מופע גדול יותר כדי להפחית את זמן האימון של המודל. עם סביבת מחברת ml.m5d.24xlarge, העלות לשעה היא $7.258 דולר לשעה.

הפעל את מחברת ההדרכה

הפעל כל תא במחברת tampering_detection_training.ipynb בסדר. אנו דנים בכמה תאים בפירוט רב יותר בסעיפים הבאים.

הכן את מערך הנתונים עם רשימה של תמונות מקוריות ומעורבות

לפני שתפעיל את התא הבא במחברת, הכן מערך נתונים של מסמכים מקוריים ומעורפלים בהתבסס על הדרישות העסקיות הספציפיות שלך. עבור פוסט זה, אנו משתמשים במערך נתונים לדוגמה של תלושי שכר טרופים ודפי חשבון בנק. מערך הנתונים זמין בספריית התמונות של מאגר GitHub.

הכן מערך נתונים

המחברת קוראת את התמונות המקוריות והמעורבות מה- images/training במדריך.

מערך הנתונים לאימון נוצר באמצעות קובץ CSV עם שתי עמודות: הנתיב לקובץ התמונה והתווית של התמונה (0 לתמונה מקורית ו-1 לתמונה שחוללה).

מערך נתונים של תווית

עבד את מערך הנתונים על ידי הפקת תוצאות ה-ELA של כל תמונת אימון

בשלב זה, אנו יוצרים את תוצאת ה-ELA (באיכות של 90%) של תמונת אימון הקלט. הפונקציה convert_to_ela_image לוקח שני פרמטרים: נתיב, שהוא הנתיב לקובץ תמונה, ואיכות, המייצג את פרמטר האיכות עבור דחיסת JPEG. הפונקציה מבצעת את השלבים הבאים:

המר את התמונה לפורמט RGB ושמור מחדש את התמונה כקובץ JPEG עם האיכות שצוינה תחת השם tempresaved.jpg.
חשב את ההבדל בין התמונה המקורית לתמונת ה-JPEG שנשמרה מחדש (ELA) כדי לקבוע את ההבדל המקסימלי בערכי הפיקסלים בין התמונות המקוריות והתמונות שנשמרו מחדש.
חשב גורם קנה מידה המבוסס על ההבדל המקסימלי כדי להתאים את הבהירות של תמונת ELA.
שפר את הבהירות של תמונת ELA באמצעות מקדם קנה המידה המחושב.
שנה את גודל תוצאת ה-ELA ל-128x128x3, כאשר 3 מייצג את מספר הערוצים כדי להקטין את גודל הקלט לאימון.
החזר את תמונת ELA.

בפורמטים עם אובדן תמונה כגון JPEG, תהליך השמירה הראשוני מוביל לאובדן צבע ניכר. עם זאת, כאשר התמונה נטענת ולאחר מכן מקודדת מחדש באותו פורמט אובדן, בדרך כלל יש פחות תוספת צבע. תוצאות ELA מדגישות את אזורי התמונה הרגישים ביותר להידרדרות צבע לאחר שמירתם מחדש. באופן כללי, שינויים מופיעים בצורה בולטת באזורים המציגים פוטנציאל גבוה יותר להתדרדרות בהשוואה לשאר התמונה.

לאחר מכן, התמונות מעובדות למערך NumPy לאימון. לאחר מכן, אנו מחלקים את מערך הנתונים של הקלט באופן אקראי לנתוני הדרכה ובדיקה או אימות (80/20). אתה יכול להתעלם מכל אזהרות בעת הפעלת תאים אלה.

המר ל-ELA להדרכה

בהתאם לגודל מערך הנתונים, הפעלת תאים אלה עשויה לקחת זמן. עבור מערך הנתונים לדוגמה שסיפקנו במאגר זה, זה יכול לקחת 5-10 דקות.

הגדר את מודל CNN

בשלב זה, אנו בונים גרסה מינימלית של רשת VGG עם מסננים קונבולוציוניים קטנים. ה-VGG-16 מורכב מ-13 שכבות קונבולוציוניות ושלוש שכבות מחוברות במלואן. צילום המסך הבא ממחיש את הארכיטקטורה של מודל הרשת הקונבולוציונית שלנו (CNN).

ארכיטקטורת מודל Tensorflow

שימו לב לתצורות הבאות:

קֶלֶט – הדגם מקבל גודל קלט תמונה של 128x128x3.
שכבות מעוררות – השכבות הקונבולוציוניות משתמשות בשדה קליטה מינימלי (3×3), הגודל הקטן ביותר האפשרי שעדיין לוכד למעלה/מטה ושמאל/ימינה. לאחר מכן, פונקציית הפעלה של יחידה לינארית מתוקנת (ReLU) שמפחיתה את זמן האימון. זוהי פונקציה לינארית שתוציא את הקלט אם חיובי; אחרת, הפלט הוא אפס. צעד הפיתול קבוע בברירת המחדל (1 פיקסל) כדי לשמור על הרזולוציה המרחבית שנשמרה לאחר הפיתול (צעד הוא מספר הזזות הפיקסלים על מטריצת הקלט).
שכבות מחוברות לחלוטין – לרשת שתי שכבות מחוברות במלואן. השכבה הצפופה הראשונה משתמשת בהפעלת ReLU, והשנייה משתמשת ב-softmax כדי לסווג את התמונה כמקורית או כמשופרת.

אתה יכול להתעלם מכל אזהרות בעת הפעלת תאים אלה.

שמור את חפצי הדגם

שמור את הדגם המאומן עם שם קובץ ייחודי - לדוגמה, בהתבסס על התאריך והשעה הנוכחיים - בספרייה בשם model.

שמור את חפצי מודל tensorflow

הדגם נשמר בפורמט Keras עם ההרחבה .keras. אנו גם שומרים את חפצי המודל כספרייה בשם 1 המכילה חתימות מסודרות והמצב הדרוש להפעלתן, כולל ערכים משתנים ואוצר מילים לפריסה בזמן ריצה של SageMaker (עליה נדון בהמשך הפוסט הזה).

מדידת ביצועי המודל

עקומת ההפסד הבאה מציגה את התקדמות ההפסד של המודל על פני תקופות אימון (איטרציות).

עלילת דיוק דגם

פונקציית ההפסד מודדת עד כמה תחזיות המודל תואמות את היעדים בפועל. ערכים נמוכים יותר מצביעים על התאמה טובה יותר בין התחזיות לבין הערכים האמיתיים. ירידה בהפסד בתקופות מסמלת שהמודל משתפר. עקומת הדיוק ממחישה את הדיוק של הדגם על פני תקופות אימון. דיוק הוא היחס בין התחזיות הנכונות למספר הכולל של התחזיות. דיוק גבוה יותר מצביע על מודל בעל ביצועים טובים יותר. בדרך כלל, הדיוק עולה במהלך האימון ככל שהמודל לומד דפוסים ומשפר את יכולת הניבוי שלו. אלה יעזרו לך לקבוע אם המודל מתאים יותר מדי (מציג ביצועים טובים בנתוני אימון אך גרוע בנתונים בלתי נראים) או לא מתאים (לא לומד מספיק מנתוני האימון).

מטריצת הבלבול הבאה מייצגת באופן חזותי עד כמה המודל מבחין במדויק בין המחלקות החיוביות (תמונה מזויפת, מיוצגת כערך 1) והשלילית (תמונה ללא שיבוש, המיוצגת כערך 0).

עלילת מטריצת בלבול

לאחר הכשרת המודל, השלב הבא שלנו כולל פריסת מודל הראייה הממוחשבת כ-API. API זה ישולב ביישומים עסקיים כמרכיב בזרימת העבודה של החיתום. כדי להשיג זאת, אנו משתמשים באמזון SageMaker Inference, שירות מנוהל במלואו. שירות זה משתלב בצורה חלקה עם כלי MLOps, ומאפשר פריסת מודלים ניתנים להרחבה, הסקה חסכונית, ניהול מודלים משופר בייצור ומורכבות תפעולית מופחתת. בפוסט זה, אנו פורסים את המודל כנקודת קצה בזמן אמת. עם זאת, חשוב לציין שבהתאם לזרימת העבודה של היישומים העסקיים שלך, פריסת המודל יכולה להיות מותאמת גם כעיבוד אצווה, טיפול אסינכרוני או באמצעות ארכיטקטורת פריסה ללא שרת.

הגדר את מחברת הפריסה של הדגם

השלם את השלבים הבאים כדי להגדיר את מחברת פריסת המודל שלך:

פתח את tampering_detection_model_deploy.ipynb קובץ מהספרייה לזיהוי מסמכים.
הגדר את סביבת המחברת עם התמונה Data Science 3.0.
בעד גַרעִין, בחר Python3.
בעד סוג מופע, בחר ml.t3.בינוני.

עם סביבת מחברת ml.t3.medium, העלות לשעה היא $0.056 דולר.

צור מדיניות מוטבעת מותאמת אישית עבור תפקיד SageMaker כדי לאפשר את כל הפעולות של Amazon S3

השמיים AWS זהות וניהול גישה תפקיד (IAM) עבור SageMaker יהיה בפורמט AmazonSageMaker- ExecutionRole-<random numbers>. ודא שאתה משתמש בתפקיד הנכון. את שם התפקיד ניתן למצוא תחת פרטי המשתמש בתצורות הדומיין של SageMaker.

עדכן את תפקיד IAM כך שיכלול מדיניות מוטבעת שתאפשר לכולם שירות אחסון פשוט של אמזון (Amazon S3) פעולות. זה יידרש כדי להפוך את היצירה והמחיקה של דלי S3 לאוטומטיים שיישמרו את חפצי הדגם. אתה יכול להגביל את הגישה לדלי S3 ספציפיים. שים לב שהשתמשנו בתו כללי עבור שם הדלי S3 במדיניות IAM (tamperingdetection*).

הפעל את מחברת הפריסה

הפעל כל תא במחברת tampering_detection_model_deploy.ipynb בסדר. אנו דנים בכמה תאים בפירוט רב יותר בסעיפים הבאים.

צור דלי S3

הפעל את התא כדי ליצור דלי S3. הדלי ייקרא בשם tamperingdetection<current date time> ובאותו אזור AWS כמו סביבת SageMaker Studio שלך.

צור דלי של אמזון S3

צור את ארכיון חפצי הדגם והעלה לאמזון S3

צור קובץ tar.gz מממצאי המודל. שמרנו את חפצי המודל כספרייה בשם 1, המכילה חתימות מסודרות והמצב הדרוש להפעלתן, כולל ערכים משתנים ואוצר מילים לפריסה בזמן הריצה של SageMaker. אתה יכול גם לכלול קובץ מסקנות מותאם אישית בשם inference.py בתוך תיקיית הקוד בחפץ הדגם. ניתן להשתמש בהסקה המותאמת אישית לעיבוד מקדים ולאחר עיבוד של תמונת הקלט.

העלה חפצי דגם לאמזון S3

צור נקודת קצה של מסקנות של SageMaker

התא ליצירת נקודת קצה של מסקנות של SageMaker עשויה להימשך מספר דקות.

צור נקודת קצה של Amazon SageMaker Inference

בדוק את נקודת הסיום

הפונקציה check_image מעבד מראש תמונה כתמונת ELA, שולח אותה לנקודת קצה של SageMaker לצורך הסקה, מאחזר ומעבד את התחזיות של המודל ומדפיס את התוצאות. המודל לוקח מערך NumPy של תמונת הקלט כתמונת ELA כדי לספק תחזיות. החיזויים מופקים כ-0, המייצגת תמונה שלא נפגעה, ו-1, המייצגת תמונה מזויפת.

בדוק את נקודת הקצה של Amazon SageMaker Inference

בואו נפעיל את הדגם עם תמונה לא מעורפלת של תלוש תשלום ונבדוק את התוצאה.

בדוק תמונה מקורית

המודל מוציא את הסיווג כ-0, המייצג תמונה לא מעורפלת.

עכשיו בואו נפעיל את הדגם עם תמונה משובשת של תלוש תשלום ונבדוק את התוצאה.

בדוק תמונה מזויפת

המודל מוציא את הסיווג כ-1, המייצג תמונה מזויפת.

מגבלות

למרות ש-ELA הוא כלי מצוין לסיוע בזיהוי שינויים, ישנן מספר מגבלות, כגון הבאות:

שינוי פיקסל בודד או התאמת צבע קלה עשויים שלא ליצור שינוי ניכר ב-ELA מכיוון ש-JPEG פועל על רשת.
ELA מזהה רק באילו אזורים יש רמות דחיסה שונות. אם תמונה באיכות נמוכה יותר מתחברת לתמונה באיכות גבוהה יותר, התמונה באיכות נמוכה יותר עשויה להופיע כאזור כהה יותר.
קנה מידה, צביעה מחדש או הוספת רעש לתמונה ישנו את התמונה כולה, ויצרו פוטנציאל רמת שגיאה גבוה יותר.
אם תמונה נשמרת מספר פעמים, ייתכן שהיא תהיה כולה ברמת שגיאה מינימלית, כאשר יותר שמירות חוזרות לא משנות את התמונה. במקרה זה, ה-ELA יחזיר תמונה שחורה ולא ניתן לזהות שינויים באמצעות אלגוריתם זה.
עם Photoshop, הפעולה הפשוטה של שמירת התמונה יכולה לחדד אוטומטית טקסטורות וקצוות, וליצור פוטנציאל רמת שגיאה גבוה יותר. חפץ זה אינו מזהה שינוי מכוון; זה מזהה שהשתמשו במוצר של Adobe. מבחינה טכנית, ELA מופיע כשינוי מכיוון ש-Adobe ביצעה שינוי אוטומטי, אך השינוי לא היה בהכרח מכוון על ידי המשתמש.

אנו ממליצים להשתמש ב-ELA לצד טכניקות אחרות שנדונו בעבר בבלוג על מנת לזהות מגוון גדול יותר של מקרי מניפולציה של תמונות. ELA יכול לשמש גם ככלי עצמאי לבחינה ויזואלית של פערי תמונה, במיוחד כאשר אימון מודל מבוסס CNN הופך למאתגר.

לנקות את

כדי להסיר את המשאבים שיצרת כחלק מפתרון זה, בצע את השלבים הבאים:

הפעל את תאי המחברת מתחת ל- ניקוי סָעִיף. פעולה זו תמחק את הדברים הבאים:
1. נקודת קצה של מסקנות של SageMaker – השם של נקודת הקצה יהיה tamperingdetection-<datetime>.
2. חפצים בתוך דלי S3 ודלי S3 עצמו – שם הדלי יהיה tamperingdetection<datetime>.
כבה משאבי מחברת SageMaker Studio.

סיכום

בפוסט זה הצגנו פתרון מקצה לקצה לזיהוי שיבוש מסמכים והונאות באמצעות למידה עמוקה ו- SageMaker. השתמשנו ב-ELA כדי לעבד מראש תמונות ולזהות אי התאמות ברמות הדחיסה שעשויות להצביע על מניפולציה. לאחר מכן הכשרנו מודל של CNN על מערך הנתונים המעובד הזה כדי לסווג תמונות כמקוריות או משובשות.

המודל יכול להשיג ביצועים חזקים, עם דיוק של מעל 95% עם מערך נתונים (מזויף ומקורי) המתאים לדרישות העסקיות שלך. זה מצביע על כך שהוא יכול לזהות באופן אמין מסמכים מזויפים כמו תלושי שכר ודפי חשבון בנק. המודל המאומן נפרס לנקודת קצה של SageMaker כדי לאפשר הסקת השהייה נמוכה בקנה מידה. על ידי שילוב פתרון זה בזרימות עבודה של משכנתאות, מוסדות יכולים לסמן אוטומטית מסמכים חשודים להמשך חקירת הונאה.

למרות עוצמה, ל-ELA יש כמה מגבלות בזיהוי סוגים מסוימים של מניפולציות עדינות יותר. כצעדים הבאים, ניתן לשפר את המודל על ידי שילוב טכניקות משפטיות נוספות באימון ושימוש במערכי נתונים גדולים ומגוונים יותר. בסך הכל, פתרון זה מדגים כיצד ניתן להשתמש בלמידה עמוקה ובשירותי AWS כדי לבנות פתרונות משפיעים אשר מגבירים את היעילות, מפחיתים סיכונים ומונעים הונאה.

בחלק 3, אנו מדגימים כיצד ליישם את הפתרון ב- Amazon Fraud Detector.

על המחברים

אנופ רבינדרנאת הוא ארכיטקט פתרונות בכיר בחברת Amazon Web Services (AWS) שבסיסה בטורונטו, קנדה ועובד עם ארגוני שירותים פיננסיים. הוא עוזר ללקוחות לשנות את העסקים שלהם ולחדש בענן.

ויני סייני הוא ארכיטקט פתרונות בכיר בחברת Amazon Web Services (AWS) שבסיסה בטורונטו, קנדה. היא עוזרת ללקוחות שירותים פיננסיים לבצע שינוי בענן, עם פתרונות מונעי בינה מלאכותית ו-ML מונחים על עמודי יסוד חזקים של מצוינות אדריכלית.

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
מקור: https://aws.amazon.com/blogs/machine-learning/train-and-host-a-computer-vision-model-for-tampering-detection-on-amazon-sagemaker-part-2/

בול זמן: ינואר 31, 2024

בול זמן: יוני 8, 2023

הועלה מחדש על ידי אפלטון

הגדר פרויקט סיכום טקסט עם מחבקי פנים רובוטריקים: חלק 1

בנו מזהה ישויות מותאם אישית עבור מסמכי PDF באמצעות Amazon Comprehend

הרם את עוזרי השירות העצמי שלך עם תכונות חדשות בינה מלאכותית ב-Amazon Lex | שירותי האינטרנט של אמזון

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן