ב חלק ראשון מתוך סדרה זו בת שלושה חלקים, הצגנו פתרון המדגים כיצד ניתן לבצע אוטומציה של זיהוי שיבוש מסמכים והונאות בקנה מידה גדול באמצעות שירותי AWS AI ו-Machine Learning (ML) למקרה שימוש בחיתום משכנתא.
בפוסט זה, אנו מציגים גישה לפיתוח מודל ראייה ממוחשבת מבוסס למידה עמוקה כדי לזהות ולהדגיש תמונות מזויפות בחיתום משכנתאות. אנו מספקים הדרכה לגבי בנייה, הדרכה והטמעה של רשתות למידה עמוקה אמזון SageMaker.
בחלק 3, אנו מדגימים כיצד ליישם את הפתרון על גלאי הונאות של אמזון.
סקירת פתרונות
כדי לעמוד ביעד של זיהוי שיבוש מסמכים בחתימת משכנתאות, אנו משתמשים במודל ראייה ממוחשבת המתארח ב- SageMaker עבור פתרון זיהוי זיוף התמונות שלנו. מודל זה מקבל תמונת בדיקה כקלט ומייצר חיזוי סבירות לזיוף כפלט שלו. ארכיטקטורת הרשת היא כפי שמתואר בתרשים הבא.
זיוף תמונות כולל בעיקר ארבע טכניקות: שחבור, העתקה-הזזה, הסרה ושיפור. בהתאם למאפייני הזיוף, ניתן להשתמש ברמזים שונים כבסיס לאיתור וללוקליזציה. רמזים אלה כוללים חפצי דחיסה של JPEG, חוסר עקביות בקצוות, דפוסי רעש, עקביות צבע, דמיון חזותי, עקביות EXIF ודגם מצלמה.
בהינתן התחום הנרחב של זיהוי זיוף תמונות, אנו משתמשים באלגוריתם רמת השגיאה (ELA) כשיטה להמחשה לזיהוי זיופים. בחרנו בטכניקת ELA עבור פוסט זה מהסיבות הבאות:
- זה מהיר יותר ליישום ויכול בקלות לתפוס התעסקות בתמונות.
- זה עובד על ידי ניתוח רמות הדחיסה של חלקים שונים בתמונה. זה מאפשר לזהות חוסר עקביות שעלול להצביע על שיבוש - למשל, אם אזור אחד הועתק והודבק מתמונה אחרת שנשמרה ברמת דחיסה אחרת.
- הוא טוב בזיהוי התעסקות עדינה יותר או חלקה יותר שאולי קשה לזהות בעין בלתי מזוינת. אפילו שינויים קטנים בתמונה יכולים להכניס חריגות דחיסה הניתנות לזיהוי.
- זה לא מסתמך על התמונה המקורית ללא שינוי לצורך השוואה. ELA יכול לזהות סימני חבלה רק בתמונה הנשאלת עצמה. טכניקות אחרות דורשות לעתים קרובות את המקור ללא שינוי להשוות מולו.
- זוהי טכניקה קלת משקל המסתמכת רק על ניתוח חפצי דחיסה בנתוני התמונה הדיגיטלית. זה לא תלוי במומחיות מיוחדת בחומרה או בזיהוי פלילי. זה הופך את ELA לנגיש ככלי ניתוח מעבר ראשון.
- תמונת הפלט של ELA יכולה להדגיש בבירור הבדלים ברמות הדחיסה, מה שהופך את האזורים המעורבים לברורים לעין. זה מאפשר אפילו למי שאינו מומחה לזהות סימנים של מניפולציה אפשרית.
- זה עובד על סוגי תמונות רבים (כגון JPEG, PNG ו-GIF) ודורש רק את התמונה עצמה לניתוח. טכניקות משפטיות אחרות עשויות להיות מוגבלות יותר בפורמטים או בדרישות התמונה המקוריות.
עם זאת, בתרחישים בעולם האמיתי שבהם ייתכן שיש לך שילוב של מסמכי קלט (JPEG, PNG, GIF, TIFF, PDF), אנו ממליצים להשתמש ב-ELA בשילוב עם שיטות שונות אחרות, כגון איתור חוסר עקביות בקצוות, דפוסי רעש, אחידות צבע, עקביות נתוני EXIF, זיהוי דגם המצלמה, ו אחידות גופנים. אנו שואפים לעדכן את הקוד עבור פוסט זה עם טכניקות נוספות לזיהוי זיוף.
הנחת היסוד של ELA מניחה שתמונות הקלט הן בפורמט JPEG, הידוע בדחיסה המאבדת שלה. עם זאת, השיטה עדיין יכולה להיות יעילה גם אם תמונות הקלט היו במקור בפורמט ללא אובדן (כגון PNG, GIF או BMP) ומאוחר יותר הומרו ל-JPEG במהלך תהליך החבלה. כאשר ELA מוחל על פורמטים מקוריים ללא אובדן, זה בדרך כלל מצביע על איכות תמונה עקבית ללא כל הידרדרות, מה שהופך אותו למאתגר לאתר אזורים שהשתנו. בתמונות JPEG, הנורמה הצפויה היא שהתמונה כולה תציג רמות דחיסה דומות. עם זאת, אם קטע מסוים בתמונה מציג רמת שגיאה שונה באופן ניכר, זה מרמז לעתים קרובות על שינוי דיגיטלי שבוצע.
ELA מדגיש הבדלים בשיעור הדחיסה של JPEG. לאזורים עם צביעה אחידה ככל הנראה תהיה תוצאת ELA נמוכה יותר (לדוגמה, צבע כהה יותר בהשוואה לקצוות בעלי ניגודיות גבוהה). הדברים שצריך לחפש כדי לזהות שיבוש או שינוי כוללים את הדברים הבאים:
- לקצוות דומים צריכה להיות בהירות דומה בתוצאה של ELA. כל הקצוות בעלי הניגודיות הגבוהה צריכים להיראות דומים זה לזה, וכל הקצוות בעלי הניגודיות הנמוכה צריכים להיראות דומים. עם תמונה מקורית, קצוות בעלי ניגודיות נמוכה צריכים להיות בהירים כמעט כמו קצוות בעלי ניגודיות גבוהה.
- מרקמים דומים צריכים להיות בעלי צביעה דומה תחת ELA. לאזורים עם יותר פרטים על פני השטח, כמו תקריב של כדורסל, סביר להניח שתהיה תוצאת ELA גבוהה יותר ממשטח חלק.
- ללא קשר לצבע האמיתי של המשטח, כל המשטחים השטוחים צריכים להיות בעלי אותו צבע בערך תחת ELA.
תמונות JPEG משתמשות במערכת דחיסה אובדת. כל קידוד מחדש (שמירה מחדש) של התמונה מוסיף עוד אובדן איכות לתמונה. באופן ספציפי, אלגוריתם JPEG פועל על רשת של 8×8 פיקסלים. כל ריבוע 8×8 נדחס באופן עצמאי. אם התמונה אינה שונה לחלוטין, אז כל הריבועים בגודל 8×8 צריכים להיות בעלי פוטנציאל שגיאה דומים. אם התמונה לא השתנתה ונשמרה מחדש, כל ריבוע אמור להתדרדר בערך באותו קצב.
ELA שומר את התמונה ברמת איכות מוגדרת של JPEG. שמירה מחדש זו מציגה כמות ידועה של שגיאות על פני כל התמונה. לאחר מכן, התמונה שנשמרה מחדש מושווה לתמונה המקורית. אם תמונה משתנה, אז כל ריבוע של 8×8 שהשינוי נגע בו צריך להיות בפוטנציאל שגיאה גבוה יותר משאר התמונה.
התוצאות מ-ELA תלויות ישירות באיכות התמונה. אולי תרצה לדעת אם משהו נוסף, אבל אם התמונה מועתקת מספר פעמים, אז ELA עשוי לאפשר רק זיהוי של שמירות חוזרות. נסה למצוא את הגרסה האיכותית ביותר של התמונה.
בעזרת הכשרה ותרגול, ELA יכולה גם ללמוד לזהות שינויי קנה מידה, איכות, חיתוך ושמירה מחדש של התמונה. לדוגמה, אם תמונה שאינה JPEG מכילה קווי רשת גלויים (ברוחב 1 פיקסל ב-8×8 ריבועים), פירוש הדבר שהתמונה התחילה כ-JPEG והומרה לפורמט שאינו JPEG (כגון PNG). אם באזורים מסוימים בתמונה חסרים קווי רשת או שקווי הרשת משתנים, אז זה מציין חיבור או חלק מצויר בתמונה שאינה JPEG.
בסעיפים הבאים, אנו מדגימים את השלבים לקביעת התצורה, ההדרכה והפריסה של מודל הראייה הממוחשבת.
תנאים מוקדמים
כדי לעקוב אחר הפוסט הזה, השלם את התנאים המוקדמים הבאים:
- יש לך חשבון AWS.
- להקים סטודיו SageMaker של אמזון. אתה יכול להפעיל במהירות את SageMaker Studio באמצעות הגדרות ברירת מחדל מראש, מה שמאפשר הפעלה מהירה. למידע נוסף, עיין ב Amazon SageMaker מפשט את ההגדרה של Amazon SageMaker Studio עבור משתמשים בודדים.
- פתח את SageMaker Studio והפעל מסוף מערכת.
- הפעל את הפקודה הבאה בטרמינל:
git clone https://github.com/aws-samples/document-tampering-detection.git
- העלות הכוללת של הפעלת SageMaker Studio עבור משתמש אחד ותצורות סביבת המחברת היא $7.314 דולר לשעה.
הגדר את מחברת ההדרכה של הדגם
השלם את השלבים הבאים כדי להגדיר את מחברת ההדרכה שלך:
- פתח את
tampering_detection_training.ipynb
קובץ מהספרייה לזיהוי מסמכים. - הגדר את סביבת המחברת עם התמונה TensorFlow 2.6 Python 3.8 CPU או GPU Optimized.
אתה עלול להיתקל בבעיה של זמינות לא מספקת או להגיע למגבלת המכסה עבור מופעי GPU בחשבון AWS שלך בעת בחירת מופעים מותאמים ל-GPU. כדי להגדיל את המכסה, בקר במסוף שירות מכסות והגדל את מגבלת השירות עבור סוג המופע הספציפי שאתה צריך. אתה יכול גם להשתמש בסביבת מחשב נייד מותאמת למעבד במקרים כאלה. - בעד גַרעִין, בחר Python3.
- בעד סוג מופע, בחר ml.m5d.24xlarge או כל מקרה גדול אחר.
בחרנו סוג מופע גדול יותר כדי להפחית את זמן האימון של המודל. עם סביבת מחברת ml.m5d.24xlarge, העלות לשעה היא $7.258 דולר לשעה.
הפעל את מחברת ההדרכה
הפעל כל תא במחברת tampering_detection_training.ipynb
בסדר. אנו דנים בכמה תאים בפירוט רב יותר בסעיפים הבאים.
הכן את מערך הנתונים עם רשימה של תמונות מקוריות ומעורבות
לפני שתפעיל את התא הבא במחברת, הכן מערך נתונים של מסמכים מקוריים ומעורפלים בהתבסס על הדרישות העסקיות הספציפיות שלך. עבור פוסט זה, אנו משתמשים במערך נתונים לדוגמה של תלושי שכר טרופים ודפי חשבון בנק. מערך הנתונים זמין בספריית התמונות של מאגר GitHub.
המחברת קוראת את התמונות המקוריות והמעורבות מה- images/training
במדריך.
מערך הנתונים לאימון נוצר באמצעות קובץ CSV עם שתי עמודות: הנתיב לקובץ התמונה והתווית של התמונה (0 לתמונה מקורית ו-1 לתמונה שחוללה).
עבד את מערך הנתונים על ידי הפקת תוצאות ה-ELA של כל תמונת אימון
בשלב זה, אנו יוצרים את תוצאת ה-ELA (באיכות של 90%) של תמונת אימון הקלט. הפונקציה convert_to_ela_image
לוקח שני פרמטרים: נתיב, שהוא הנתיב לקובץ תמונה, ואיכות, המייצג את פרמטר האיכות עבור דחיסת JPEG. הפונקציה מבצעת את השלבים הבאים:
- המר את התמונה לפורמט RGB ושמור מחדש את התמונה כקובץ JPEG עם האיכות שצוינה תחת השם tempresaved.jpg.
- חשב את ההבדל בין התמונה המקורית לתמונת ה-JPEG שנשמרה מחדש (ELA) כדי לקבוע את ההבדל המקסימלי בערכי הפיקסלים בין התמונות המקוריות והתמונות שנשמרו מחדש.
- חשב גורם קנה מידה המבוסס על ההבדל המקסימלי כדי להתאים את הבהירות של תמונת ELA.
- שפר את הבהירות של תמונת ELA באמצעות מקדם קנה המידה המחושב.
- שנה את גודל תוצאת ה-ELA ל-128x128x3, כאשר 3 מייצג את מספר הערוצים כדי להקטין את גודל הקלט לאימון.
- החזר את תמונת ELA.
בפורמטים עם אובדן תמונה כגון JPEG, תהליך השמירה הראשוני מוביל לאובדן צבע ניכר. עם זאת, כאשר התמונה נטענת ולאחר מכן מקודדת מחדש באותו פורמט אובדן, בדרך כלל יש פחות תוספת צבע. תוצאות ELA מדגישות את אזורי התמונה הרגישים ביותר להידרדרות צבע לאחר שמירתם מחדש. באופן כללי, שינויים מופיעים בצורה בולטת באזורים המציגים פוטנציאל גבוה יותר להתדרדרות בהשוואה לשאר התמונה.
לאחר מכן, התמונות מעובדות למערך NumPy לאימון. לאחר מכן, אנו מחלקים את מערך הנתונים של הקלט באופן אקראי לנתוני הדרכה ובדיקה או אימות (80/20). אתה יכול להתעלם מכל אזהרות בעת הפעלת תאים אלה.
בהתאם לגודל מערך הנתונים, הפעלת תאים אלה עשויה לקחת זמן. עבור מערך הנתונים לדוגמה שסיפקנו במאגר זה, זה יכול לקחת 5-10 דקות.
הגדר את מודל CNN
בשלב זה, אנו בונים גרסה מינימלית של רשת VGG עם מסננים קונבולוציוניים קטנים. ה-VGG-16 מורכב מ-13 שכבות קונבולוציוניות ושלוש שכבות מחוברות במלואן. צילום המסך הבא ממחיש את הארכיטקטורה של מודל הרשת הקונבולוציונית שלנו (CNN).
שימו לב לתצורות הבאות:
- קֶלֶט – הדגם מקבל גודל קלט תמונה של 128x128x3.
- שכבות מעוררות – השכבות הקונבולוציוניות משתמשות בשדה קליטה מינימלי (3×3), הגודל הקטן ביותר האפשרי שעדיין לוכד למעלה/מטה ושמאל/ימינה. לאחר מכן, פונקציית הפעלה של יחידה לינארית מתוקנת (ReLU) שמפחיתה את זמן האימון. זוהי פונקציה לינארית שתוציא את הקלט אם חיובי; אחרת, הפלט הוא אפס. צעד הפיתול קבוע בברירת המחדל (1 פיקסל) כדי לשמור על הרזולוציה המרחבית שנשמרה לאחר הפיתול (צעד הוא מספר הזזות הפיקסלים על מטריצת הקלט).
- שכבות מחוברות לחלוטין – לרשת שתי שכבות מחוברות במלואן. השכבה הצפופה הראשונה משתמשת בהפעלת ReLU, והשנייה משתמשת ב-softmax כדי לסווג את התמונה כמקורית או כמשופרת.
אתה יכול להתעלם מכל אזהרות בעת הפעלת תאים אלה.
שמור את חפצי הדגם
שמור את הדגם המאומן עם שם קובץ ייחודי - לדוגמה, בהתבסס על התאריך והשעה הנוכחיים - בספרייה בשם model.
הדגם נשמר בפורמט Keras עם ההרחבה .keras
. אנו גם שומרים את חפצי המודל כספרייה בשם 1 המכילה חתימות מסודרות והמצב הדרוש להפעלתן, כולל ערכים משתנים ואוצר מילים לפריסה בזמן ריצה של SageMaker (עליה נדון בהמשך הפוסט הזה).
מדידת ביצועי המודל
עקומת ההפסד הבאה מציגה את התקדמות ההפסד של המודל על פני תקופות אימון (איטרציות).
פונקציית ההפסד מודדת עד כמה תחזיות המודל תואמות את היעדים בפועל. ערכים נמוכים יותר מצביעים על התאמה טובה יותר בין התחזיות לבין הערכים האמיתיים. ירידה בהפסד בתקופות מסמלת שהמודל משתפר. עקומת הדיוק ממחישה את הדיוק של הדגם על פני תקופות אימון. דיוק הוא היחס בין התחזיות הנכונות למספר הכולל של התחזיות. דיוק גבוה יותר מצביע על מודל בעל ביצועים טובים יותר. בדרך כלל, הדיוק עולה במהלך האימון ככל שהמודל לומד דפוסים ומשפר את יכולת הניבוי שלו. אלה יעזרו לך לקבוע אם המודל מתאים יותר מדי (מציג ביצועים טובים בנתוני אימון אך גרוע בנתונים בלתי נראים) או לא מתאים (לא לומד מספיק מנתוני האימון).
מטריצת הבלבול הבאה מייצגת באופן חזותי עד כמה המודל מבחין במדויק בין המחלקות החיוביות (תמונה מזויפת, מיוצגת כערך 1) והשלילית (תמונה ללא שיבוש, המיוצגת כערך 0).
לאחר הכשרת המודל, השלב הבא שלנו כולל פריסת מודל הראייה הממוחשבת כ-API. API זה ישולב ביישומים עסקיים כמרכיב בזרימת העבודה של החיתום. כדי להשיג זאת, אנו משתמשים באמזון SageMaker Inference, שירות מנוהל במלואו. שירות זה משתלב בצורה חלקה עם כלי MLOps, ומאפשר פריסת מודלים ניתנים להרחבה, הסקה חסכונית, ניהול מודלים משופר בייצור ומורכבות תפעולית מופחתת. בפוסט זה, אנו פורסים את המודל כנקודת קצה בזמן אמת. עם זאת, חשוב לציין שבהתאם לזרימת העבודה של היישומים העסקיים שלך, פריסת המודל יכולה להיות מותאמת גם כעיבוד אצווה, טיפול אסינכרוני או באמצעות ארכיטקטורת פריסה ללא שרת.
הגדר את מחברת הפריסה של הדגם
השלם את השלבים הבאים כדי להגדיר את מחברת פריסת המודל שלך:
- פתח את
tampering_detection_model_deploy.ipynb
קובץ מהספרייה לזיהוי מסמכים. - הגדר את סביבת המחברת עם התמונה Data Science 3.0.
- בעד גַרעִין, בחר Python3.
- בעד סוג מופע, בחר ml.t3.בינוני.
עם סביבת מחברת ml.t3.medium, העלות לשעה היא $0.056 דולר.
צור מדיניות מוטבעת מותאמת אישית עבור תפקיד SageMaker כדי לאפשר את כל הפעולות של Amazon S3
השמיים AWS זהות וניהול גישה תפקיד (IAM) עבור SageMaker יהיה בפורמט AmazonSageMaker- ExecutionRole-<random numbers>
. ודא שאתה משתמש בתפקיד הנכון. את שם התפקיד ניתן למצוא תחת פרטי המשתמש בתצורות הדומיין של SageMaker.
עדכן את תפקיד IAM כך שיכלול מדיניות מוטבעת שתאפשר לכולם שירות אחסון פשוט של אמזון (Amazon S3) פעולות. זה יידרש כדי להפוך את היצירה והמחיקה של דלי S3 לאוטומטיים שיישמרו את חפצי הדגם. אתה יכול להגביל את הגישה לדלי S3 ספציפיים. שים לב שהשתמשנו בתו כללי עבור שם הדלי S3 במדיניות IAM (tamperingdetection*
).
הפעל את מחברת הפריסה
הפעל כל תא במחברת tampering_detection_model_deploy.ipynb
בסדר. אנו דנים בכמה תאים בפירוט רב יותר בסעיפים הבאים.
צור דלי S3
הפעל את התא כדי ליצור דלי S3. הדלי ייקרא בשם tamperingdetection<current date time>
ובאותו אזור AWS כמו סביבת SageMaker Studio שלך.
צור את ארכיון חפצי הדגם והעלה לאמזון S3
צור קובץ tar.gz מממצאי המודל. שמרנו את חפצי המודל כספרייה בשם 1, המכילה חתימות מסודרות והמצב הדרוש להפעלתן, כולל ערכים משתנים ואוצר מילים לפריסה בזמן הריצה של SageMaker. אתה יכול גם לכלול קובץ מסקנות מותאם אישית בשם inference.py
בתוך תיקיית הקוד בחפץ הדגם. ניתן להשתמש בהסקה המותאמת אישית לעיבוד מקדים ולאחר עיבוד של תמונת הקלט.
צור נקודת קצה של מסקנות של SageMaker
התא ליצירת נקודת קצה של מסקנות של SageMaker עשויה להימשך מספר דקות.
בדוק את נקודת הסיום
הפונקציה check_image
מעבד מראש תמונה כתמונת ELA, שולח אותה לנקודת קצה של SageMaker לצורך הסקה, מאחזר ומעבד את התחזיות של המודל ומדפיס את התוצאות. המודל לוקח מערך NumPy של תמונת הקלט כתמונת ELA כדי לספק תחזיות. החיזויים מופקים כ-0, המייצגת תמונה שלא נפגעה, ו-1, המייצגת תמונה מזויפת.
בואו נפעיל את הדגם עם תמונה לא מעורפלת של תלוש תשלום ונבדוק את התוצאה.
המודל מוציא את הסיווג כ-0, המייצג תמונה לא מעורפלת.
עכשיו בואו נפעיל את הדגם עם תמונה משובשת של תלוש תשלום ונבדוק את התוצאה.
המודל מוציא את הסיווג כ-1, המייצג תמונה מזויפת.
מגבלות
למרות ש-ELA הוא כלי מצוין לסיוע בזיהוי שינויים, ישנן מספר מגבלות, כגון הבאות:
- שינוי פיקסל בודד או התאמת צבע קלה עשויים שלא ליצור שינוי ניכר ב-ELA מכיוון ש-JPEG פועל על רשת.
- ELA מזהה רק באילו אזורים יש רמות דחיסה שונות. אם תמונה באיכות נמוכה יותר מתחברת לתמונה באיכות גבוהה יותר, התמונה באיכות נמוכה יותר עשויה להופיע כאזור כהה יותר.
- קנה מידה, צביעה מחדש או הוספת רעש לתמונה ישנו את התמונה כולה, ויצרו פוטנציאל רמת שגיאה גבוה יותר.
- אם תמונה נשמרת מספר פעמים, ייתכן שהיא תהיה כולה ברמת שגיאה מינימלית, כאשר יותר שמירות חוזרות לא משנות את התמונה. במקרה זה, ה-ELA יחזיר תמונה שחורה ולא ניתן לזהות שינויים באמצעות אלגוריתם זה.
- עם Photoshop, הפעולה הפשוטה של שמירת התמונה יכולה לחדד אוטומטית טקסטורות וקצוות, וליצור פוטנציאל רמת שגיאה גבוה יותר. חפץ זה אינו מזהה שינוי מכוון; זה מזהה שהשתמשו במוצר של Adobe. מבחינה טכנית, ELA מופיע כשינוי מכיוון ש-Adobe ביצעה שינוי אוטומטי, אך השינוי לא היה בהכרח מכוון על ידי המשתמש.
אנו ממליצים להשתמש ב-ELA לצד טכניקות אחרות שנדונו בעבר בבלוג על מנת לזהות מגוון גדול יותר של מקרי מניפולציה של תמונות. ELA יכול לשמש גם ככלי עצמאי לבחינה ויזואלית של פערי תמונה, במיוחד כאשר אימון מודל מבוסס CNN הופך למאתגר.
לנקות את
כדי להסיר את המשאבים שיצרת כחלק מפתרון זה, בצע את השלבים הבאים:
- הפעל את תאי המחברת מתחת ל- ניקוי סָעִיף. פעולה זו תמחק את הדברים הבאים:
- נקודת קצה של מסקנות של SageMaker – השם של נקודת הקצה יהיה
tamperingdetection-<datetime>
. - חפצים בתוך דלי S3 ודלי S3 עצמו – שם הדלי יהיה
tamperingdetection<datetime>
.
- נקודת קצה של מסקנות של SageMaker – השם של נקודת הקצה יהיה
- כבה משאבי מחברת SageMaker Studio.
סיכום
בפוסט זה הצגנו פתרון מקצה לקצה לזיהוי שיבוש מסמכים והונאות באמצעות למידה עמוקה ו- SageMaker. השתמשנו ב-ELA כדי לעבד מראש תמונות ולזהות אי התאמות ברמות הדחיסה שעשויות להצביע על מניפולציה. לאחר מכן הכשרנו מודל של CNN על מערך הנתונים המעובד הזה כדי לסווג תמונות כמקוריות או משובשות.
המודל יכול להשיג ביצועים חזקים, עם דיוק של מעל 95% עם מערך נתונים (מזויף ומקורי) המתאים לדרישות העסקיות שלך. זה מצביע על כך שהוא יכול לזהות באופן אמין מסמכים מזויפים כמו תלושי שכר ודפי חשבון בנק. המודל המאומן נפרס לנקודת קצה של SageMaker כדי לאפשר הסקת השהייה נמוכה בקנה מידה. על ידי שילוב פתרון זה בזרימות עבודה של משכנתאות, מוסדות יכולים לסמן אוטומטית מסמכים חשודים להמשך חקירת הונאה.
למרות עוצמה, ל-ELA יש כמה מגבלות בזיהוי סוגים מסוימים של מניפולציות עדינות יותר. כצעדים הבאים, ניתן לשפר את המודל על ידי שילוב טכניקות משפטיות נוספות באימון ושימוש במערכי נתונים גדולים ומגוונים יותר. בסך הכל, פתרון זה מדגים כיצד ניתן להשתמש בלמידה עמוקה ובשירותי AWS כדי לבנות פתרונות משפיעים אשר מגבירים את היעילות, מפחיתים סיכונים ומונעים הונאה.
בחלק 3, אנו מדגימים כיצד ליישם את הפתרון ב- Amazon Fraud Detector.
על המחברים
אנופ רבינדרנאת הוא ארכיטקט פתרונות בכיר בחברת Amazon Web Services (AWS) שבסיסה בטורונטו, קנדה ועובד עם ארגוני שירותים פיננסיים. הוא עוזר ללקוחות לשנות את העסקים שלהם ולחדש בענן.
ויני סייני הוא ארכיטקט פתרונות בכיר בחברת Amazon Web Services (AWS) שבסיסה בטורונטו, קנדה. היא עוזרת ללקוחות שירותים פיננסיים לבצע שינוי בענן, עם פתרונות מונעי בינה מלאכותית ו-ML מונחים על עמודי יסוד חזקים של מצוינות אדריכלית.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/train-and-host-a-computer-vision-model-for-tampering-detection-on-amazon-sagemaker-part-2/
- :יש ל
- :הוא
- :לֹא
- :איפה
- $ למעלה
- 056
- 1
- 100
- 13
- 195
- 258
- 408
- 75
- 8
- 95%
- a
- יכולת
- אודות
- גישה
- נגיש
- חֶשְׁבּוֹן
- דיוק
- במדויק
- להשיג
- לרוחב
- לפעול
- פעולות
- הפעלה
- ממשי
- הוסיף
- מוסיף
- נוסף
- מוסיף
- לְהַתְאִים
- התאמה
- Adobe
- לאחר
- נגד
- AI
- המטרה
- אַלגוֹרִיתְם
- יישור
- תעשיות
- להתיר
- מאפשר
- כמעט
- לאורך
- בַּצַד
- גם
- שיניתי
- אמזון בעברית
- גלאי הונאות של אמזון
- אמזון SageMaker
- סטודיו SageMaker של אמזון
- אמזון שירותי אינטרנט
- אמזון שירותי אינטרנט (AWS)
- כמות
- an
- אנליזה
- לנתח
- ניתוח
- ו
- אחר
- כל
- API
- לְהוֹפִיעַ
- מופיע
- יישומים
- יישומית
- גישה
- בערך
- אדריכלי
- ארכיטקטורה
- ארכיון
- ARE
- AREA
- אזורים
- מערך
- AS
- מניח
- At
- אוטומטי
- באופן אוטומטי
- זמינות
- זמין
- AWS
- בנק
- מבוסס
- כדורסל
- BE
- כי
- הופך להיות
- היה
- הטוב ביותר
- מוטב
- בֵּין
- שחור
- בלוג
- לְהַגבִּיר
- בָּהִיר
- לִבנוֹת
- בִּניָן
- עסקים
- יישומים עסקיים
- עסקים
- אבל
- by
- מחושב
- נקרא
- חדר
- CAN
- קנדה
- לוכדת
- מקרה
- מקרים
- היאבקות
- תא
- תאים
- מסוים
- אתגר
- שינוי
- שינויים
- ערוצים
- מאפיינים
- לבדוק
- בחרו
- כיתות
- מיון
- לסווג
- בבירור
- ענן
- CNN
- קוד
- צֶבַע
- עמודות
- שילוב
- לְהַשְׁווֹת
- לעומת
- השוואה
- להשלים
- לחלוטין
- מורכבות
- רְכִיב
- המחשב
- ראייה ממוחשבת
- תצורה
- בלבול
- יחד
- מחובר
- רב
- עִקבִי
- מורכב
- קונסול
- לבנות
- מכיל
- להמיר
- הומר
- רשת עצבית convolutional
- לתקן
- עלות
- יכול
- CPU
- לִיצוֹר
- נוצר
- יוצרים
- יצירה
- נוֹכְחִי
- זונה
- מנהג
- לקוחות
- כהה יותר
- נתונים
- מדע נתונים
- מערכי נתונים
- תַאֲרִיך
- ירידה
- עמוק
- למידה עמוקה
- בְּרִירַת מֶחדָל
- להפגין
- מדגים
- מציין
- צפוף
- לסמוך
- תלוי
- תלוי
- לפרוס
- פרס
- פריסה
- פריסה
- פרט
- פרטים
- לאתר
- איתור
- לקבוע
- לפתח
- תרשים
- הבדל
- ההבדלים
- אחר
- דיגיטלי
- ישירות
- לדון
- נָדוֹן
- מציג
- מבדיל
- שונה
- do
- מסמך
- מסמכים
- לא
- תחום
- נמשך
- מונע
- בְּמַהֲלָך
- כל אחד
- בקלות
- אדג '
- אפקטיבי
- יְעִילוּת
- להדגיש
- העסקת
- לאפשר
- מה שמאפשר
- מקצה לקצה
- נקודת קצה
- משופר
- הגברה
- מספיק
- שלם
- לַחֲלוּטִין
- סביבה
- תקופות
- שגיאה
- שגיאות
- במיוחד
- Ether (ETH)
- אֲפִילוּ
- כל
- בוחן
- דוגמה
- אקסלנס
- מצוין
- תערוכה
- תערוכות
- נרחב
- צפוי
- מומחיות
- הארכה
- עין
- הקלה
- גורם
- מעטים
- שדה
- שלח
- מסננים
- כספי
- שירותים פיננסיים
- ראשון
- קבוע
- דירה
- לעקוב
- בעקבות
- הבא
- בעד
- משפטי
- זיהוי פלילי
- מזויף
- פוּרמָט
- מצא
- קרן
- יסוד
- ארבע
- הונאה
- החל מ-
- לגמרי
- פונקציה
- נוסף
- בדרך כלל
- ליצור
- מייצר
- יצירת
- gif
- Git
- טוב
- GPU
- יותר
- רֶשֶׁת
- הדרכה
- היה
- טיפול
- קשה
- חומרה
- יש
- יש
- he
- לעזור
- עזרה
- עוזר
- גבוה יותר
- להבליט
- פסים
- מכה
- המארח
- אירח
- שעה
- איך
- איך
- אולם
- HTML
- http
- HTTPS
- IAM
- מזוהה
- מזהה
- לזהות
- זיהוי
- זהות
- IEEE
- if
- להתעלם
- מדגים
- תמונה
- תמונות
- בר - השפעה
- ליישם
- חשוב
- משפר
- שיפור
- in
- לכלול
- כולל
- חוסר עקביות
- שילוב
- להגדיל
- עליות
- עצמאי
- באופן עצמאי
- להצביע
- מצביע על
- בנפרד
- מידע
- בתחילה
- ליזום
- לחדש
- קלט
- למשל
- מקרים
- מוסדות
- משולב
- משלב
- שילוב
- מְכוּוָן
- אל תוך
- מבוא
- מציג
- חקירה
- כרוך
- סוגיה
- IT
- איטרציות
- שֶׁלָה
- עצמו
- jpg
- שמור
- keras
- לדעת
- ידוע
- תווית
- חוסר
- גָדוֹל
- גדול יותר
- מאוחר יותר
- לשגר
- שכבה
- שכבות
- מוביל
- לִלמוֹד
- למידה
- פחות
- רמה
- רמות
- קַל מִשְׁקָל
- כמו
- סְבִירוּת
- סביר
- להגביל
- מגבלות
- קווים
- קווים
- רשימה
- לוקליזציה
- נראה
- את
- להוריד
- מכונה
- למידת מכונה
- עשוי
- בעיקר
- לעשות
- עושה
- עשייה
- הצליח
- ניהול
- מניפולציה
- רב
- להתאים
- מַטרִיצָה
- מקסימום
- מאי..
- אומר
- אמצעים
- בינוני
- לִפְגוֹשׁ
- שיטה
- שיטות
- מינימלי
- מינימום
- קטין
- דקות
- ML
- MLOps
- מודל
- שינויים
- שונים
- לשנות
- יותר
- משכנתה
- רוב
- מספר
- שם
- שם
- בהכרח
- צורך
- נחוץ
- שלילי
- רשת
- רשתות
- עצביים
- רשת עצבית
- אף על פי כן
- הבא
- לא
- רעש
- הערות
- מחברה
- מספר
- קהות
- מטרה
- ברור
- of
- לעתים קרובות
- on
- ONE
- רק
- פועל
- מבצעי
- אופטימיזציה
- or
- להזמין
- ארגונים
- מְקוֹרִי
- בְּמָקוֹר
- אחר
- אַחֶרֶת
- שלנו
- תוצאות
- תפוקה
- פלטים
- יותר
- מקיף
- פרמטר
- פרמטרים
- חלק
- מסוים
- חלקים
- נתיב
- דפוסי
- עבור
- ביצועים
- ביצעתי
- ביצוע
- מבצע
- צילום
- פוטושופ
- תמונה
- עמודים
- פיקסל
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- עלילה
- מדיניות
- חלק
- חיובי
- אפשרי
- הודעה
- פוטנציאל
- פוטנציאלים
- חזק
- תרגול
- נבואה
- התחזיות
- מנבא
- להכין
- תנאים מוקדמים
- להציג
- מוצג
- השתמר
- למנוע
- קוֹדֶם
- הדפסים
- תהליך
- מעובד
- תהליכים
- תהליך
- המוצר
- הפקה
- התקדמות
- לספק
- ובלבד
- פיתון
- איכות
- שאלה
- מהר
- אקראי
- רכס
- מהיר
- ציון
- יחס
- עולם אמיתי
- זמן אמת
- תחום
- סיבות
- מקבל
- להכיר
- להמליץ
- תיקן
- להפחית
- מופחת
- מפחית
- להתייחס
- באזור
- אזורים
- חידוש
- לסמוך
- הסרה
- להסיר
- טיוח
- מאגר
- מיוצג
- המייצג
- מייצג
- לדרוש
- נדרש
- דרישות
- דורש
- החלטה
- משאבים
- REST
- מוגבל
- תוצאה
- תוצאות
- לַחֲזוֹר
- RGB
- הסיכון
- תפקיד
- הפעלה
- ריצה
- בעל חכמים
- SageMaker Inference
- אותו
- מערך נתונים לדוגמה
- שמור
- הציל
- חסכת
- להרחבה
- סולם
- דרוג
- תרחישים
- מדע
- בצורה חלקה
- בצורה חלקה
- שְׁנִיָה
- סעיף
- סעיפים
- נבחר
- בחירה
- שולח
- לחצני מצוקה לפנסיונרים
- סדרה
- לשרת
- ללא שרת
- שרות
- שירותים
- סט
- התקנה
- היא
- משמרת
- משמרות
- צריך
- הופעות
- חתימות
- מסמל
- שלטים
- דומה
- פָּשׁוּט
- מפשט
- יחיד
- מידה
- קטן
- להחליק
- פִּתָרוֹן
- פתרונות
- כמה
- משהו
- מרחבית
- מיוחד
- ספציפי
- במיוחד
- מפורט
- לפצל
- מסחרי
- מרובע
- ריבועים
- החל
- מדינה
- הצהרות
- שלב
- צעדים
- עוד
- אחסון
- חנות
- פסיעה
- חזק
- סטודיו
- כתוצאה מכך
- כזה
- מציע
- בטוח
- משטח
- apt
- חשוד
- במהירות
- מערכת
- מותאם
- לקחת
- לוקח
- מטרות
- מבחינה טכנית
- טכניקה
- טכניקות
- tensorflow
- מסוף
- מבחן
- בדיקות
- מֵאֲשֶׁר
- זֶה
- השמיים
- המדינה
- שֶׁלָהֶם
- אותם
- אז
- שם.
- אלה
- דברים
- זֶה
- שְׁלוֹשָׁה
- דרך
- זמן
- פִּי
- ל
- כלי
- כלים
- טורונטו
- סה"כ
- נגע
- רכבת
- מְאוּמָן
- הדרכה
- לשנות
- טרנספורמציות
- נָכוֹן
- לנסות
- שתיים
- סוג
- סוגים
- בדרך כלל
- תחת
- בְּסִיסִי
- חיתום
- ייחודי
- יחידה
- עדכון
- על
- ש״ח
- להשתמש
- במקרה להשתמש
- מְשׁוּמָשׁ
- משתמש
- שימושים
- באמצעות
- אימות
- ערך
- ערכים
- משתנה
- שונים
- גרסה
- נראה
- חזון
- לְבַקֵר
- חזותי
- מבחינה ויזואלית
- רוצה
- היה
- we
- אינטרנט
- שירותי אינטרנט
- טוֹב
- היו
- מה
- מתי
- אשר
- רָחָב
- יצטרך
- עם
- בתוך
- לְלֹא
- זרימת עבודה
- זרימות עבודה
- עובד
- עובד
- אתה
- זפירנט
- אפס