با نمایه‌ساز داده‌های خودکار برای آشکارساز تقلب آمازون، مدل‌های قطار را سریع‌تر انجام دهید

گره منبع: 1274468

ردیاب تقلب آمازون یک سرویس کاملاً مدیریت شده است که شناسایی فعالیت‌های بالقوه جعلی آنلاین، مانند ایجاد حساب‌های جعلی یا کلاهبرداری پرداخت آنلاین را آسان می‌کند. آشکارساز تقلب آمازون از یادگیری ماشینی (ML) در زیر سرپوش استفاده می کند و بر اساس بیش از 20 سال تخصص تشخیص تقلب از آمازون است. این به طور خودکار فعالیت های تقلبی بالقوه را در میلی ثانیه شناسایی می کند - بدون نیاز به تخصص ML.

برای آموزش یک مدل در Amazon Fraud Detector، باید یک مجموعه داده تاریخی ارائه کنید. آشکارساز تقلب آمازون برای استفاده به دانش علم داده نیاز ندارد. با این حال، آن را دارد الزامات خاص در مورد کیفیت داده ها و قالب ها برای اطمینان از استحکام مدل های ML. ممکن است گاهی اوقات به دلیل خطاهای فرمت و اعتبارسنجی ساده با خطاهای آموزش مدل مواجه شوید که منجر به زمان و تلاش اضافی برای آماده سازی مجدد داده ها و آموزش مجدد مدل می شود. علاوه بر این، ردیاب تقلب آمازون از شما می خواهد که a نوع متغیر برای هر متغیر در مجموعه داده در طول ایجاد مدل. ممکن است ارائه پیشنهادهایی برای انتخاب انواع متغیرهای آشکارساز تقلب آمازون بر اساس آمار داده های شما مفید باشد.

در این پست، ما یک پروفایل خودکار داده برای آشکارساز تقلب آمازون ارائه می دهیم. می‌تواند یک گزارش بصری و جامع از مجموعه داده شما ایجاد کند، که شامل انواع متغیرهای پیشنهادی آشکارساز تقلب آمازون برای هر متغیر در مجموعه داده، و مشکلات کیفیت داده‌ها است که ممکن است به طور بالقوه در آموزش مدل شکست بخورد یا به عملکرد مدل آسیب برساند. نمایه ساز داده همچنین گزینه ای برای قالب بندی مجدد و تبدیل مجموعه داده برای برآورده کردن الزامات در آشکارساز تقلب آمازون ارائه می دهد که می تواند از برخی خطاهای اعتبارسنجی احتمالی در آموزش مدل جلوگیری کند. این پروفایلر داده خودکار با یک ساخته شده است AWS CloudFormation stack که به راحتی می توانید با چند کلیک راه اندازی کنید و نیازی به دانش داده یا دانش برنامه نویسی ندارد.

بررسی اجمالی راه حل

نمودار زیر معماری نمایه ساز داده خودکار را نشان می دهد که از آن استفاده می کند چسب AWS, AWS لامبدا, سرویس ذخیره سازی ساده آمازون (Amazon S3) و AWS CloudFormation.

می‌توانید پروفایل‌کننده داده را با ویژگی راه‌اندازی سریع AWS CloudFormation راه‌اندازی کنید. پشته یک تابع Lambda ایجاد و راه اندازی می کند، که به طور خودکار یک کار چسب AWS را راه اندازی می کند. کار چسب AWS فایل داده‌های CSV شما را می‌خواند، پروفایل‌ها و قالب‌بندی مجدد داده‌های شما، و فایل گزارش HTML و کپی فرمت‌شده CSV را در یک سطل S3 ذخیره می‌کند.

تصویر زیر نمونه ای از گزارش پروفایل را نشان می دهد. شما همچنین می توانید مشاهده کنید نمونه گزارش کامل.

گزارش نمونه، مجموعه داده مصنوعی، و کدهای نمایه ساز داده خودکار در دسترس هستند GitHub.

نمایه ساز داده را راه اندازی کنید

برای راه اندازی پروفایلر مراحل زیر را دنبال کنید:

  1. AWS CloudFormation زیر را انتخاب کنید لینک راه اندازی سریع.

این یک صفحه راه اندازی سریع AWS CloudFormation را باز می کند.

  1. منطقه خود را برای ایجاد تمام منابع در آن منطقه انتخاب کنید.
  2. برای CSVFilePath، مسیر S3 را به فایل CSV خود وارد کنید.

گزارش پروفایل خروجی و فایل CSV فرمت شده در زیر یک سطل ذخیره می شوند.

  1. برای EventTimestampColumn، نام سرصفحه ستون مهر زمان رویداد را وارد کنید.

این یک ستون اجباری است که توسط Amazon Fraud Detector مورد نیاز است. فرمت کننده داده این نام هدر را به EVENT_TIMESTAMP.

  1. برای LabelColumn، نام هدر ستون برچسب را وارد کنید.

این یک ستون اجباری است که توسط Amazon Fraud Detector مورد نیاز است. فرمت کننده داده این نام هدر را به EVENT_LABEL.

  1. برای FileDelimiter، جداکننده فایل CSV خود را وارد کنید (به طور پیش فرض، این یک کاما است).
  2. برای FormatCSV، انتخاب کنید که آیا می خواهید فایل CSV را به فرمت مورد نیاز ردیاب تقلب آمازون فرمت کنید (به طور پیش فرض، این بله).

این نام سرصفحه ها، قالب های مهر زمانی و قالب های برچسب را تغییر می دهد. کپی قالب‌بندی‌شده داده‌های CSV شما در همان سطل CSV ورودی ذخیره می‌شود.

  1. برای DropTimestampMissingRows، انتخاب کنید که آیا می خواهید ردیف هایی با مُهر زمانی از دست رفته در کپی فرمت شده CSV رها شود یا خیر.

رویدادهای دارای مهر زمانی گم شده توسط Amazon Fraud Detector استفاده نمی‌شوند و ممکن است باعث خطاهای اعتبار سنجی شوند، بنابراین پیشنهاد می‌کنیم این را روی بله.

  1. برای DropLabelMissingRows، انتخاب کنید که آیا می خواهید ردیف هایی با برچسب های از دست رفته رها شوند یا خیر.
  2. برای ProfileCSV، انتخاب کنید که آیا می خواهید فایل CSV را نمایه کنید (به طور پیش فرض این است بله).

این یک گزارش پروفایل از داده‌های CSV شما ایجاد می‌کند و آن را در همان سطل CSV ورودی ذخیره می‌کند.

  1. برای پسوند گزارش (اختیاری)، یک پسوند برای گزارش مشخص کنید (گزارش نامگذاری شده است report_<ReportSuffix>.html).
  2. برای FeatureCorr، انتخاب کنید که آیا می خواهید همبستگی ویژگی های جفتی در گزارش نمایه سازی نشان داده شود.

همبستگی برای هر جفت ویژگی نشان می دهد که یک ویژگی چقدر به دیگری بستگی دارد. توجه داشته باشید که محاسبه همبستگی ویژگی جفتی 10 تا 20 دقیقه بیشتر طول می کشد، بنابراین این گزینه روی تنظیم شده است. نه به صورت پیش فرض.

  1. برای برچسب های تقلب (اختیاری)، مشخص کنید که کدام مقادیر برچسب باید به عنوان تقلب در نظر گرفته شوند.

این گزارش توزیع برچسب های نقشه برداری شده، یعنی تقلب و غیر تقلب را نشان می دهد. می توانید چندین مقدار برچسب را با جدا کردن با کاما مشخص کنید، به عنوان مثال، suspicious, fraud. اگر این گزینه را خالی بگذارید، گزارش توزیع مقادیر برچسب اصلی را نشان می دهد.

نمودارهای مثال زیر استفاده از آن را نشان می دهد FraudLabels=’suspicious,fraud’ (سمت چپ) و خالی FraudLabels (درست).

چند دقیقه صبر کنید تا منابع زیر ایجاد شوند:

  • DataAnalyzerGlueJob – کار چسب AWS که داده های شما را پروفایل و فرمت می کند.
  • AWSGlueJobRole - هویت AWS و مدیریت دسترسی نقش (IAM) برای کار چسب AWS با AWSGlueServiceRole و AWSGlueConsoleFullAccess سیاست های. همچنین دارای یک خط مشی مدیریت شده توسط مشتری با مجوز خواندن و نوشتن فایل ها در سطل تعریف شده در آن است CSVFilePath.
  • S3CustomResource و عملکرد AWSLambda – تابع Lambda کمکی و منبع AWS CloudFormation برای فعال کردن کار چسب AWS.
  • AWSLambdaExecutionRole - نقش IAM برای تابع Lambda برای راه اندازی کار چسب AWS AWSGlueServiceNotebookRole, AWSGlueServiceRoleو AWSLambdaExecute سیاست های.
  1. هنگامی که کار چسب AWS کامل شد، که معمولاً چند دقیقه پس از ایجاد پشته است، سطل خروجی S3 را باز کنید.

اگر فایل ورودی شما مسیر S3 است s3://my_bucket/my_file.csv، فایل های خروجی در زیر پوشه ذخیره می شوند s3://my_bucket/afd_data_my_file.

گزارش نمایه ساز داده را بررسی کنید

نمایه ساز داده یک گزارش HTML ایجاد می کند که آمار داده های شما را فهرست می کند. ما از یک مجموعه داده مصنوعی برای راهنمایی شما در هر بخش از گزارش استفاده می کنیم.

بررسی اجمالی

این بخش آمار کلی داده‌های شما، مانند تعداد رکورد و محدوده داده‌ها را توضیح می‌دهد.

خلاصه میدان

این بخش آمار اولیه هر یک از ویژگی های شما را شرح می دهد. نوع متغیر استنباط شده به عنوان مرجعی برای نگاشت متغیرهای موجود در داده های شما به لیستی از ارائه شده است انواع متغیرهای از پیش تعریف شده توسط آشکارساز تقلب آمازون. نوع متغیر استنباط شده بر اساس آمار داده ها است. توصیه می‌کنیم در صورت امکان انواع متغیرها را بر اساس دانش دامنه خود انتخاب کنید و اگر مطمئن نیستید به نوع متغیر پیشنهادی مراجعه کنید.

هشدارهای میدانی

این بخش پیام‌های هشداری را از اعتبارسنجی داده‌های اصلی Amazon Fraud Detector، از جمله تعداد مقادیر منحصربه‌فرد و تعداد مقادیر گمشده نشان می‌دهد. می توانید مراجعه کنید عیب یابی ردیاب تقلب آمازون برای راه حل های پیشنهادی

بلوغ داده و برچسب

این بخش توزیع کلاهبرداری داده های شما را در طول زمان نشان می دهد. نمودار تعاملی است (برای مثال به اسکرین شات زیر مراجعه کنید): پیمایش نشانگر روی طرح به شما امکان بزرگنمایی یا کوچکنمایی را می دهد. کشیدن طرح به چپ یا راست، محدوده محور x را تغییر می دهد. و تغییر دادن افسانه می تواند نوارها یا منحنی های مربوطه را پنهان یا نشان دهد. می توانید کلیک کنید بزرگنمایی را مجدداً تنظیم کنید برای بازنشانی نمودار

باید بررسی کنید که زمان کافی برای بلوغ برچسب وجود دارد. دوره بلوغ به کسب و کار شما بستگی دارد و می تواند از 2 هفته تا 90 روز طول بکشد. به عنوان مثال، اگر سررسید برچسب شما 30 روز است، مطمئن شوید که آخرین رکوردها در مجموعه داده شما حداقل 30 روز است.

همچنین باید بررسی کنید که توزیع برچسب در طول زمان نسبتاً پایدار باشد. مطمئن شوید که رویدادهای کلاس‌های برچسب مختلف مربوط به یک دوره زمانی هستند.

تجزیه و تحلیل ویژگی های طبقه بندی شده

این بخش توزیع برچسب را در بین دسته‌ها برای هر ویژگی دسته‌بندی نشان می‌دهد. می توانید تعداد رکوردهای هر کلاس برچسب در یک دسته و درصدهای مربوطه را مشاهده کنید. به طور پیش فرض، 100 دسته برتر را نمایش می دهد و می توانید طرح را بکشید و اسکرول کنید تا در مجموع تا 500 دسته را ببینید.

می‌توانید از میان چندین گزینه مرتب‌سازی، یکی را انتخاب کنید که به بهترین وجه متناسب با نیاز شما باشد:

  • مرتب سازی بر اساس اکثر رکوردها - دسته هایی را با بیشترین رکورد نشان می دهد که نشان دهنده توزیع کلی دسته ها است.
  • مرتب سازی بر اساس اکثر رکوردهای label=NON-FRAUD - دسته هایی را با بیشترین رکورد از کلاس NON-FRAUD نشان می دهد. این دسته بندی ها به اکثر جمعیت قانونی کمک می کنند.
  • مرتب سازی بر اساس اکثر رکوردهای برچسب≠NON-FRAUD - دسته بندی هایی را با بیشترین رکورد از کلاس FRAUD نشان می دهد. این دسته بندی ها در بیشتر جمعیت کلاهبرداری نقش دارند.
  • مرتب سازی بر اساس کمترین درصد label=NON-FRAUD - دسته هایی را با بالاترین نرخ کلاهبرداری نشان می دهد که دسته های پرخطر هستند.

شما می توانید انتخاب کنید که کدام داده بر روی آن رسم شود گزینه های نمایش داده ها منو. تغییر دادن افسانه ها همچنین می تواند نوارها یا منحنی های مربوطه را نشان دهد یا پنهان کند.

تجزیه و تحلیل ویژگی های عددی

این بخش توزیع برچسب هر یک از ویژگی های عددی را نشان می دهد. مقادیر عددی به bin ها تقسیم می شوند و می توانید تعداد رکوردهای هر کلاس برچسب و همچنین درصد را در هر bin مشاهده کنید.

همبستگی ویژگی و برچسب

این بخش ارتباط بین هر ویژگی و برچسب را در یک نمودار نشان می دهد. می توانید این نمودار همبستگی را با هم ترکیب کنید اهمیت متغیر مدل مقادیر تولید شده توسط ردیاب تقلب آمازون پس از آموزش مدل برای شناسایی نشت بالقوه برچسب. به عنوان مثال، اگر یک ویژگی بیش از 0.99 با برچسب همبستگی داشته باشد و اهمیت متغیر آن به طور قابل توجهی بالاتر از سایر ویژگی ها باشد، خطر نشت برچسب در آن ویژگی وجود دارد. نشت برچسب زمانی اتفاق می افتد که برچسب کاملاً به یک ویژگی وابسته باشد. در نتیجه، مدل به شدت بر روی آن ویژگی نصب شده است و الگوی تقلب واقعی را نمی‌آموزد. ویژگی های دارای نشت برچسب باید در آموزش مدل حذف شوند.

نمودار زیر نمونه ای از همبستگی بین ویژگی ها و EVENT_LABEL.

If FeatureCorr تنظیم شده است بله در پیکربندی پشته CloudFormation، نمودار دومی دارید که همبستگی های ویژگی های جفتی را نشان می دهد. رنگ های تیره تر نشان دهنده همبستگی بالاتر است. برای ویژگی‌هایی که همبستگی بالایی دارند، باید دوباره بررسی کنید که آیا این مورد در کسب و کار شما مورد انتظار است یا خیر. اگر دو ویژگی همبستگی برابر با 1 داشته باشند، می توانید برای کاهش پیچیدگی مدل، حذف هر یک از آنها را در نظر بگیرید. با این حال، این مورد نیاز نیست زیرا مدل آشکارساز تقلب آمازون برای ویژگی های هم خطی قوی است.

تمیز کردن داده ها

نمایه ساز داده همچنین گزینه ای برای تبدیل فایل CSV شما برای مطابقت با آن دارد الزامات فرمت داده ردیاب تقلب آمازون:

  • تغییر نام هدر - مهر زمانی رویداد و سرصفحه ستون برچسب را به EVENT_TIMESTAMP و EVENT_LABEL. همه سرصفحه‌های دیگر فقط با _ به عنوان یک کاراکتر خاص به حروف الفبای کوچک تبدیل می‌شوند. مطمئن شوید که هنگام ایجاد یک نوع رویداد، متغیرها به عنوان مقادیر تبدیل شده تعریف می شوند.
  • تبدیل مهر زمانی - تبدیل می کند EVENT_TIMESTAMP ستون استاندارد ISO 8601 در UTC.
  • تبدیل برچسب رویداد - مقادیر برچسب شما را فقط با _ به عنوان یک کاراکتر خاص به تمام حروف کوچک حروف عددی تبدیل می کند. اطمینان حاصل کنید که وقتی یک نوع رویداد ایجاد می کنید، برچسب ها به عنوان مقادیر تبدیل شده تعریف می شوند.

اسکرین شات های زیر داده های اصلی را با داده های قالب بندی شده مقایسه می کنند DropTimestampMissingRows و DropLabelMissingRows تنظیم شده اند بله.

منابع را پاکسازی کنید

می توانید از AWS CloudFormation برای پاکسازی تمام منابع ایجاد شده برای پروفایلر داده استفاده کنید.

  1. در کنسول AWS CloudFormation، را انتخاب کنید پشته در صفحه ناوبری
  2. پشته CloudFormation را انتخاب کرده و انتخاب کنید حذف.

همه منابع، از جمله نقش های IAM، AWS Glue job و تابع Lambda حذف می شوند. توجه داشته باشید که گزارش پروفایل و داده‌های قالب‌بندی مجدد حذف نمی‌شوند.

نتیجه

این پست به نمایه ساز و پاک کننده خودکار داده برای آشکارساز تقلب آمازون می پردازد. این یک ابزار مناسب و مفید برای آماده سازی داده های شما برای آشکارساز تقلب آمازون است. مراحل بعدی ساخت یک آشکارساز تقلب سرتاسر از طریق کنسول آمازون Fraud Detector است. برای اطلاعات بیشتر، به راهنمای کاربر آشکارساز تقلب آمازون و پست های وبلاگ مرتبط.


درباره نویسنده

هائو ژو یک دانشمند محقق با آشکارساز تقلب آمازون است. وی دارای مدرک دکترای مهندسی برق از دانشگاه نورث وسترن آمریکا است. او مشتاق به کارگیری تکنیک های یادگیری ماشینی برای مبارزه با تقلب و سوء استفاده است.

آنقی چنگ یک دانشمند محقق در تیم آشکارساز تقلب آمازون (AFD) است. او دارای مدرک Ph.D. در فیزیک و در سال 2017 به آمازون پیوست. او از همان روزهای ابتدایی آن به طور فعال بر روی جنبه های مختلف AFD از کاوش در الگوریتم های ابتدایی یادگیری ماشین، تولید گردش کار یادگیری ماشین، و بهبود استحکام و توضیح پذیری مدل های یادگیری ماشین کار کرده است.

منبع: https://aws.amazon.com/blogs/machine-learning/train-models-faster-with-an-automated-data-profiler-for-amazon-fraud-detector/

تمبر زمان:

بیشتر از وبلاگ یادگیری ماشین AWS