A modellek gyorsabb betanítása az Amazon Fraud Detector automatizált adatprofilozójával

Forrás csomópont: 1274468

Amazon csalásészlelő egy teljesen felügyelt szolgáltatás, amely megkönnyíti a potenciálisan csalárd online tevékenységek azonosítását, mint például a hamis fiókok létrehozása vagy az online fizetési csalások. Az Amazon Fraud Detector gépi tanulást (ML) használ a motorháztető alatt, és az Amazon több mint 20 éves csalásfelderítési szakértelmén alapul. Ezredmásodpercek alatt automatikusan azonosítja a potenciálisan csalárd tevékenységet – ML szakértelem nélkül.

Ahhoz, hogy egy modellt betaníthasson az Amazon csaláskeresőben, meg kell adnia egy előzményadatkészletet. Az Amazon Fraud Detector használatához nincs szükség adattudományi ismeretekre; azonban van bizonyos követelmények az adatminőségről és a formátumokról az ML modellek robusztusságának biztosítása érdekében. Előfordulhat, hogy egyszerű formázási és érvényesítési hibák miatt modell betanítási hibákat tapasztalhat, amelyek többletidőt és erőfeszítést igényelnek az adatok újbóli előkészítéséhez és a modell újraképzéséhez. Ezenkívül az Amazon Fraud Detector alkalmazáshoz meg kell határoznia a változó típusú az adatkészlet minden egyes változójára a modell létrehozása során. Hasznos lehet javaslatokat tenni az Amazon Fraud Detector változótípusok kiválasztásához az adatstatisztikája alapján.

Ebben a bejegyzésben az Amazon Fraud Detector automatizált adatprofilozóját mutatjuk be. Intuitív és átfogó jelentést készíthet az adatkészletről, amely tartalmazza az Amazon csalásérzékelő változótípusok javasolt típusait az adatkészlet minden egyes változójához, valamint olyan adatminőségi problémákat, amelyek esetleg meghiúsíthatják a modell betanítását vagy ronthatják a modell teljesítményét. Az adatprofilozó lehetőséget biztosít az adatkészlet újraformázására és átalakítására is, hogy megfeleljen az Amazon Fraud Detector követelményeinek, amivel elkerülhető néhány lehetséges érvényesítési hiba a modelltanítás során. Ez az automatizált adatprofilozó egy AWS felhőképződés verem, amelyet néhány kattintással könnyedén elindíthatunk, és nem igényel adattudományi vagy programozási ismereteket.

A megoldás áttekintése

Az alábbi diagram az automatizált adatprofilozó architektúráját mutatja be, amely a következőt használja AWS ragasztó, AWS Lambda, Amazon egyszerű tárolási szolgáltatás (Amazon S3) és AWS CloudFormation.

Az adatprofilozót az AWS CloudFormation gyorsindítási funkciójával indíthatja el. A verem létrehoz és elindít egy Lambda funkciót, amely automatikusan elindít egy AWS ragasztófeladatot. Az AWS-ragasztófeladat beolvassa a CSV-adatfájlt, profilokat készít és újraformázza az adatokat, majd elmenti a HTML-jelentésfájlt és a CSV formázott másolatát egy S3-tárolóba.

A következő képernyőképen egy minta profilalkotási jelentés látható. Azt is megtekintheti a teljes jelentésminta.

A mintajelentés, a szintetikus adatkészlet és az automatizált adatprofilozó kódjai itt érhetők el GitHub.

Indítsa el az adatprofilozót

A profilkészítő elindításához kövesse az alábbi lépéseket:

  1. Válassza ki a következő AWS CloudFormationt gyorsindító link.

Ezzel megnyílik egy AWS CloudFormation gyorsindító oldal.

  1. Válassza ki régióját az összes erőforrás létrehozásához az adott régióban.
  2. A CSVFilePath, adja meg a CSV-fájl S3 elérési útját.

A kimeneti profilalkotási jelentés és a formázott CSV-fájl ugyanabba a tárolóba kerül mentésre.

  1. A EventTimestampColumn, adja meg az esemény időbélyegző oszlopának fejléc nevét.

Ezt az oszlopot az Amazon Fraud Detector megköveteli. Az adatformázó ezt a fejlécnevet a következőre konvertálja EVENT_TIMESTAMP.

  1. A LabelColumn, adja meg a címkeoszlop fejléc nevét.

Ezt az oszlopot az Amazon Fraud Detector megköveteli. Az adatformázó ezt a fejlécnevet a következőre konvertálja EVENT_LABEL.

  1. A FileDelimiter, írja be a CSV-fájl határolóját (alapértelmezés szerint ez vessző).
  2. A Formázza CSV, válassza ki, hogy a CSV-fájlt az Amazon Fraud Detector által igényelt formátumra szeretné-e formázni (alapértelmezés szerint ez Igen).

Ez átalakítja a fejlécneveket, az időbélyeg-formátumokat és a címkeformátumokat. A CSV-adatok formázott másolata ugyanabba a tárolóba kerül mentésre, mint a bemeneti CSV.

  1. A DropTimestampMissingRows, válassza ki, hogy el akarja-e helyezni a hiányzó időbélyegző sorokat a CSV formázott példányában.

A hiányzó időbélyegzővel rendelkező eseményeket az Amazon Fraud Detector nem használja, és ezek ellenőrzési hibákat okozhatnak, ezért javasoljuk, hogy állítsa ezt Igen.

  1. A DropLabelMissingRows, válassza ki, hogy el szeretné-e vetni a hiányzó címkéket tartalmazó sorokat.
  2. A ProfileCSV, válassza ki, hogy profilozni kívánja-e a CSV-fájlt (alapértelmezés szerint ez Igen).

Ez létrehoz egy profilalkotási jelentést a CSV-adatokról, és ugyanabba a tárolóba menti, mint a bemeneti CSV-fájlt.

  1. A ReportUtótag (opcionális), adjon meg egy utótagot a jelentéshez (a jelentés neve report_<ReportSuffix>.html).
  2. A FeatureCorr, válassza ki, hogy meg kívánja-e mutatni a páronkénti jellemzőkorrelációt a profilalkotási jelentésben.

Az összefüggés megmutatja az egyes jellemzőpárok esetében, hogy az egyik jellemző mennyire függ a másiktól. Vegye figyelembe, hogy a páronkénti jellemzőkorreláció kiszámítása további 10–20 percet vesz igénybe, ezért az opció a következőre van állítva Nem alapértelmezés szerint.

  1. A FraudLabels (opcionális), adja meg, hogy mely címkeértékeket kell csalásnak tekinteni.

A jelentés bemutatja a feltérképezett címkék eloszlását, nevezetesen a csalást és a nem csalást. Több címkeértéket is megadhat vesszővel elválasztva, például suspicious, fraud. Ha üresen hagyja ezt a lehetőséget, a jelentés az eredeti címkeértékek eloszlását mutatja.

A következő példadiagramok a használatát szemléltetik FraudLabels=’suspicious,fraud’ (balra) és üres FraudLabels (jobb).

Várjon néhány percet, amíg a következő erőforrások létrejönnek:

  • DataAnalyzerGlueJob – Az AWS ragasztófeladat, amely profilokat készít és formázza az adatokat.
  • AWSGlueJobRole - A AWS Identity and Access Management (IAM) szerepkör az AWS ragasztófeladathoz AWSGlueServiceRole és a AWSGlueConsoleFullAccess irányelveket. Rendelkezik egy ügyfél által kezelt házirenddel is, amely jogosultsággal rendelkezik a fájlok olvasására és írására a ben meghatározott tárolóban CSVFilePath.
  • S3CustomResource és a AWSLambdaFunction – A segítő lambda funkció és az AWS CloudFormation erőforrás az AWS ragasztófeladat elindításához.
  • AWSLambdaExecutionRole – A Lambda funkció IAM szerepe az AWS ragasztófeladat elindításához AWSGlueServiceNotebookRole, AWSGlueServiceRoleés AWSLambdaExecute politikát.
  1. Amikor az AWS ragasztófeladat befejeződött, ami általában néhány perccel a verem létrehozása után van, nyissa meg a kimeneti S3 tárolót.

Ha a bemeneti fájl S3 elérési útja a s3://my_bucket/my_file.csv, a kimeneti fájlok a mappába kerülnek s3://my_bucket/afd_data_my_file.

Vizsgálja meg az adatprofilozó jelentést

Az adatprofilozó létrehoz egy HTML-jelentést, amely felsorolja az adatstatisztikát. Szintetikus adatkészletet használunk, hogy végigvezetjük a jelentés egyes szakaszain.

Áttekintés

Ez a szakasz az adatok általános statisztikáit írja le, például a rekordok számát és az adattartományt.

Területi összefoglaló

Ez a szakasz az egyes funkciók alapvető statisztikáit írja le. A kikövetkeztetett változótípus referenciaként szolgál az adatokban lévő változók listához való leképezéséhez Az Amazon Fraud Detector előre definiált változótípusai. A kikövetkeztetett változótípus adatstatisztikán alapul. Javasoljuk, hogy lehetőség szerint saját domainismerete alapján válasszon változótípusokat, és ha nem biztos benne, tekintse meg a javasolt változótípust.

Területi figyelmeztetések

Ez a szakasz az Amazon Fraud Detector alapadat-ellenőrzésének figyelmeztető üzeneteit mutatja be, beleértve az egyedi értékek számát és a hiányzó értékek számát. Lehet hivatkozni Amazon Fraud Detector hibaelhárítás a javasolt megoldásokért.

Adatok és címke érettsége

Ez a szakasz az adatok csalások időbeli eloszlását mutatja be. A diagram interaktív (példaként lásd a következő képernyőképet): a mutató görgetése a diagram fölé lehetővé teszi a nagyítást vagy kicsinyítést; a diagram balra vagy jobbra húzása megváltoztatja az x tengely tartományait; és a jelmagyarázat váltása elrejtheti vagy megjelenítheti a megfelelő sávokat vagy görbéket. Kattinthatsz A nagyítás visszaállítása a diagram visszaállításához.

Ellenőrizze, hogy van-e elegendő idő a címke érésére. A lejárati idő vállalkozásától függ, és 2 héttől 90 napig tarthat. Ha például a címke lejárati ideje 30 nap, győződjön meg arról, hogy az adatkészlet legfrissebb rekordjai legalább 30 naposak.

Azt is ellenőriznie kell, hogy a címkeeloszlás az idő múlásával viszonylag stabil-e. Győződjön meg arról, hogy a különböző címkeosztályokhoz tartozó események ugyanabból az időszakból származnak.

Kategorikus jellemzőelemzés

Ez a szakasz az egyes kategóriás jellemzők címkeeloszlását mutatja be a kategóriák között. Megtekintheti az egyes címkeosztályok rekordjainak számát egy kategóriában és a megfelelő százalékokat. Alapértelmezés szerint a legjobb 100 kategóriát jeleníti meg, és a diagram húzásával és görgetésével összesen legfeljebb 500 kategóriát láthat.

Több rendezési lehetőség közül választhat, hogy az igényeinek leginkább megfelelőt használja:

  • Rendezés a legtöbb rekord szerint – A legtöbb rekordot szerző kategóriákat mutatja, ami tükrözi a kategóriák általános megoszlását.
  • Rendezés a label=NON-CSALÁS legtöbb rekordja szerint – Megmutatja a NON-CSALÁS osztály legtöbb rekordját szerző kategóriákat. Ezek a kategóriák járulnak hozzá a legtöbb legitim népességhez.
  • Rendezés a legtöbb kiadó rekordja szerint≠NON-CSALÁS – Megmutatja a CSALÁS osztály legtöbb rekordját elért kategóriákat. Ezek a kategóriák járulnak hozzá a legtöbb csaláshoz.
  • Rendezés a címke legalacsonyabb százaléka szerint=NEM CSALÁS – Megmutatja a legmagasabb CSALÁSarányú kategóriákat, amelyek a kockázatos kategóriák.

Kiválaszthatja, hogy mely adatokat ábrázolja az oldalon Adatmegjelenítési lehetőségek menü. A jelmagyarázatok váltása a megfelelő sávokat vagy görbéket is megjelenítheti vagy elrejtheti.

Numerikus jellemzőelemzés

Ez a rész az egyes numerikus jellemzők címkeeloszlását mutatja be. A számértékek tálcákra vannak osztva, és megtekintheti az egyes címkeosztályok rekordjainak számát, valamint százalékos arányát az egyes tálcákon belül.

Jellemző és címke összefüggés

Ez a szakasz az egyes jellemzők és a címke közötti összefüggést mutatja be egy diagramon. Ezt a korrelációs diagramot kombinálhatja a modell változó fontosságú az Amazon Fraud Detector által generált értékek a modell betanítása után a lehetséges címkeszivárgás azonosítása érdekében. Például, ha egy funkciónak 0.99-nél nagyobb a korrelációja a címkével, és lényegesen nagyobb a változó jelentősége, mint más jellemzők, akkor fennáll a címkeszivárgás kockázata az adott jellemzőn. A címke szivárgása akkor történik, ha a címke teljes mértékben függ egy jellemzőtől. Ennek eredményeként a modell erősen túl van szerelve ezen a funkción, és nem tanulja meg a tényleges csalási mintát. A címkeszivárgó tulajdonságokat ki kell zárni a modellképzésben.

A következő ábra példát mutat a jellemzők és a jellemzők közötti összefüggésre EVENT_LABEL.

If FeatureCorr be van állítva Igen a CloudFormation veremkonfigurációban van egy második diagram, amely páronkénti jellemzőkorrelációkat mutat. A sötétebb színek magasabb korrelációt jeleznek. A magas korrelációjú funkciók esetében ellenőrizze, hogy ez várható-e a vállalkozásában. Ha két jellemző korrelációja 1, akkor a modell bonyolultságának csökkentése érdekében fontolóra veheti bármelyikük eltávolítását. Ez azonban nem szükséges, mert az Amazon Fraud Detector modell robusztus a kollinearitás érdekében.

Adattisztítás

Az adatprofilozónak lehetősége van a CSV-fájl konvertálására is, hogy megfeleljen a adatformátum követelményei az Amazon csaláskereső:

  • Fejléc nevének átalakítása – Átalakítja az esemény időbélyegét és a címke oszlopfejléceit EVENT_TIMESTAMP és a EVENT_LABEL. Az összes többi fejléc kisbetűs alfanumerikussá alakul, csak a _ karakterrel. Ügyeljen arra, hogy eseménytípus létrehozásakor a változók az átalakított értékekként legyenek meghatározva.
  • Időbélyeg átalakítás – Átalakítja a EVENT_TIMESTAMP oszlopban az ISO 8601 szabványnak megfelelően UTC-ben.
  • Eseménycímke átalakítása – A címkeértékeket kisbetűs alfanumerikussá alakítja, csak a _ karakterrel. Ügyeljen arra, hogy eseménytípus létrehozásakor a címkék az átalakított értékekként legyenek meghatározva.

A következő képernyőképek az eredeti adatokat formázott adatokkal hasonlítják össze, ahol DropTimestampMissingRows és a DropLabelMissingRows beállítva Igen.

Tisztítsa meg az erőforrásokat

Az AWS CloudFormation segítségével megtisztíthatja az adatprofilozóhoz létrehozott összes erőforrást.

  1. Az AWS CloudFormation konzolon válassza a lehetőséget Stacks a navigációs ablaktáblában.
  2. Válassza ki a CloudFormation verem, és válassza ki töröl.

Az összes erőforrás, beleértve az IAM-szerepeket, az AWS-ragasztófeladatot és a Lambda-funkciót, el lesz távolítva. Vegye figyelembe, hogy a profilalkotási jelentés és az újraformázott adatok nem törlődnek.

Következtetés

Ez a bejegyzés az Amazon Fraud Detector automatizált adatprofilozóját és tisztítóját mutatja be. Ez egy kényelmes és hasznos eszköz az adatok előkészítéséhez az Amazon Fraud Detector számára. A következő lépések egy végponttól végpontig terjedő csalásérzékelő felépítése az Amazon Fraud Detector konzolon keresztül. További információkért lásd a Amazon Fraud Detector felhasználói útmutató és a kapcsolódó blogbejegyzések.


A szerzőkről

Hao Zhou az Amazon Fraud Detector kutatója. Az USA-beli Northwestern Egyetemen szerzett villamosmérnöki PhD fokozatot. Szenvedélye a gépi tanulási technikák alkalmazása a csalások és visszaélések leküzdésére.

Anqi Cheng az Amazon Fraud Detector (AFD) csapatának kutatója. Ph.D. fokozattal rendelkezik. fizika szakon, és 2017-ben csatlakozott az Amazonhoz. A kezdetektől fogva aktívan dolgozik az AFD különböző aspektusain, kezdve a kezdő gépi tanulási algoritmusok feltárásán, a gépi tanulási munkafolyamatok gyártásán, valamint a gépi tanulási modellek robusztusságának és magyarázhatóságának javításán keresztül.

Forrás: https://aws.amazon.com/blogs/machine-learning/train-models-faster-with-an-automated-data-profiler-for-amazon-fraud-detector/

Időbélyeg:

Még több AWS gépi tanulási blog