Futtasson AutoML-kísérleteket nagy parkettaadatkészletekkel az Amazon SageMaker Autopilot segítségével

Forrás csomópont: 1596421

Mától használhatja Amazon SageMaker Autopilot regressziós és osztályozási feladatok megoldására akár 100 GB-ig terjedő nagy adatkészleteken. Ezenkívül mostantól megadhatja adatkészleteit akár CSV, akár CSV formátumban Apache parketta tartalomtípusok.

A vállalkozások több adatot generálnak, mint valaha. Ennek megfelelően nő az igény arra, hogy ezekből a nagy adatkészletekből betekintést nyerjünk az üzleti döntések formálásához. A legkorszerűbb gépi tanulási (ML) algoritmusok sikeres betanítása ezeken a nagy adatkészleteken azonban kihívást jelenthet. Az Autopilot automatizálja ezt a folyamatot, és zökkenőmentes élményt nyújt az automatizált gépi tanulás (AutoML) futtatásához akár 100 GB-os nagy adatkészleteken.

Az Autopilot automatikusan almintázza a nagy adatkészleteket, hogy illeszkedjen a maximális támogatott határértékhez, miközben megőrzi a ritka osztályt osztály kiegyensúlyozatlansága. Az osztálykiegyensúlyozatlanság fontos probléma, amellyel tisztában kell lenni az ML-ben, különösen nagy adatkészletek kezelésekor. Fontolja meg a csalásészlelési adatkészletet, ahol a tranzakcióknak csak egy kis része várhatóan csalárd. Ebben az esetben az Autopilot csak a többségi osztályú, nem csalárd tranzakciókat veszi almintaként, miközben megőrzi a ritka osztályú, csalárd tranzakciókat.

Amikor egy AutoML-feladatot futtat az Autopilot használatával, a részmintavételezéshez minden releváns információ eltárolódik amazonfelhőóra. Navigáljon a naplócsoporthoz /aws/sagemaker/ProcessingJobs, keresse meg AutoML-feladatának nevét, és válassza ki a CloudWatch naplófolyamát, amely tartalmazza -db- nevében.

Sok ügyfelünk a Parketta tartalomtípust részesíti előnyben nagy adatkészleteik tárolására. Ez általában a tömörített jellegének, a fejlett adatstruktúrák támogatásának, a hatékonyságnak és az alacsony költségű műveleteknek köszönhető. Ezek az adatok gyakran akár több tíz vagy akár több száz GB-ot is elérhetnek. Most már közvetlenül átviheti ezeket a Parquet adatkészleteket az Autopilotba. Használhatja API-nkat, vagy navigálhat ide Amazon SageMaker Studio hogy néhány kattintással létrehozzon egy Autopilot feladatot. Megadhatja a Parquet adatkészlet beviteli helyét egyetlen fájlként vagy több jegyzékfájlként megadott fájlként. Az Autopilot automatikusan felismeri az adatkészlet tartalomtípusát, elemzi azt, értelmes szolgáltatásokat bont ki, és több ML algoritmust betanít.

Elkezdheti használni a mi szolgáltatásunkat mintafüzet az AutoML futtatásához Autopilot on Parquet adatkészletek használatával.


A szerzőkről

H. Furkan Bozkurt, gépi tanulási mérnök, Amazon SageMaker Autopilot.

Valerio Perrone, Applied Science Manager, Amazon SageMaker Autopilot.

Forrás: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

Időbélyeg:

Még több AWS gépi tanulási blog