Prepara e analizza i dati JSON e ORC con Amazon SageMaker Data Wrangler

Nodo di origine: 1600106

Gestore di dati di Amazon SageMaker è una nuova capacità di Amazon Sage Maker ciò rende più veloce per i data scientist e gli ingegneri la preparazione dei dati per le applicazioni di machine learning (ML) tramite un'interfaccia visiva. La preparazione dei dati è una fase cruciale del ciclo di vita del machine learning e Data Wrangler fornisce una soluzione end-to-end per importare, preparare, trasformare, caratterizzare e analizzare i dati per il machine learning in un'esperienza senza interruzioni, visiva e low-code. Ti consente di connetterti facilmente e rapidamente a componenti AWS come Servizio di archiviazione semplice Amazon (Amazon S3), Amazzone Atena, Amazon RedShifte Formazione AWS Lakee fonti esterne come Snowflake. Data Wrangler supporta anche tipi di dati standard come CSV e Parquet.

Data Wrangler ora supporta anche la riga ottimizzata a colonne (ORC), JavaScript Object Notation (JSON) e JSON Lines (JSONL):

  • ORC – Il formato di file ORC fornisce un modo altamente efficiente per archiviare i dati Hive. È stato progettato per superare i limiti degli altri formati di file Hive. L'utilizzo dei file ORC migliora le prestazioni quando Hive legge, scrive ed elabora i dati. ORC è ampiamente utilizzato nell'ecosistema Hadoop.
  • JSON – Il formato di file JSON è un formato di interscambio di dati leggero e comunemente utilizzato.
  • JSONL – Le righe JSON, chiamate anche JSON delimitato da nuove righe, sono un formato utile per archiviare dati strutturati che possono essere elaborati un record alla volta.

È possibile visualizzare in anteprima i dati ORC, JSON e JSONL prima di importare i set di dati in Data Wrangler. Dopo aver importato i dati, puoi anche utilizzare uno dei trasformatori lanciati di recente per lavorare con colonne che contengono stringhe o matrici JSON che si trovano comunemente nei JSON nidificati.

Importa e analizza i dati ORC con Data Wrangler

L'importazione di dati ORC in Data Wrangler è semplice e simile all'importazione di file in qualsiasi altro formato supportato. Passa al tuo file ORC in Amazon S3 e nel file DETTAGLI riquadro, scegliere ORC come tipo di file durante l'importazione.

Se non conosci Data Wrangler, rivedi Inizia con Data Wrangler. Vedi anche Importare per conoscere le varie opzioni di importazione.

Importa e analizza i dati JSON con Data Wrangler

Ora importiamo i file in formato JSON con Data Wrangler e lavoriamo con le colonne che contengono stringhe o array JSON. Dimostriamo anche come gestire i JSON nidificati. Con Data Wrangler, l'importazione di file JSON da Amazon S3 è un processo senza interruzioni. Questo è simile all'importazione di file in qualsiasi altro formato supportato. Dopo aver importato i file, puoi visualizzare l'anteprima dei file JSON come mostrato nello screenshot seguente. Assicurati di impostare il tipo di file su JSON nel file DETTAGLI riquadro.

Successivamente, lavoriamo sulle colonne strutturate nel file JSON importato.

Per gestire le colonne strutturate nei file JSON, Data Wrangler sta introducendo due nuove trasformazioni: Colonna strutturata appiattita ed Esplodi la colonna dell'array, che si trova sotto il Maniglia colonna strutturata opzione nel AGGIUNGI TRASFORM riquadro.

Iniziamo applicando il Esplodi la colonna dell'array transform in una delle colonne nei nostri dati importati. Prima di applicare la trasformazione, possiamo vedere la colonna topping è un array di oggetti JSON con id ed type chiavi.

Dopo aver applicato la trasformazione, possiamo osservare le nuove righe aggiunte come risultato. Ogni elemento nell'array è ora una nuova riga nel DataFrame risultante.

Ora applichiamo il Colonna strutturata appiattita trasformare sul topping_flattened colonna che è stata creata come risultato di Esplodi la colonna dell'array trasformazione che abbiamo applicato nel passaggio precedente.

Prima di applicare la trasformazione, possiamo vedere le chiavi id ed type nel topping_flattened colonna.

Dopo aver applicato la trasformazione, possiamo ora osservare le chiavi id ed type sotto il topping_flattened colonna come nuove colonne topping_flattened_id ed topping_flattened_type, che vengono creati come risultato della trasformazione. Hai anche la possibilità di appiattire solo chiavi specifiche inserendo i nomi delle chiavi separate da virgola per Chiavi su cui appiattirsi. Se lasciato vuoto, tutte le chiavi all'interno della stringa o dello struct JSON vengono appiattite.

Conclusione

In questo post, abbiamo dimostrato come importare facilmente i formati di file in ORC e ​​JSON con Data Wrangler. Abbiamo anche applicato le trasformazioni appena lanciate che ci consentono di trasformare qualsiasi colonna strutturata in dati JSON. Ciò rende l'utilizzo di colonne che contengono stringhe o matrici JSON un'esperienza senza interruzioni.

Come passaggi successivi, ti consigliamo di replicare gli esempi dimostrati nella tua interfaccia visiva di Data Wrangler. Se hai domande relative a Data Wrangler, sentiti libero di lasciarle nella sezione dei commenti.


Informazioni sugli autori

Balaji Tummala è un ingegnere di sviluppo software presso Amazon SageMaker. Aiuta a supportare Amazon SageMaker Data Wrangler ed è appassionato di creare software performante e scalabile. Al di fuori del lavoro, ama leggere narrativa e giocare a pallavolo.

Arunprasath Shankar è uno specialista in Solutions Architect di intelligenza artificiale e apprendimento automatico (AI / ML) con AWS, che aiuta i clienti globali a scalare le loro soluzioni di intelligenza artificiale in modo efficace ed efficiente nel cloud. Nel suo tempo libero, Arun ama guardare film di fantascienza e ascoltare musica classica.

Fonte: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Timestamp:

Di più da Blog di apprendimento automatico AWS