Starten Sie Verarbeitungsaufträge mit wenigen Klicks mit Amazon SageMaker Data Wrangler

Neuauflage von Plato

Verfolger: 0

Amazon SageMaker Data Wrangler macht es Data Scientists und Ingenieuren schneller, Daten für Anwendungen des maschinellen Lernens (ML) mithilfe einer visuellen Schnittstelle vorzubereiten. Früher konnten Sie beim Erstellen eines Data Wrangler-Datenflusses verschiedene Exportoptionen auswählen, um diesen Datenfluss einfach in Ihre Datenverarbeitungspipeline zu integrieren. Data Wrangler bietet Exportoptionen nach Amazon Simple Storage-Service (Amazon S3), SageMaker-Pipelines und SageMaker Feature Store, oder als Python-Code. Die Exportoptionen erstellen ein Jupyter-Notebook und erfordern, dass Sie den Code ausführen, um einen Verarbeitungsauftrag zu starten, der durch erleichtert wird SageMaker-Verarbeitung.

Wir freuen uns, die allgemeine Veröffentlichung von Zielknoten und der Funktion „Job erstellen“ in Data Wrangler bekannt zu geben. Mit dieser Funktion können Sie alle Transformationen, die Sie an einem Datensatz vorgenommen haben, mit nur wenigen Klicks in einen Zielknoten exportieren. Auf diese Weise können Sie Datenverarbeitungsaufträge erstellen und rein über die visuelle Schnittstelle nach Amazon S3 exportieren, ohne Jupyter-Notebooks generieren, ausführen oder verwalten zu müssen, wodurch das Low-Code-Erlebnis verbessert wird. Um diese neue Funktion zu demonstrieren, verwenden wir die Titanic-Datensatz und zeigen Sie, wie Sie Ihre Transformationen in einen Zielknoten exportieren.

Voraussetzungen:

Bevor wir lernen, wie man Zielknoten mit Data Wrangler verwendet, sollten Sie bereits wissen, wie es geht zugreifen und loslegen mit Data Wrangler. Sie müssen auch wissen, was a Datenfluss bedeutet mit Kontext zu Data Wrangler und wie Sie einen erstellen, indem Sie Ihre Daten aus den verschiedenen Datenquellen importieren, die Data Wrangler unterstützt.

Lösungsüberblick

Betrachten Sie den folgenden Datenfluss mit dem Namen example-titanic.flow:

Es importiert den Titanic-Datensatz dreimal. Sie können diese verschiedenen Importe als separate Zweige im Datenfluss sehen.
Für jeden Zweig wendet es eine Reihe von Transformationen und Visualisierungen an.
Es verbindet die Zweige zu einem einzigen Knoten mit allen Transformationen und Visualisierungen.

Mit diesem Ablauf möchten Sie möglicherweise Teile Ihrer Daten verarbeiten und an einer bestimmten Niederlassung oder einem bestimmten Standort speichern.

In den folgenden Schritten zeigen wir, wie Sie Zielknoten erstellen, sie nach Amazon S3 exportieren und einen Verarbeitungsauftrag erstellen und starten.

Erstellen Sie einen Zielknoten

Sie können das folgende Verfahren verwenden, um Zielknoten zu erstellen und sie in einen S3-Bucket zu exportieren:

Bestimmen Sie, welche Teile der Flow-Datei (Transformationen) Sie speichern möchten.
Wählen Sie das Pluszeichen neben den Knoten, die die Transformationen darstellen, die Sie exportieren möchten. (Wenn es sich um einen reduzierten Knoten handelt, müssen Sie das Optionssymbol (drei Punkte) für den Knoten auswählen).
Zeigen Sie auf Ziel hinzufügen.
Auswählen Amazon S3.
Geben Sie die Felder wie im folgenden Screenshot gezeigt an.
Führen Sie für den zweiten Join-Knoten die gleichen Schritte aus, um Amazon S3 als Ziel hinzuzufügen und die Felder anzugeben.

Sie können diese Schritte so oft wie nötig für beliebig viele Knoten in Ihrem Datenfluss wiederholen. Später wählen Sie aus, welche Zielknoten in Ihren Verarbeitungsauftrag aufgenommen werden sollen.

Starten Sie einen Verarbeitungsjob

Verwenden Sie das folgende Verfahren, um einen Verarbeitungsauftrag zu erstellen, und wählen Sie den Zielknoten aus, in den Sie exportieren möchten:

Auf dem Datenfluss Tab, wählen Sie Job erstellen.
Aussichten für Berufsbezeichnung¸ Namen des Exportauftrags eingeben.
Wählen Sie die Zielknoten aus, die Sie exportieren möchten.
Geben Sie optional die an AWS-Schlüsselverwaltungsservice (AWS KMS) Schlüssel-ARN.

Der KMS-Schlüssel ist ein kryptografischer Schlüssel, mit dem Sie Ihre Daten schützen können. Weitere Informationen zu KMS-Schlüsseln finden Sie unter AWS Key-Entwicklerhandbuch.

Auswählen Als nächstes 2. Job konfigurieren.
Optional können Sie den Job gemäß Ihren Anforderungen konfigurieren, indem Sie den Instanztyp oder die Anzahl ändern oder Tags hinzufügen, die dem Job zugeordnet werden sollen.
Auswählen Führen Sie um den Job auszuführen.

Wenn der Job erfolgreich erstellt wurde, wird eine Erfolgsmeldung angezeigt.

Sehen Sie sich die endgültigen Daten an

Schließlich können Sie die exportierten Daten mit den folgenden Schritten anzeigen:

Nachdem Sie den Job erstellt haben, wählen Sie den bereitgestellten Link aus.

Eine neue Registerkarte wird geöffnet, die den Verarbeitungsauftrag auf der SageMaker-Konsole anzeigt.

Überprüfen Sie nach Abschluss des Auftrags die exportierten Daten auf der Amazon S3-Konsole.

Sie sollten einen neuen Ordner mit dem von Ihnen gewählten Auftragsnamen sehen.

Wählen Sie den Auftragsnamen aus, um eine CSV-Datei (oder mehrere Dateien) mit den endgültigen Daten anzuzeigen.

FAQ

In diesem Abschnitt behandeln wir einige häufig gestellte Fragen zu dieser neuen Funktion:

Was ist mit der Registerkarte Export passiert? Mit dieser neuen Funktion haben wir die entfernt Exportieren Registerkarte von Data Wrangler. Sie können die Exportfunktion weiterhin über die von Data Wrangler generierten Jupyter-Notebooks von allen Knoten erleichtern, die Sie im Datenfluss mit den folgenden Schritten erstellt haben:

1. Wählen Sie das Pluszeichen neben dem Knoten, den Sie exportieren möchten.
2. Auswählen Exportieren nach.
3. Auswählen Amazon S3 (über Jupyter Notebook).
4. Führen Sie das Jupyter-Notebook aus.

Wie viele Zielknoten kann ich in einen Job aufnehmen? Es gibt maximal 10 Ziele pro Verarbeitungsauftrag.
Wie viele Zielknoten kann ich in einer Flow-Datei haben? Sie können beliebig viele Zielknoten haben.
Kann ich Transformationen nach meinen Zielknoten hinzufügen? Nein, die Idee ist, dass Zielknoten Endknoten sind, die danach keine weiteren Schritte haben.
Welche unterstützten Quellen kann ich mit Zielknoten verwenden? Zum jetzigen Zeitpunkt unterstützen wir nur Amazon S3 als Zielquelle. Die Unterstützung für weitere Zielquellentypen wird in Zukunft hinzugefügt. Bitte melden Sie sich, wenn Sie etwas Bestimmtes sehen möchten.

Zusammenfassung

In diesem Beitrag haben wir gezeigt, wie Sie die neu gestarteten Zielknoten verwenden, um Verarbeitungsaufträge zu erstellen und Ihre transformierten Datensätze über die visuelle Benutzeroberfläche von Data Wrangler direkt in Amazon S3 zu speichern. Mit dieser zusätzlichen Funktion haben wir das Tool-gesteuerte Low-Code-Erlebnis von Data Wrangler verbessert.

Als nächste Schritte empfehlen wir Ihnen, das in diesem Beitrag gezeigte Beispiel auszuprobieren. Wenn Sie Fragen haben oder mehr erfahren möchten, siehe Exportieren oder hinterlassen Sie eine Frage im Kommentarbereich.

Über die Autoren

Alfonso Austin-Rivera ist Front-End-Ingenieur bei Amazon SageMaker Data Wrangler. Er ist leidenschaftlich daran interessiert, intuitive Benutzererlebnisse zu entwickeln, die Freude bereiten. In seiner Freizeit kämpft er in einer Kletterhalle gegen die Schwerkraft oder fliegt draußen mit seiner Drohne.

Parsa Shahbodaghi ist technischer Redakteur bei AWS, spezialisiert auf maschinelles Lernen und künstliche Intelligenz. Er schreibt die technische Dokumentation für Amazon SageMaker Data Wrangler und Amazon SageMaker Feature Store. In seiner Freizeit meditiert er gerne, hört Hörbücher, macht Gewichtheben und schaut sich Stand-up-Comedy an. Er wird nie ein Stand-up-Comedian, aber zumindest findet seine Mutter ihn lustig.

Balaji Tummala ist Softwareentwicklungsingenieur bei Amazon SageMaker. Er hilft bei der Unterstützung von Amazon SageMaker Data Wrangler und ist begeistert von der Entwicklung leistungsstarker und skalierbarer Software. Außerhalb der Arbeit liest er gerne Belletristik und spielt Volleyball.

Arunprasath Shankar ist ein auf AWS spezialisierter Lösungsarchitekt für künstliche Intelligenz und maschinelles Lernen (AI / ML), der globalen Kunden hilft, ihre KI-Lösungen effektiv und effizient in der Cloud zu skalieren. In seiner Freizeit sieht Arun gerne Science-Fiction-Filme und hört klassische Musik.