Erstellen Sie hochwertige Datensätze mit Amazon SageMaker Ground Truth und FiftyOne

Neuauflage von Plato

Verfolger: 0

Dies ist ein gemeinsamer Beitrag, der von AWS und Voxel51 gemeinsam verfasst wurde. Voxel51 ist das Unternehmen hinter FiftyOne, dem Open-Source-Toolkit zum Erstellen hochwertiger Datensätze und Computer-Vision-Modelle.

Ein Einzelhandelsunternehmen entwickelt eine mobile App, um Kunden beim Kauf von Kleidung zu unterstützen. Um diese App zu erstellen, benötigen sie einen hochwertigen Datensatz mit Kleidungsbildern, die mit verschiedenen Kategorien gekennzeichnet sind. In diesem Beitrag zeigen wir, wie Sie einen vorhandenen Datensatz durch Datenbereinigung, Vorverarbeitung und Vorkennzeichnung mit einem Zero-Shot-Klassifizierungsmodell wiederverwenden können Einundfünfzig, und passen Sie diese Beschriftungen mit an Amazon Sagemaker Ground Truth.

Sie können Ground Truth und FiftyOne verwenden, um Ihr Datenkennzeichnungsprojekt zu beschleunigen. Wir veranschaulichen, wie Sie die beiden Anwendungen nahtlos zusammen verwenden können, um qualitativ hochwertige beschriftete Datensätze zu erstellen. Für unseren beispielhaften Anwendungsfall arbeiten wir mit der Fashion200K-Datensatz, veröffentlicht auf der ICCV 2017.

Lösungsüberblick

Ground Truth ist ein vollständig selbst bedienter und verwalteter Dienst zur Kennzeichnung von Daten, der Datenwissenschaftler, Ingenieure für maschinelles Lernen (ML) und Forscher in die Lage versetzt, qualitativ hochwertige Datensätze zu erstellen. Einundfünfzig by voxel51 ist ein Open-Source-Toolkit zum Kuratieren, Visualisieren und Auswerten von Computer-Vision-Datensätzen, damit Sie bessere Modelle trainieren und analysieren können, indem Sie Ihre Anwendungsfälle beschleunigen.

In den folgenden Abschnitten zeigen wir Ihnen, wie Sie Folgendes tun:

Visualisieren Sie den Datensatz in FiftyOne
Bereinigen Sie den Datensatz mit Filterung und Bilddeduplizierung in FiftyOne
Kennzeichnen Sie die bereinigten Daten mit Zero-Shot-Klassifizierung in FiftyOne
Beschriften Sie den kleineren kuratierten Datensatz mit Ground Truth
Fügen Sie beschriftete Ergebnisse aus Ground Truth in FiftyOne ein und überprüfen Sie beschriftete Ergebnisse in FiftyOne

Anwendungsfallübersicht

Angenommen, Sie besitzen ein Einzelhandelsunternehmen und möchten eine mobile Anwendung erstellen, um personalisierte Empfehlungen zu geben, die den Benutzern helfen, zu entscheiden, was sie anziehen sollen. Ihre potenziellen Nutzer suchen nach einer Anwendung, die ihnen sagt, welche Kleidungsstücke in ihrem Kleiderschrank gut zusammenpassen. Hier sehen Sie eine Chance: Wenn Sie gute Outfits identifizieren können, können Sie dem Kunden neue Kleidungsstücke empfehlen, die die bereits vorhandene Kleidung ergänzen.

Sie möchten es dem Endbenutzer so einfach wie möglich machen. Im Idealfall braucht jemand, der Ihre Anwendung verwendet, nur Fotos von der Kleidung in seinem Kleiderschrank zu machen, und Ihre ML-Modelle entfalten ihre Magie hinter den Kulissen. Sie können ein Allzweckmodell trainieren oder ein Modell mit irgendeiner Form von Feedback an den einzigartigen Stil jedes Benutzers anpassen.

Zunächst müssen Sie jedoch feststellen, welche Art von Kleidung der Benutzer erfasst. Ist es ein Hemd? Eine Hose? Oder etwas anderes? Schließlich möchten Sie wahrscheinlich kein Outfit empfehlen, das mehrere Kleider oder mehrere Hüte enthält.

Um diese anfängliche Herausforderung anzugehen, möchten Sie einen Trainingsdatensatz generieren, der aus Bildern verschiedener Kleidungsstücke mit unterschiedlichen Mustern und Stilen besteht. Um mit einem begrenzten Budget einen Prototyp zu erstellen, möchten Sie mit einem vorhandenen Datensatz booten.

Um den Prozess in diesem Beitrag zu veranschaulichen und Sie durch den Prozess zu führen, verwenden wir den Fashion200K-Datensatz, der auf der ICCV 2017 veröffentlicht wurde. Es ist ein etablierter und häufig zitierter Datensatz, aber er ist nicht direkt für Ihren Anwendungsfall geeignet.

Obwohl Kleidungsstücke mit Kategorien (und Unterkategorien) gekennzeichnet sind und eine Vielzahl hilfreicher Tags enthalten, die aus den ursprünglichen Produktbeschreibungen extrahiert wurden, sind die Daten nicht systematisch mit Muster- oder Stilinformationen gekennzeichnet. Ihr Ziel ist es, diesen vorhandenen Datensatz in einen robusten Trainingsdatensatz für Ihre Kleidungsklassifizierungsmodelle umzuwandeln. Sie müssen die Daten bereinigen und das Beschriftungsschema mit Stilbeschriftungen erweitern. Und das möglichst schnell und mit möglichst wenig Aufwand.

Laden Sie die Daten lokal herunter

Laden Sie zunächst die ZIP-Datei women.tar und den Ordner labels (mit allen Unterordnern) herunter, indem Sie den Anweisungen in folgen GitHub-Repository für Fashion200K-Datensatz. Nachdem Sie beide entpackt haben, erstellen Sie ein übergeordnetes Verzeichnis fashion200k und verschieben Sie die Ordner label und women dorthin. Glücklicherweise wurden diese Bilder bereits auf die Begrenzungsrahmen der Objekterkennung zugeschnitten, sodass wir uns auf die Klassifizierung konzentrieren können, anstatt uns um die Objekterkennung zu kümmern.

Trotz des „200K“ in seinem Spitznamen enthält das von uns extrahierte Frauenverzeichnis 338,339 Bilder. Um den offiziellen Fashion200K-Datensatz zu generieren, haben die Autoren des Datensatzes mehr als 300,000 Produkte online gecrawlt, und nur Produkte mit Beschreibungen, die mehr als vier Wörter enthalten, wurden ausgewählt. Für unsere Zwecke, bei denen die Produktbeschreibung nicht unbedingt erforderlich ist, können wir alle gecrawlten Bilder verwenden.

Schauen wir uns an, wie diese Daten organisiert sind: Innerhalb des Frauenordners sind Bilder nach Artikeltyp der obersten Ebene (Röcke, Oberteile, Hosen, Jacken und Kleider) und Artikeltyp-Unterkategorie (Blusen, T-Shirts, Langarm) angeordnet Spitzen).

Innerhalb der Unterkategorieverzeichnisse gibt es ein Unterverzeichnis für jede Produktliste. Jedes davon enthält eine variable Anzahl von Bildern. Die Unterkategorie cropped_pants enthält beispielsweise die folgenden Produktlisten und zugehörigen Bilder.

Der Etikettenordner enthält eine Textdatei für jeden Artikeltyp der obersten Ebene, sowohl für Trainings- als auch für Test-Splits. In jeder dieser Textdateien befindet sich für jedes Bild eine separate Zeile, die den relativen Dateipfad, eine Punktzahl und Tags aus der Produktbeschreibung angibt.

Da wir den Datensatz umfunktionieren, kombinieren wir alle Zug- und Testbilder. Daraus generieren wir einen qualitativ hochwertigen anwendungsspezifischen Datensatz. Nachdem wir diesen Vorgang abgeschlossen haben, können wir den resultierenden Datensatz nach dem Zufallsprinzip in neue Zug- und Testaufteilungen aufteilen.

Einfügen, Anzeigen und Kuratieren eines Datensatzes in FiftyOne

Wenn Sie dies noch nicht getan haben, installieren Sie Open-Source-FiftyOne mit pip:

pip install fiftyone

Eine bewährte Methode besteht darin, dies in einer neuen virtuellen Umgebung (venv oder conda) zu tun. Importieren Sie dann die entsprechenden Module. Importieren Sie die Basisbibliothek FiftyOne, FiftyOne Brain mit integrierten ML-Methoden, FiftyOne Zoo, aus dem wir ein Modell laden, das Zero-Shot-Labels für uns generiert, und ViewField, mit dem wir effizient filtern können Daten in unserem Datensatz:

import fiftyone as fo
import fiftyone.brain as fob
import fiftyone.zoo as foz
from fiftyone import ViewField as F

Sie möchten auch die Python-Module glob und os importieren, die uns bei der Arbeit mit Pfaden und Musterabgleich über Verzeichnisinhalte helfen:

from glob import glob
import os

Jetzt können wir den Datensatz in FiftyOne laden. Zuerst erstellen wir einen Datensatz namens fashion200k und machen ihn persistent, was es uns ermöglicht, die Ergebnisse rechenintensiver Operationen zu speichern, sodass wir diese Mengen nur einmal berechnen müssen.

dataset = fo.Dataset("fashion200k", persistent=True)

Wir können jetzt alle Unterkategorieverzeichnisse durchlaufen und alle Bilder in den Produktverzeichnissen hinzufügen. Wir fügen jedem Muster ein FiftyOne-Klassifizierungslabel mit dem Feldnamen article_type hinzu, das von der Artikelkategorie der obersten Ebene des Bildes ausgefüllt wird. Wir fügen auch Informationen zu Kategorien und Unterkategorien als Tags hinzu:

# Map dir categories to article type labels
labels_map = { "dresses": "dress", "jackets": "jacket", "pants": "pants", "skirts": "skirt", "tops": "top",
} dataset_dir = "./fashion200k" for d in glob(os.path.join(dataset_dir, "women", "*", "*")): _, _, category, subcategory = d.split("/") subcategory = subcategory.replace("_", " ") label = labels_map[category] dataset.add_samples( [ fo.Sample( filepath=filepath,
tags=[category, subcategory], article_type=fo.Classification(label=label), ) for filepath in glob(os.path.join(d, "*", "*")) ] )

An diesem Punkt können wir unseren Datensatz in der FiftyOne-App visualisieren, indem wir eine Sitzung starten:

session = fo.launch_app(dataset)

Wir können auch eine Zusammenfassung des Datensatzes in Python ausdrucken, indem wir ausführen print(dataset):

Name: fashion200k
Media type: image
Num samples: 338339
Persistent: True
Tags: []
Sample fields: id: fiftyone.core.fields.ObjectIdField filepath: fiftyone.core.fields.StringField tags: fiftyone.core.fields.ListField(fiftyone.core.fields.StringField) metadata: fiftyone.core.fields.EmbeddedDocumentField(fiftyone.core.metadata.ImageMetadata) article_type: fiftyone.core.fields.EmbeddedDocumentField(fiftyone.core.labels.Classification)

Wir können auch die Tags von hinzufügen labels Verzeichnis zu den Proben in unserem Datensatz:

working_dir = os.getcwd() tags = {
f: set(t) for f, t in zip(*dataset.values(["filepath", "tags"]))
} for label_file in glob("fashion200k/labels/*"): with open(label_file, 'r') as f: for line in f.readlines(): line_list = line.split() fp = os.path.join( working_dir, dataset_dir, line_list[0] ) # add new tags new_tags_for_fp = line_list[2:] tags[fp].update(new_tags_for_fp) # Update tags
dataset.set_values("tags", tags, key_field="filepath")

Betrachtet man die Daten, werden einige Dinge deutlich:

Einige der Bilder sind ziemlich körnig und haben eine niedrige Auflösung. Dies liegt wahrscheinlich daran, dass diese Bilder durch Zuschneiden von Anfangsbildern in Objekterkennungs-Begrenzungsrahmen erzeugt wurden.
Einige Kleidungsstücke werden von einer Person getragen, andere werden alleine fotografiert. Diese Details werden durch die gekapselt viewpoint Eigentum.
Viele der Bilder desselben Produkts sind sehr ähnlich, so dass das Einfügen von mehr als einem Bild pro Produkt zumindest anfangs möglicherweise nicht viel Vorhersagekraft hinzufügt. Meistens ist das erste Bild jedes Produkts (mit der Endung _0.jpeg) ist am saubersten.

Zunächst möchten wir unser Kleidungsstil-Klassifizierungsmodell vielleicht mit einer kontrollierten Teilmenge dieser Bilder trainieren. Dazu verwenden wir hochauflösende Abbildungen unserer Produkte und beschränken unsere Betrachtung auf ein repräsentatives Muster pro Produkt.

Zuerst filtern wir die Bilder mit niedriger Auflösung heraus. Wir benutzen das compute_metadata() Methode zum Berechnen und Speichern der Bildbreite und -höhe in Pixeln für jedes Bild im Datensatz. Wir setzen dann den FiftyOne ein ViewField um Bilder basierend auf den minimal zulässigen Werten für Breite und Höhe herauszufiltern. Siehe folgenden Code:

dataset.compute_metadata() min_width = 200
min_height = 300 width_filter = F("metadata.width") > min_width
height_filter = F("metadata.height") > min_height high_res_view = dataset.match( width_filter & height_filter
) session.view = high_res_view.view()

Diese hochauflösende Teilmenge umfasst knapp 200,000 Samples.

Aus dieser Ansicht können wir eine neue Ansicht unseres Datensatzes erstellen, die nur (höchstens) eine repräsentative Probe für jedes Produkt enthält. Wir benutzen das ViewField noch einmal, Musterabgleich für Dateipfade, die mit enden _0.jpeg:

representative_view = high_res_view.match( F("filepath").ends_with("_0.jpeg")
)

Sehen wir uns eine zufällig gemischte Reihenfolge der Bilder in dieser Teilmenge an:

session.view = representative_view.shuffle()

Entfernen Sie redundante Bilder im Datensatz

Diese Ansicht enthält 66,297 Bilder oder etwas mehr als 19 % des ursprünglichen Datensatzes. Wenn wir uns jedoch die Ansicht ansehen, sehen wir, dass es viele sehr ähnliche Produkte gibt. Das Aufbewahren all dieser Kopien wird wahrscheinlich nur die Kosten für unsere Beschriftung und Modellschulung erhöhen, ohne die Leistung merklich zu verbessern. Lassen Sie uns stattdessen die Beinahe-Duplikate entfernen, um einen kleineren Datensatz zu erstellen, der immer noch die gleiche Schlagkraft hat.

Da diese Bilder keine exakten Duplikate sind, können wir sie nicht auf pixelweise Gleichheit prüfen. Glücklicherweise können wir das FiftyOne Brain verwenden, um unseren Datensatz zu bereinigen. Insbesondere berechnen wir eine Einbettung für jedes Bild – einen niedrigdimensionalen Vektor, der das Bild darstellt – und suchen dann nach Bildern, deren Einbettungsvektoren nahe beieinander liegen. Je näher die Vektoren, desto ähnlicher die Bilder.

Wir verwenden ein CLIP-Modell, um einen 512-dimensionalen Einbettungsvektor für jedes Bild zu generieren, und speichern diese Einbettungen im Feld Einbettungen auf den Proben in unserem Datensatz:

## load model
model = foz.load_zoo_model("clip-vit-base32-torch") ## compute embeddings
representative_view.compute_embeddings(
model, embeddings_field="embedding"
)

Dann berechnen wir die Nähe zwischen Einbettungen mit Kosinusähnlichkeit, und behaupten, dass alle zwei Vektoren, deren Ähnlichkeit größer als ein gewisser Schwellenwert ist, wahrscheinlich nahezu Duplikate sind. Cosinus-Ähnlichkeitswerte liegen im Bereich [0, 1], und wenn man sich die Daten ansieht, scheint ein Schwellenwert von thresh = 0.5 ungefähr richtig zu sein. Auch dies muss nicht perfekt sein. Ein paar nahezu doppelte Bilder werden unsere Vorhersagekraft wahrscheinlich nicht ruinieren, und das Wegwerfen einiger nicht doppelter Bilder wirkt sich nicht wesentlich auf die Modellleistung aus.

results = fob.compute_similarity(
view,
embeddings="embedding",
brain_key="sim",
metric="cosine"
) results.find_duplicates(thresh=0.5)

Wir können die angeblichen Duplikate anzeigen, um zu überprüfen, ob sie tatsächlich redundant sind:

## view the duplicates, paired up, ## to make sure it is doing what we think it is doing
dup_view = results.duplicates_view()
session = fo.launch_app(dup_view)

Wenn wir mit dem Ergebnis zufrieden sind und glauben, dass es sich bei diesen Bildern tatsächlich um Duplikate handelt, können wir ein Beispiel aus jedem Satz ähnlicher Beispiele auswählen, um es zu behalten, und die anderen ignorieren:

## get one image from each group of duplicates
dup_rep_ids = list(results.neighbors_map.keys()) # get ids of non-duplicates
non_dup_ids = representative_view.exclude(
dup_view.values("id")
).values("id") # ids to keep
ids = dup_rep_ids + non_dup_ids # create view from ids
non_dup_view = representative_view[ids]

Jetzt hat diese Ansicht 3,729 Bilder. Durch die Bereinigung der Daten und die Identifizierung einer qualitativ hochwertigen Teilmenge des Fashion200K-Datensatzes können wir mit FiftyOne unseren Fokus von mehr als 300,000 Bildern auf knapp 4,000 beschränken, was einer Reduzierung um 98 % entspricht. Allein die Verwendung von Einbettungen zum Entfernen von nahezu doppelten Bildern hat unsere Gesamtzahl der berücksichtigten Bilder um mehr als 90 % verringert, mit wenig oder gar keiner Auswirkung auf Modelle, die mit diesen Daten trainiert werden sollen.

Bevor wir diese Teilmenge vorbeschriften, können wir die Daten besser verstehen, indem wir die bereits berechneten Einbettungen visualisieren. Wir können das eingebaute FiftyOne Brain verwenden compute_visualization()-Methode, die die UMAP-Technik (Uniform Manifold Approximation) verwendet, um die 512-dimensionalen Einbettungsvektoren in den zweidimensionalen Raum zu projizieren, damit wir sie visualisieren können:

fob.compute_visualization( non_dup_view, embeddings="embedding", brain_key="vis"
)

Wir eröffnen ein neues Bedienfeld „Einbettungen“. in der FiftyOne-App und Färbung nach Artikeltyp, und wir können sehen, dass diese Einbettungen ungefähr eine Vorstellung von Artikeltyp kodieren (unter anderem!).

Jetzt können wir diese Daten vorbeschriften.

Durch die Untersuchung dieser höchst einzigartigen, hochauflösenden Bilder können wir eine anständige Anfangsliste von Stilen erstellen, die als Klassen in unserer Zero-Shot-Klassifizierung vor der Kennzeichnung verwendet werden können. Unser Ziel bei der Vorbeschriftung dieser Bilder ist nicht unbedingt, jedes Bild korrekt zu beschriften. Unser Ziel ist es vielmehr, einen guten Ausgangspunkt für menschliche Kommentatoren bereitzustellen, damit wir Zeit und Kosten für die Kennzeichnung reduzieren können.

styles = [ "graphic", "lettered", "plain", "striped", "polka dot", "floral", "jersey", "checkered", "denim", "plaid", "houndstooth", "chevron", "paisley", "animal print", "quatrefoil", “camouflage”
]

Wir können dann ein Zero-Shot-Klassifizierungsmodell für diese Anwendung instanziieren. Wir verwenden ein CLIP-Modell, das ein Allzweckmodell ist, das sowohl mit Bildern als auch mit natürlicher Sprache trainiert wird. Wir instanziieren ein CLIP-Modell mit dem Text-Prompt „Kleidung im Stil“, sodass das Modell bei einem gegebenen Bild die Klasse ausgibt, für die „Kleidung im Stil [Klasse]“ am besten geeignet ist. CLIP ist nicht auf einzelhandels- oder modespezifische Daten trainiert, daher ist dies nicht perfekt, aber es kann Ihnen Kosten für Etikettierung und Anmerkungen ersparen.

zero_shot_model = foz.load_zoo_model( "clip-vit-base32-torch", text_prompt="Clothing in the style ", classes=styles,
)

Wir wenden dieses Modell dann auf unsere reduzierte Teilmenge an und speichern die Ergebnisse in einer article_style Feld:

non_dup_view.apply_model(
zero_shot_model, label_field="article_style"
)

Wenn wir die FiftyOne-App erneut starten, können wir die Bilder mit diesen vorhergesagten Stilbezeichnungen visualisieren. Wir sortieren nach Vorhersagekonfidenz, sodass wir zuerst die zuverlässigsten Stilvorhersagen sehen:

high_conf_view = non_dup_view.sort_by( "article_style.confidence", reverse=True
) session.view = high_conf_view

Wir können sehen, dass die Vorhersagen mit dem höchsten Vertrauen für die Stile „Jersey“, „Tiermuster“, „Tupfen“ und „Buchstaben“ zu gelten scheinen. Dies ist sinnvoll, da diese Stile relativ unterschiedlich sind. Es scheint auch, dass die vorhergesagten Stilbezeichnungen größtenteils korrekt sind.

Wir können uns auch die Stilvorhersagen mit dem geringsten Vertrauen ansehen:

low_conf_view = non_dup_view.sort_by( "article_style.confidence"
)
session.view = low_conf_view

Bei einigen dieser Bilder befindet sich die entsprechende Stilkategorie in der bereitgestellten Liste, und das Kleidungsstück ist falsch gekennzeichnet. Das erste Bild im Raster sollte beispielsweise eindeutig „Camouflage“ und nicht „Chevron“ sein. In anderen Fällen passen die Produkte jedoch nicht genau in die Stilkategorien. Das Kleid im zweiten Bild in der zweiten Reihe ist beispielsweise nicht genau „gestreift“, aber bei denselben Beschriftungsoptionen könnte ein menschlicher Kommentator ebenfalls in Konflikt geraten sein. Beim Aufbau unseres Datensatzes müssen wir entscheiden, ob wir Randfälle wie diese entfernen, neue Stilkategorien hinzufügen oder den Datensatz erweitern.

Exportieren Sie den endgültigen Datensatz aus FiftyOne

Exportieren Sie das endgültige Dataset mit dem folgenden Code:

# The directory to which to write the exported dataset
export_dir = "200kFashionDatasetExportResult" # The name of the sample field containing the label that you wish to export
# Used when exporting labeled datasets (e.g., classification or detection)
label_field = "article_style" # for example # The type of dataset to export
# Any subclass of `fiftyone.types.Dataset` is supported
dataset_type = fo.types.COCODetectionDataset # for example # Export the dataset
high_conf_view.export( export_dir=export_dir, dataset_type=dataset_type, label_field=label_field,
)

Wir können einen kleineren Datensatz, beispielsweise 16 Bilder, in den Ordner exportieren 200kFashionDatasetExportResult-16Images. Wir erstellen damit einen Ground-Truth-Anpassungsjob:

# The directory to which to write the exported dataset
export_dir = "200kFashionDatasetExportResult-16Images" # The name of the sample field containing the label that you wish to export
# Used when exporting labeled datasets (e.g., classification or detection)
label_field = "article_style" # for example # The type of dataset to export
# Any subclass of `fiftyone.types.Dataset` is supported
dataset_type = fo.types.COCODetectionDataset # for example # Export the dataset
high_conf_view.take(16).export( export_dir=export_dir, dataset_type=dataset_type, label_field=label_field,
)

Laden Sie den überarbeiteten Datensatz hoch, konvertieren Sie das Etikettenformat in Ground Truth, laden Sie ihn auf Amazon S3 hoch und erstellen Sie eine Manifestdatei für den Anpassungsauftrag

Wir können die Beschriftungen im Datensatz so konvertieren, dass sie mit der übereinstimmen Ausgabemanifestschema eines Bounding-Box-Jobs von Ground Truth und laden Sie die Bilder in eine hoch Amazon Simple Storage-Service (Amazon S3) Bucket zum Starten von a Ground Truth Anpassungsjob:

import json
# open the labels.json file of ground truth bounding box #labels from the exported dataset
f = open('200kFashionDatasetExportResult-16Images/labels.json')
data = json.load(f) # provide your aws s3 bucket name, prefix, and aws credentials
bucket_name = 'sagemaker-your-preferred-s3-bucket'
s3_prefix = 'sagemaker-your-preferred-s3-prefix' session = boto3.Session( aws_access_key_id='<AWS_ACCESS_KEY_ID>', aws_secret_access_key='<AWS_SECRET_ACCESS_KEY>'
)
s3 = session.resource('s3') for image in data['images']: file_name = image['file_name'] file_id = file_name[:-4] image_id = image['id'] # upload the image to s3 s3.meta.client.upload_file('200kFashionDatasetExportResult-16Images/data/'+image['file_name'], bucket_name, s3_prefix+'/'+image['file_name']) gt_annotations = [] confidence = 0.00 for annotation in data['annotations']: if annotation['image_id'] == image['id']: confidence = annotation['score'] gt_annotation = { "class_id": gt_class_array.index(style_category), # convert the original ground_truth bounding box #label to predicted style label "left": annotation['bbox'][0], "top": annotation['bbox'][1], "width": annotation['bbox'][2], "height": annotation['bbox'][3] } gt_annotations.append(gt_annotation) break gt_metadata_objects = [] for gt_annotation in gt_annotations: gt_metadata_objects.append({ "confidence": confidence }) gt_label_attribute_metadata = { "class-map": gt_class_map, "objects": gt_metadata_objects, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2023-02-19T00:23:25.339582", "job-name": "labeling-job/200k-fashion-origin" } gt_output = { "source-ref": f"s3://{bucket_name}/{s3_prefix}/{image['file_name']}", "200k-fashion-origin": { "image_size": [ { "width": image['width'], "height": image['height'], "depth": 3 } ], "annotations": gt_annotations }, "200k-fashion-origin-metadata": gt_label_attribute_metadata } # write to the manifest file with open(200k-fashion-output.manifest', 'a') as output_file: output_file.write(json.dumps(gt_output) + "n")

Laden Sie die Manifestdatei mit dem folgenden Code in Amazon S3 hoch:

s3.meta.client.upload_file(200k-fashion-output.manifest', bucket_name, s3_prefix+'/200k-fashion-output.manifest')

Erstellen Sie mit Ground Truth korrigierte gestylte Etiketten

Um Ihre Daten mithilfe von Ground Truth mit Stilbeschriftungen zu versehen, führen Sie die erforderlichen Schritte aus, um einen Beschriftungsauftrag für Begrenzungsrahmen zu starten, indem Sie das in beschriebene Verfahren befolgen Erste Schritte mit Ground Truth guide mit dem Datensatz im selben S3-Bucket.

Erstellen Sie auf der SageMaker-Konsole einen Ground Truth-Beschriftungsauftrag.
Setze die Speicherort des Datensatzes eingeben das Manifest sein, das wir in den vorherigen Schritten erstellt haben.
Geben Sie einen S3-Pfad für an Speicherort des Ausgabedatensatzes.
Aussichten für IAM-Rolle, wählen Geben Sie eine benutzerdefinierte IAM-Rolle ein RNA, und geben Sie dann den Rollen-ARN ein.
Aussichten für Aufgabenkategorie, wählen Bild und wählen Sie Begrenzungsrahmen.
Auswählen Weiter.
Im Arbeitskräfte Wählen Sie im Abschnitt die Art der Arbeitskräfte aus, die Sie verwenden möchten.
Sie können eine Belegschaft über auswählen Amazon Mechanischer Türke, Drittanbieter oder Ihre eigene private Belegschaft. Weitere Einzelheiten zu Ihren Personaloptionen finden Sie unter Erstellen und Verwalten von Arbeitskräften.
Erweitern Sie die Funktionalität der Anzeigeoptionen für vorhandene Etiketten und wählen Sie Ich möchte vorhandene Labels aus dem Datensatz für diesen Job anzeigen.
Aussichten für Label-Attribut name, wählen Sie den Namen aus Ihrem Manifest aus, der den Labels entspricht, die Sie zur Anpassung anzeigen möchten.
Sie sehen nur Label-Attributnamen für Labels, die dem Aufgabentyp entsprechen, den Sie in den vorherigen Schritten ausgewählt haben.
Geben Sie die Beschriftungen für manuell ein Beschriftungstool für Begrenzungsrahmen.
Die Labels müssen dieselben Labels enthalten, die im öffentlichen Dataset verwendet werden. Sie können neue Etiketten hinzufügen. Der folgende Screenshot zeigt, wie Sie die Arbeiter auswählen und das Werkzeug für Ihren Etikettierauftrag konfigurieren können.
Auswählen Vorspann , um eine Vorschau des Bilds und der ursprünglichen Anmerkungen anzuzeigen.

Wir haben jetzt einen Labeling-Job in Ground Truth erstellt. Nachdem unser Job abgeschlossen ist, können wir die neu generierten beschrifteten Daten in FiftyOne laden. Ground Truth erzeugt Ausgabedaten in einem Ground Truth-Ausgabemanifest. Weitere Einzelheiten zur Ausgabemanifestdatei finden Sie unter Bounding-Box-Job-Ausgabe. Der folgende Code zeigt ein Beispiel für dieses Ausgabemanifestformat:

{ "source-ref": "s3://AWSDOC-EXAMPLE-BUCKET/example_image.png", "bounding-box-attribute-name": { "image_size": [{ "width": 500, "height": 400, "depth":3}], "annotations": [ {"class_id": 0, "left": 111, "top": 134, "width": 61, "height": 128}, {"class_id": 5, "left": 161, "top": 250, "width": 30, "height": 30}, {"class_id": 5, "left": 20, "top": 20, "width": 30, "height": 30} ] }, "bounding-box-attribute-name-metadata": { "objects": [ {"confidence": 0.8}, {"confidence": 0.9}, {"confidence": 0.9} ], "class-map": { "0": "jersey", "5": "polka dot" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2018-10-18T22:18:13.527256", "job-name": "identify-fashion-set" }, "adjusted-bounding-box": { "image_size": [{ "width": 500, "height": 400, "depth":3}], "annotations": [ {"class_id": 0, "left": 110, "top": 135, "width": 61, "height": 128}, {"class_id": 5, "left": 161, "top": 250, "width": 30, "height": 30}, {"class_id": 5, "left": 10, "top": 10, "width": 30, "height": 30} ] }, "adjusted-bounding-box-metadata": { "objects": [ {"confidence": 0.8}, {"confidence": 0.9}, {"confidence": 0.9} ], "class-map": { "0": "dog", "5": "bone" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2018-11-20T22:18:13.527256", "job-name": "adjust-identify-fashion-set", "adjustment-status": "adjusted" } }

Sehen Sie sich gekennzeichnete Ergebnisse von Ground Truth in FiftyOne an

Laden Sie nach Abschluss des Auftrags das Ausgabemanifest des Kennzeichnungsauftrags von Amazon S3 herunter.

Lesen Sie die Ausgabemanifestdatei:

with open('<path-to-your-output.manifest>', 'r') as fh: adjustment_manifest_lines = fh.readlines()

Erstellen Sie ein FiftyOne-Dataset und konvertieren Sie die Manifestzeilen in Samples im Dataset:

def get_classification_labels(manifest_line, dataset, attr_name) -> fo.Classifications: label_attribute_data = manifest_line.get(attr_name) metadata = manifest_line.get(f"{attr_name}-metadata") annotations = label_attribute_data.get("annotations") image_data = label_attribute_data.get("image_size")[0] width = image_data.get("width") height = image_data.get("height") predictions = [] for i, annotation in enumerate(annotations): label = metadata.get("class-map").get(str(annotation.get("class_id"))) confidence = metadata.get("objects")[i].get("confidence") prediction = fo.Classification(label=label, confidence=confidence) predictions.append(prediction) return fo.Classifications(classifications=predictions) def get_bounding_box_labels(manifest_line, dataset, attr_name) -> fo.Detections: label_attribute_data = manifest_line.get(attr_name) metadata = manifest_line.get(f"{attr_name}-metadata") annotations = label_attribute_data.get("annotations") image_data = label_attribute_data.get("image_size")[0] width = image_data.get("width") height = image_data.get("height") detections = [] for i, annotation in enumerate(annotations): label = metadata.get("class-map").get(str(annotation.get("class_id"))) confidence = metadata.get("objects")[i].get("confidence") # Bounding box coordinates should be relative values # in [0, 1] in the following format: # [top-left-x, top-left-y, width, height] bounding_box = [ annotation.get("left") / width, annotation.get("top") / height, annotation.get("width") / width, annotation.get("height") / height, ] detection = fo.Detection( label=label, bounding_box=bounding_box, confidence=confidence ) detections.append(detection) return fo.Detections(detections=detections) def get_sample_from_manifest_line(manifest_line, dataset, attr_name): """ For each line in manifest, transform annotations into Fiftyone format Args: line: manifest line Output: Fiftyone image sample """ file_name = manifest_line.get("source-ref")[5:].split("/")[-1] file_loc = f'200kFashionDatasetExportResult-16Images/data/{file_name}' sample = fo.Sample(filepath=file_loc) sample['ground_truth'] = get_bounding_box_labels( manifest_line=manifest_line, dataset=dataset, attr_name=attr_name ) sample["prediction"] = get_classification_labels( manifest_line=manifest_line, dataset=dataset, attr_name=attr_name ) return sample adjustment_dataset = fo.Dataset("adjustment-job-dataset") samples = [ get_sample_from_manifest_line( manifest_line=json.loads(manifest_line), dataset=adjustment_dataset, attr_name='smgt-fiftyone-style-adjustment-job' ) for manifest_line in adjustment_manifest_lines ] adjustment_dataset.add_samples(samples) session = fo.launch_app(adjustment_dataset)

Sie können jetzt qualitativ hochwertige beschriftete Daten von Ground Truth in FiftyOne sehen.

Zusammenfassung

In diesem Beitrag haben wir gezeigt, wie man qualitativ hochwertige Datensätze erstellt, indem man die Leistungsfähigkeit von kombiniert Einundfünfzig by voxel51, ein Open-Source-Toolkit, mit dem Sie Ihren Datensatz verwalten, nachverfolgen, visualisieren und kuratieren können, und Ground Truth, ein Datenkennzeichnungsdienst, mit dem Sie die für das Training von ML-Systemen erforderlichen Datensätze effizient und genau kennzeichnen können, indem Sie Zugriff auf mehrere erstellte -in-Aufgabenvorlagen und Zugriff auf eine vielfältige Belegschaft durch Mechanical Turk, Drittanbieter oder Ihre eigene private Belegschaft.

Wir empfehlen Ihnen, diese neue Funktion auszuprobieren, indem Sie eine FiftyOne-Instanz installieren und die Ground Truth-Konsole verwenden, um loszulegen. Weitere Informationen zu Ground Truth finden Sie unter Etikettendaten, Häufig gestellte Fragen zur Amazon SageMaker-Datenkennzeichnungund der AWS-Blog für maschinelles Lernen.

Verbinden Sie sich mit dem Community für maschinelles Lernen und KI Wenn Sie Fragen oder Feedback haben!

Treten Sie der FiftyOne-Community bei!

Schließen Sie sich den Tausenden von Ingenieuren und Datenwissenschaftlern an, die FiftyOne bereits verwenden, um einige der schwierigsten Probleme in der Computer Vision von heute zu lösen!

Über die Autoren

Shalendra Chhabra ist derzeit Head of Product Management für Amazon SageMaker Human-in-the-Loop (HIL) Services. Zuvor hat Shalendra Language and Conversational Intelligence für Microsoft Teams Meetings inkubiert und geleitet, war EIR bei Amazon Alexa Techstars Startup Accelerator, VP of Product and Marketing bei Diskutiere.io, Head of Product and Marketing bei Clipboard (übernommen von Salesforce) und Lead Product Manager bei Swype (übernommen von Nuance). Insgesamt hat Shalendra dazu beigetragen, Produkte zu entwickeln, zu versenden und zu vermarkten, die mehr als eine Milliarde Menschen berührt haben.

Jakob Markus ist Machine Learning Engineer und Developer Evangelist bei Voxel51, wo er dazu beiträgt, Transparenz und Klarheit in die Daten der Welt zu bringen. Bevor er zu Voxel51 kam, gründete Jacob ein Startup, um aufstrebenden Musikern zu helfen, sich mit Fans zu verbinden und kreative Inhalte mit ihnen zu teilen. Davor arbeitete er bei Google X, Samsung Research und Wolfram Research. In einem früheren Leben war Jacob theoretischer Physiker und promovierte in Stanford, wo er Quantenphasen von Materie untersuchte. In seiner Freizeit klettert, läuft und liest Jacob gerne Science-Fiction-Romane.

Jason Korso ist Mitbegründer und CEO von Voxel51, wo er die Strategie steuert, um durch hochmoderne flexible Software Transparenz und Klarheit in die Daten der Welt zu bringen. Er ist außerdem Professor für Robotik, Elektrotechnik und Informatik an der University of Michigan, wo er sich auf innovative Probleme an der Schnittstelle von Computer Vision, natürlicher Sprache und physischen Plattformen konzentriert. In seiner Freizeit verbringt Jason gerne Zeit mit seiner Familie, liest, ist in der Natur, spielt Brettspiele und unternimmt alle möglichen kreativen Aktivitäten.

Brian Moore ist Mitbegründer und CTO von Voxel51, wo er die technische Strategie und Vision leitet. Er promovierte in Elektrotechnik an der University of Michigan, wo sich seine Forschung auf effiziente Algorithmen für groß angelegte Probleme des maschinellen Lernens konzentrierte, mit besonderem Schwerpunkt auf Computer-Vision-Anwendungen. In seiner Freizeit spielt er gerne Badminton, Golf, wandert und spielt mit seinen Zwillings-Yorkshire-Terriern.

Zhuling Bai ist Softwareentwicklungsingenieur bei Amazon Web Services. Sie arbeitet an der Entwicklung großer verteilter Systeme zur Lösung von Problemen des maschinellen Lernens.

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
PlatoAiStream. Web3-Datenintelligenz. Wissen verstärkt. Hier zugreifen.
Die Zukunft prägen mit Adryenn Ashley. Hier zugreifen.
Kaufen und verkaufen Sie Anteile an PRE-IPO-Unternehmen mit PREIPO®. Hier zugreifen.
Quelle: https://aws.amazon.com/blogs/machine-learning/create-high-quality-datasets-with-amazon-sagemaker-ground-truth-and-fiftyone/

Zeitstempel: 5. Mai 2023

Zeitstempel: 7. März 2023

Neuauflage von Plato

Neu – Generative KI-Funktionen ohne Code sind jetzt in Amazon SageMaker Canvas | verfügbar Amazon Web Services

Analysieren Sie den Nagetierbefall mit den Geodatenfunktionen von Amazon SageMaker | Amazon Web Services

Passen Sie Aussprachen mit Amazon Polly an

Maximieren Sie die Leistung und reduzieren Sie Ihre Schulungskosten für Deep Learning mit AWS Trainium und Amazon SageMaker

Inkrementelles Training mit Amazon SageMaker JumpStart

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto