Twórz wysokiej jakości zbiory danych za pomocą Amazon SageMaker Ground Truth i FiftyOne

Opublikowane ponownie przez Plato

Obserwuje: 0

To jest wspólny post napisany wspólnie przez AWS i Voxel51. Voxel51 jest firmą stojącą za FiftyOne, zestawem narzędzi typu open source do tworzenia wysokiej jakości zestawów danych i komputerowych modeli wizyjnych.

Firma handlu detalicznego tworzy aplikację mobilną, aby pomóc klientom kupować ubrania. Aby utworzyć tę aplikację, potrzebują wysokiej jakości zbioru danych zawierającego obrazy odzieży oznaczone różnymi kategoriami. W tym poście pokazujemy, jak zmienić przeznaczenie istniejącego zestawu danych poprzez czyszczenie danych, wstępne przetwarzanie i wstępne etykietowanie za pomocą modelu klasyfikacji zero-shot w Pięćdziesiąt jedeni dopasowując te etykiety za pomocą Amazon SageMaker Ground Prawda.

Możesz użyć Ground Truth i FiftyOne, aby przyspieszyć swój projekt etykietowania danych. Pokazujemy, jak bezproblemowo używać razem tych dwóch aplikacji, aby tworzyć wysokiej jakości zestawy danych z etykietami. W naszym przykładowym przypadku użycia pracujemy z Zbiór danych Fashion200K, wydany na ICCV 2017.

Omówienie rozwiązania

Ground Truth to w pełni samoobsługowa i zarządzana usługa etykietowania danych, która umożliwia analitykom danych, inżynierom uczenia maszynowego (ML) i badaczom tworzenie zestawów danych wysokiej jakości. Pięćdziesiąt jeden by Woksel51 to zestaw narzędzi typu open source do kuracji, wizualizacji i oceny zestawów danych wizji komputerowej, dzięki czemu można trenować i analizować lepsze modele, przyspieszając przypadki użycia.

W poniższych sekcjach pokazujemy, jak wykonać następujące czynności:

Wizualizuj zestaw danych w FiftyOne
Oczyść zestaw danych za pomocą filtrowania i deduplikacji obrazu w FiftyOne
Wstępnie oznacz oczyszczone dane klasyfikacją zerowego strzału w FiftyOne
Oznacz mniejszy wyselekcjonowany zestaw danych o Ground Truth
Wstrzyknij oznakowane wyniki z Ground Truth do FiftyOne i przejrzyj oznaczone wyniki w FiftyOne

Omówienie przypadków użycia

Załóżmy, że jesteś właścicielem firmy zajmującej się sprzedażą detaliczną i chcesz stworzyć aplikację mobilną, która dostarcza spersonalizowane rekomendacje, aby pomóc użytkownikom zdecydować, w co się ubrać. Twoi potencjalni użytkownicy szukają aplikacji, która powie im, które ubrania w ich szafie dobrze ze sobą współgrają. Widzisz w tym szansę: jeśli potrafisz zidentyfikować dobre stroje, możesz to wykorzystać, aby polecić nowe artykuły odzieżowe, które uzupełniają odzież, którą klient już posiada.

Chcesz, aby wszystko było jak najłatwiejsze dla użytkownika końcowego. Idealnie byłoby, gdyby ktoś korzystający z Twojej aplikacji zrobił tylko zdjęcia ubrań w swojej szafie, a Twoje modele ML zadziałają magicznie za kulisami. Możesz wytrenować model ogólnego przeznaczenia lub dostosować model do unikalnego stylu każdego użytkownika, korzystając z jakiejś formy informacji zwrotnej.

Najpierw jednak musisz określić, jaki rodzaj odzieży fotografuje użytkownik. Czy to koszula? Para spodni? Albo coś innego? W końcu prawdopodobnie nie chcesz polecać stroju, który ma wiele sukienek lub wiele czapek.

Aby sprostać temu początkowemu wyzwaniu, chcesz wygenerować zestaw danych szkoleniowych składający się z obrazów różnych artykułów odzieżowych o różnych wzorach i stylach. Aby stworzyć prototyp z ograniczonym budżetem, chcesz przeprowadzić ładowanie przy użyciu istniejącego zestawu danych.

Aby zilustrować i przeprowadzić Cię przez proces w tym poście, używamy zestawu danych Fashion200K opublikowanego na ICCV 2017. Jest to uznany i dobrze cytowany zestaw danych, ale nie jest bezpośrednio dopasowany do twojego przypadku użycia.

Chociaż artykuły odzieżowe są oznaczone kategoriami (i podkategoriami) i zawierają wiele pomocnych tagów pochodzących z oryginalnych opisów produktów, dane nie są systematycznie oznaczane informacjami o wzorze lub stylu. Twoim celem jest przekształcenie tego istniejącego zestawu danych w solidny zestaw danych szkoleniowych dla modeli klasyfikacji odzieży. Musisz wyczyścić dane, rozszerzając schemat etykietowania o etykiety stylów. I chcesz to zrobić szybko i przy jak najmniejszych wydatkach.

Pobierz dane lokalnie

Najpierw pobierz plik zip women.tar i folder labels (wraz ze wszystkimi jego podfolderami), postępując zgodnie z instrukcjami podanymi w Zestaw danych Fashion200K Repozytorium GitHub. Po rozpakowaniu ich obu, utwórz nadrzędny katalog fashion200k i przenieś do niego etykiety i foldery kobiet. Na szczęście te obrazy zostały już przycięte do ramek ograniczających wykrywanie obiektów, więc możemy skupić się na klasyfikacji, zamiast martwić się wykrywaniem obiektów.

Pomimo nazwy „200 338,339” wyodrębniony przez nas katalog kobiet zawiera 200 300,000 obrazów. Aby wygenerować oficjalny zestaw danych FashionXNUMXK, jego autorzy przeszukali ponad XNUMX XNUMX produktów online i tylko produkty z opisami zawierającymi więcej niż cztery słowa zostały wybrane. Do naszych celów, gdy opis produktu nie jest niezbędny, możemy wykorzystać wszystkie zindeksowane obrazy.

Przyjrzyjmy się, jak uporządkowane są te dane: w folderze kobiety obrazy są uporządkowane według typu artykułu najwyższego poziomu (spódnice, topy, spodnie, kurtki i sukienki) oraz podkategorii typu artykułu (bluzki, t-shirty, najfatalniejszy).

W katalogach podkategorii znajduje się podkatalog dla każdej listy produktów. Każdy z nich zawiera zmienną liczbę obrazów. Na przykład podkategoria cropped_pants zawiera następujące listy produktów i powiązane obrazy.

Folder labels zawiera plik tekstowy dla każdego typu artykułu najwyższego poziomu, zarówno dla podziałów pociągów, jak i testów. W każdym z tych plików tekstowych znajduje się oddzielna linia dla każdego obrazu, określająca względną ścieżkę pliku, ocenę i znaczniki z opisu produktu.

Ponieważ zmieniamy przeznaczenie zestawu danych, łączymy wszystkie obrazy pociągów i testów. Używamy ich do generowania wysokiej jakości zestawu danych specyficznych dla aplikacji. Po zakończeniu tego procesu możemy losowo podzielić wynikowy zestaw danych na nowe podziały pociągów i testów.

Wstawiaj, przeglądaj i zarządzaj zestawem danych w FiftyOne

Jeśli jeszcze tego nie zrobiłeś, zainstaluj Open Source FiftyOne za pomocą pip:

pip install fiftyone

Najlepszą praktyką jest robienie tego w nowym środowisku wirtualnym (venv lub conda). Następnie zaimportuj odpowiednie moduły. Zaimportuj podstawową bibliotekę, fiveone, FiftyOne Brain, która ma wbudowane metody ML, FiftyOne Zoo, z której załadujemy model, który będzie generował dla nas etykiety zero-shot, oraz ViewField, który pozwala nam skutecznie filtrować dane w naszym zbiorze danych:

import fiftyone as fo
import fiftyone.brain as fob
import fiftyone.zoo as foz
from fiftyone import ViewField as F

Chcesz również zaimportować moduły glob i os Python, które pomogą nam pracować ze ścieżkami i dopasowaniem wzorców do zawartości katalogu:

from glob import glob
import os

Teraz jesteśmy gotowi do załadowania zestawu danych do FiftyOne. Najpierw tworzymy zestaw danych o nazwie fashion200k i czynimy go trwałym, co pozwala nam zapisywać wyniki operacji wymagających dużej mocy obliczeniowej, więc wystarczy obliczyć te ilości tylko raz.

dataset = fo.Dataset("fashion200k", persistent=True)

Możemy teraz przeglądać wszystkie katalogi podkategorii, dodając wszystkie obrazy w katalogach produktów. Do każdej próbki dodajemy etykietę klasyfikacyjną FiftyOne z nazwą pola typ_artykułu, wypełnioną przez kategorię artykułu najwyższego poziomu obrazu. Dodajemy również informacje o kategorii i podkategorii jako tagi:

# Map dir categories to article type labels
labels_map = { "dresses": "dress", "jackets": "jacket", "pants": "pants", "skirts": "skirt", "tops": "top",
} dataset_dir = "./fashion200k" for d in glob(os.path.join(dataset_dir, "women", "*", "*")): _, _, category, subcategory = d.split("/") subcategory = subcategory.replace("_", " ") label = labels_map[category] dataset.add_samples( [ fo.Sample( filepath=filepath,
tags=[category, subcategory], article_type=fo.Classification(label=label), ) for filepath in glob(os.path.join(d, "*", "*")) ] )

W tym momencie możemy zwizualizować nasz zbiór danych w aplikacji FiftyOne uruchamiając sesję:

session = fo.launch_app(dataset)

Możemy również wydrukować podsumowanie zestawu danych w Pythonie, uruchamiając print(dataset):

Name: fashion200k
Media type: image
Num samples: 338339
Persistent: True
Tags: []
Sample fields: id: fiftyone.core.fields.ObjectIdField filepath: fiftyone.core.fields.StringField tags: fiftyone.core.fields.ListField(fiftyone.core.fields.StringField) metadata: fiftyone.core.fields.EmbeddedDocumentField(fiftyone.core.metadata.ImageMetadata) article_type: fiftyone.core.fields.EmbeddedDocumentField(fiftyone.core.labels.Classification)

Możemy również dodać tagi z pliku labels katalog do próbek w naszym zbiorze danych:

working_dir = os.getcwd() tags = {
f: set(t) for f, t in zip(*dataset.values(["filepath", "tags"]))
} for label_file in glob("fashion200k/labels/*"): with open(label_file, 'r') as f: for line in f.readlines(): line_list = line.split() fp = os.path.join( working_dir, dataset_dir, line_list[0] ) # add new tags new_tags_for_fp = line_list[2:] tags[fp].update(new_tags_for_fp) # Update tags
dataset.set_values("tags", tags, key_field="filepath")

Patrząc na dane, kilka rzeczy staje się jasnych:

Niektóre obrazy są dość ziarniste i mają niską rozdzielczość. Jest tak prawdopodobnie dlatego, że te obrazy zostały wygenerowane przez przycięcie początkowych obrazów w obwiedniach wykrywania obiektów.
Niektóre ubrania są noszone przez osobę, a niektóre są fotografowane samodzielnie. Te szczegóły są zawarte w viewpoint własność.
Wiele zdjęć tego samego produktu jest bardzo podobnych, więc przynajmniej na początku umieszczanie więcej niż jednego zdjęcia na produkt może nie zwiększyć mocy predykcyjnej. W większości pierwsze zdjęcie każdego produktu (kończące się na _0.jpeg) jest najczystszy.

Na początku możemy chcieć wytrenować nasz model klasyfikacji stylów odzieży na kontrolowanym podzbiorze tych obrazów. W tym celu używamy zdjęć naszych produktów w wysokiej rozdzielczości i ograniczamy nasz wgląd do jednej reprezentatywnej próbki na produkt.

Najpierw odfiltrowujemy obrazy o niskiej rozdzielczości. Używamy compute_metadata() metoda obliczania i przechowywania szerokości i wysokości obrazu w pikselach dla każdego obrazu w zbiorze danych. Następnie zatrudniamy FiftyOne ViewField aby odfiltrować obrazy na podstawie minimalnych dozwolonych wartości szerokości i wysokości. Zobacz następujący kod:

dataset.compute_metadata() min_width = 200
min_height = 300 width_filter = F("metadata.width") > min_width
height_filter = F("metadata.height") > min_height high_res_view = dataset.match( width_filter & height_filter
) session.view = high_res_view.view()

Ten podzbiór o wysokiej rozdzielczości zawiera prawie 200,000 XNUMX próbek.

Z tego widoku możemy utworzyć nowy widok w naszym zbiorze danych zawierający tylko jedną reprezentatywną próbkę (maksymalnie) dla każdego produktu. Używamy ViewField jeszcze raz dopasowanie wzorca dla ścieżek plików, które kończą się na _0.jpeg:

representative_view = high_res_view.match( F("filepath").ends_with("_0.jpeg")
)

Zobaczmy losowo przetasowaną kolejność obrazów w tym podzbiorze:

session.view = representative_view.shuffle()

Usuń zbędne obrazy w zbiorze danych

Ten widok zawiera 66,297 19 obrazów, czyli nieco ponad XNUMX% oryginalnego zbioru danych. Kiedy jednak spojrzymy na widok, widzimy, że jest wiele bardzo podobnych produktów. Przechowywanie wszystkich tych kopii prawdopodobnie zwiększy tylko koszty naszego szkolenia w zakresie etykietowania i modelowania, bez zauważalnej poprawy wydajności. Zamiast tego pozbądźmy się prawie duplikatów, aby utworzyć mniejszy zestaw danych, który wciąż ma ten sam cios.

Ponieważ te obrazy nie są dokładnymi duplikatami, nie możemy sprawdzić równości w pikselach. Na szczęście możemy użyć FiftyOne Brain, aby pomóc nam oczyścić nasz zbiór danych. W szczególności obliczymy osadzanie dla każdego obrazu — niskowymiarowy wektor reprezentujący obraz — a następnie poszukamy obrazów, których wektory osadzania są blisko siebie. Im bliższe wektory, tym bardziej podobne obrazy.

Używamy modelu CLIP do generowania 512-wymiarowego wektora osadzania dla każdego obrazu i przechowujemy te osadzania w osadzaniach terenowych na próbkach w naszym zbiorze danych:

## load model
model = foz.load_zoo_model("clip-vit-base32-torch") ## compute embeddings
representative_view.compute_embeddings(
model, embeddings_field="embedding"
)

Następnie obliczamy bliskość między osadzaniami, używając podobieństwo cosinusowei stwierdzić, że dowolne dwa wektory, których podobieństwo jest większe niż pewien próg, prawdopodobnie będą prawie duplikatami. Wyniki podobieństwa cosinusów mieszczą się w zakresie [0, 1], a patrząc na dane, wynik progowy thresh=0.5 wydaje się być mniej więcej prawidłowy. Ponownie, to nie musi być idealne. Kilka prawie zduplikowanych obrazów prawdopodobnie nie zrujnuje naszej mocy predykcyjnej, a odrzucenie kilku nieduplikatów nie wpłynie znacząco na wydajność modelu.

results = fob.compute_similarity(
view,
embeddings="embedding",
brain_key="sim",
metric="cosine"
) results.find_duplicates(thresh=0.5)

Możemy zobaczyć rzekome duplikaty, aby sprawdzić, czy rzeczywiście są one zbędne:

## view the duplicates, paired up, ## to make sure it is doing what we think it is doing
dup_view = results.duplicates_view()
session = fo.launch_app(dup_view)

Kiedy jesteśmy zadowoleni z wyniku i uważamy, że te obrazy są rzeczywiście prawie duplikatami, możemy wybrać jedną próbkę z każdego zestawu podobnych próbek do zachowania i zignorować pozostałe:

## get one image from each group of duplicates
dup_rep_ids = list(results.neighbors_map.keys()) # get ids of non-duplicates
non_dup_ids = representative_view.exclude(
dup_view.values("id")
).values("id") # ids to keep
ids = dup_rep_ids + non_dup_ids # create view from ids
non_dup_view = representative_view[ids]

Teraz ten widok zawiera 3,729 obrazów. Czyszcząc dane i identyfikując wysokiej jakości podzbiór zbioru danych Fashion200K, FiftyOne pozwala nam ograniczyć naszą koncentrację z ponad 300,000 4,000 obrazów do prawie 98, co stanowi redukcję o 90%. Samo użycie osadzania w celu usunięcia prawie zduplikowanych obrazów zmniejszyło całkowitą liczbę rozważanych obrazów o ponad XNUMX%, przy niewielkim lub żadnym wpływie na jakiekolwiek modele, które miały być szkolone na tych danych.

Przed wstępnym oznaczeniem tego podzbioru możemy lepiej zrozumieć dane, wizualizując już obliczone osadzenie. Możemy użyć wbudowanego w FiftyOne Brain compute_visualization(), która wykorzystuje technikę jednolitej aproksymacji rozmaitości (UMAP) do rzutowania 512-wymiarowych wektorów osadzania na dwuwymiarową przestrzeń, abyśmy mogli je zwizualizować:

fob.compute_visualization( non_dup_view, embeddings="embedding", brain_key="vis"
)

Otwieramy nowy Panel osadzania w aplikacji FiftyOne i kolorowanie według typu artykułu, i widzimy, że te osadzenia z grubsza kodują pojęcie typu artykułu (między innymi!).

Teraz jesteśmy gotowi do wstępnego oznakowania tych danych.

Sprawdzając te bardzo unikalne obrazy o wysokiej rozdzielczości, możemy wygenerować przyzwoitą wstępną listę stylów do wykorzystania jako klasy w naszej wstępnej klasyfikacji zero-shotów. Naszym celem podczas wstępnego oznaczania tych obrazów niekoniecznie jest prawidłowe oznaczanie każdego obrazu. Naszym celem jest raczej zapewnienie dobrego punktu wyjścia dla adnotatorów, dzięki czemu możemy skrócić czas i koszty etykietowania.

styles = [ "graphic", "lettered", "plain", "striped", "polka dot", "floral", "jersey", "checkered", "denim", "plaid", "houndstooth", "chevron", "paisley", "animal print", "quatrefoil", “camouflage”
]

Następnie możemy utworzyć instancję modelu klasyfikacji zerowej dla tej aplikacji. Używamy modelu CLIP, który jest modelem ogólnego przeznaczenia wytrenowanym zarówno na obrazach, jak i języku naturalnym. Tworzymy instancję modelu CLIP z zachętą tekstową „Odzież w stylu”, tak aby na podstawie obrazu model wyświetlił klasę, dla której „Odzież w stylu [klasa]” jest najlepiej dopasowana. CLIP nie jest przeszkolony w zakresie danych dotyczących handlu detalicznego ani mody, więc nie będzie to idealne rozwiązanie, ale może zaoszczędzić na kosztach etykietowania i adnotacji.

zero_shot_model = foz.load_zoo_model( "clip-vit-base32-torch", text_prompt="Clothing in the style ", classes=styles,
)

Następnie stosujemy ten model do naszego zredukowanego podzbioru i przechowujemy wyniki w pliku article_style pole:

non_dup_view.apply_model(
zero_shot_model, label_field="article_style"
)

Ponownie uruchamiając aplikację FiftyOne, możemy wizualizować obrazy z tymi przewidywanymi etykietami stylu. Sortujemy według pewności prognoz, więc najpierw przeglądamy najbardziej pewne prognozy stylu:

high_conf_view = non_dup_view.sort_by( "article_style.confidence", reverse=True
) session.view = high_conf_view

Widzimy, że prognozy o największej pewności wydają się dotyczyć stylów „dżersej”, „zwierzęcy nadruk”, „kropki” i „litery”. Ma to sens, ponieważ te style są stosunkowo różne. Wydaje się również, że w większości przewidywane etykiety stylów są dokładne.

Możemy również spojrzeć na prognozy stylu o najniższej pewności:

low_conf_view = non_dup_view.sort_by( "article_style.confidence"
)
session.view = low_conf_view

W przypadku niektórych z tych obrazów odpowiednia kategoria stylu znajduje się na podanej liście, a artykuł odzieżowy jest nieprawidłowo oznaczony. Na przykład pierwszy obraz w siatce powinien wyraźnie oznaczać „kamuflaż”, a nie „szewron”. Jednak w innych przypadkach produkty nie pasują do kategorii stylów. Na przykład sukienka na drugim obrazie w drugim rzędzie nie jest dokładnie „w paski”, ale biorąc pod uwagę te same opcje etykietowania, ludzki adnotator również mógł być w konflikcie. Budując nasz zbiór danych, musimy zdecydować, czy usunąć takie skrajne przypadki, dodać nowe kategorie stylów, czy rozszerzyć zbiór danych.

Wyeksportuj ostateczny zestaw danych z FiftyOne

Wyeksportuj ostateczny zestaw danych za pomocą następującego kodu:

# The directory to which to write the exported dataset
export_dir = "200kFashionDatasetExportResult" # The name of the sample field containing the label that you wish to export
# Used when exporting labeled datasets (e.g., classification or detection)
label_field = "article_style" # for example # The type of dataset to export
# Any subclass of `fiftyone.types.Dataset` is supported
dataset_type = fo.types.COCODetectionDataset # for example # Export the dataset
high_conf_view.export( export_dir=export_dir, dataset_type=dataset_type, label_field=label_field,
)

Do folderu możemy wyeksportować mniejszy zbiór danych, na przykład 16 obrazów 200kFashionDatasetExportResult-16Images. Używając go, tworzymy zadanie dostosowania Ground Truth:

# The directory to which to write the exported dataset
export_dir = "200kFashionDatasetExportResult-16Images" # The name of the sample field containing the label that you wish to export
# Used when exporting labeled datasets (e.g., classification or detection)
label_field = "article_style" # for example # The type of dataset to export
# Any subclass of `fiftyone.types.Dataset` is supported
dataset_type = fo.types.COCODetectionDataset # for example # Export the dataset
high_conf_view.take(16).export( export_dir=export_dir, dataset_type=dataset_type, label_field=label_field,
)

Prześlij poprawiony zestaw danych, przekonwertuj format etykiety na Ground Truth, prześlij do Amazon S3 i utwórz plik manifestu dla zadania dostosowania

Możemy przekonwertować etykiety w zbiorze danych, aby pasowały do wyjściowy schemat manifestu zadania pola granicznego Ground Truth i prześlij obrazy do pliku Usługa Amazon Simple Storage (Amazon S3) wiadro do uruchomienia Zadanie regulacji Ground Truth:

import json
# open the labels.json file of ground truth bounding box #labels from the exported dataset
f = open('200kFashionDatasetExportResult-16Images/labels.json')
data = json.load(f) # provide your aws s3 bucket name, prefix, and aws credentials
bucket_name = 'sagemaker-your-preferred-s3-bucket'
s3_prefix = 'sagemaker-your-preferred-s3-prefix' session = boto3.Session( aws_access_key_id='<AWS_ACCESS_KEY_ID>', aws_secret_access_key='<AWS_SECRET_ACCESS_KEY>'
)
s3 = session.resource('s3') for image in data['images']: file_name = image['file_name'] file_id = file_name[:-4] image_id = image['id'] # upload the image to s3 s3.meta.client.upload_file('200kFashionDatasetExportResult-16Images/data/'+image['file_name'], bucket_name, s3_prefix+'/'+image['file_name']) gt_annotations = [] confidence = 0.00 for annotation in data['annotations']: if annotation['image_id'] == image['id']: confidence = annotation['score'] gt_annotation = { "class_id": gt_class_array.index(style_category), # convert the original ground_truth bounding box #label to predicted style label "left": annotation['bbox'][0], "top": annotation['bbox'][1], "width": annotation['bbox'][2], "height": annotation['bbox'][3] } gt_annotations.append(gt_annotation) break gt_metadata_objects = [] for gt_annotation in gt_annotations: gt_metadata_objects.append({ "confidence": confidence }) gt_label_attribute_metadata = { "class-map": gt_class_map, "objects": gt_metadata_objects, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2023-02-19T00:23:25.339582", "job-name": "labeling-job/200k-fashion-origin" } gt_output = { "source-ref": f"s3://{bucket_name}/{s3_prefix}/{image['file_name']}", "200k-fashion-origin": { "image_size": [ { "width": image['width'], "height": image['height'], "depth": 3 } ], "annotations": gt_annotations }, "200k-fashion-origin-metadata": gt_label_attribute_metadata } # write to the manifest file with open(200k-fashion-output.manifest', 'a') as output_file: output_file.write(json.dumps(gt_output) + "n")

Prześlij plik manifestu do Amazon S3 z następującym kodem:

s3.meta.client.upload_file(200k-fashion-output.manifest', bucket_name, s3_prefix+'/200k-fashion-output.manifest')

Twórz poprawione stylizowane etykiety za pomocą Ground Truth

Aby dodać adnotacje do danych za pomocą etykiet stylów przy użyciu funkcji Ground Truth, wykonaj niezbędne czynności, aby rozpocząć zadanie etykietowania obwiedni, postępując zgodnie z procedurą opisaną w Pierwsze kroki z podstawową prawdą przewodnik ze zbiorem danych w tym samym segmencie S3.

W konsoli SageMaker utwórz zadanie etykietowania Ground Truth.
Ustaw Wprowadź lokalizację zestawu danych być manifestem, który utworzyliśmy w poprzednich krokach.
Określ ścieżkę S3 dla Lokalizacja wyjściowego zbioru danych.
W razie zamówieenia projektu Rola uprawnieńwybierz Wprowadź niestandardową rolę IAM RNA, a następnie wprowadź rolę ARN.
W razie zamówieenia projektu Kategoria zadaniawybierz Obraz i wybierz Pudełko ograniczające.
Dodaj Następna.
W Pracownicy wybierz typ siły roboczej, z którego chcesz skorzystać.
Możesz wybrać siłę roboczą poprzez Amazon Mechanical Turk, dostawców zewnętrznych lub własnych pracowników prywatnych. Aby uzyskać więcej informacji na temat opcji siły roboczej, zobacz Twórz siły robocze i zarządzaj nimi.
Rozszerzać Opcje wyświetlania istniejących etykiet i wybierz Chcę wyświetlić istniejące etykiety ze zbioru danych dla tego zadania.
W razie zamówieenia projektu Atrybut etykiety name wybierz z manifestu nazwę odpowiadającą etykietom, które chcesz wyświetlić w celu dostosowania.
Nazwy atrybutów etykiet będą widoczne tylko dla etykiet pasujących do typu zadania wybranego w poprzednich krokach.
Ręcznie wprowadź etykiety dla Narzędzie do etykietowania obwiedni.
Etykiety muszą zawierać te same etykiety, które są używane w publicznym zbiorze danych. Możesz dodać nowe etykiety. Poniższy zrzut ekranu pokazuje, jak wybrać pracowników i skonfigurować narzędzie do zadania etykietowania.
Dodaj Podgląd aby wyświetlić podgląd obrazu i oryginalnych adnotacji.

Utworzyliśmy teraz zadanie etykietowania w Ground Truth. Po zakończeniu naszej pracy możemy załadować nowo wygenerowane dane z etykietami do FiftyOne. Ground Truth generuje dane wyjściowe w manifeście wyjściowym Ground Truth. Aby uzyskać więcej informacji na temat wyjściowego pliku manifestu, zobacz Wyjście zadania ramki ograniczającej. Poniższy kod przedstawia przykład formatu manifestu wyjściowego:

{ "source-ref": "s3://AWSDOC-EXAMPLE-BUCKET/example_image.png", "bounding-box-attribute-name": { "image_size": [{ "width": 500, "height": 400, "depth":3}], "annotations": [ {"class_id": 0, "left": 111, "top": 134, "width": 61, "height": 128}, {"class_id": 5, "left": 161, "top": 250, "width": 30, "height": 30}, {"class_id": 5, "left": 20, "top": 20, "width": 30, "height": 30} ] }, "bounding-box-attribute-name-metadata": { "objects": [ {"confidence": 0.8}, {"confidence": 0.9}, {"confidence": 0.9} ], "class-map": { "0": "jersey", "5": "polka dot" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2018-10-18T22:18:13.527256", "job-name": "identify-fashion-set" }, "adjusted-bounding-box": { "image_size": [{ "width": 500, "height": 400, "depth":3}], "annotations": [ {"class_id": 0, "left": 110, "top": 135, "width": 61, "height": 128}, {"class_id": 5, "left": 161, "top": 250, "width": 30, "height": 30}, {"class_id": 5, "left": 10, "top": 10, "width": 30, "height": 30} ] }, "adjusted-bounding-box-metadata": { "objects": [ {"confidence": 0.8}, {"confidence": 0.9}, {"confidence": 0.9} ], "class-map": { "0": "dog", "5": "bone" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2018-11-20T22:18:13.527256", "job-name": "adjust-identify-fashion-set", "adjustment-status": "adjusted" } }

Przejrzyj oznaczone wyniki z Ground Truth w FiftyOne

Po zakończeniu zadania pobierz manifest wyjściowy zadania etykietowania z usługi Amazon S3.

Przeczytaj wyjściowy plik manifestu:

with open('<path-to-your-output.manifest>', 'r') as fh: adjustment_manifest_lines = fh.readlines()

Utwórz zestaw danych FiftyOne i przekonwertuj wiersze manifestu na próbki w zestawie danych:

def get_classification_labels(manifest_line, dataset, attr_name) -> fo.Classifications: label_attribute_data = manifest_line.get(attr_name) metadata = manifest_line.get(f"{attr_name}-metadata") annotations = label_attribute_data.get("annotations") image_data = label_attribute_data.get("image_size")[0] width = image_data.get("width") height = image_data.get("height") predictions = [] for i, annotation in enumerate(annotations): label = metadata.get("class-map").get(str(annotation.get("class_id"))) confidence = metadata.get("objects")[i].get("confidence") prediction = fo.Classification(label=label, confidence=confidence) predictions.append(prediction) return fo.Classifications(classifications=predictions) def get_bounding_box_labels(manifest_line, dataset, attr_name) -> fo.Detections: label_attribute_data = manifest_line.get(attr_name) metadata = manifest_line.get(f"{attr_name}-metadata") annotations = label_attribute_data.get("annotations") image_data = label_attribute_data.get("image_size")[0] width = image_data.get("width") height = image_data.get("height") detections = [] for i, annotation in enumerate(annotations): label = metadata.get("class-map").get(str(annotation.get("class_id"))) confidence = metadata.get("objects")[i].get("confidence") # Bounding box coordinates should be relative values # in [0, 1] in the following format: # [top-left-x, top-left-y, width, height] bounding_box = [ annotation.get("left") / width, annotation.get("top") / height, annotation.get("width") / width, annotation.get("height") / height, ] detection = fo.Detection( label=label, bounding_box=bounding_box, confidence=confidence ) detections.append(detection) return fo.Detections(detections=detections) def get_sample_from_manifest_line(manifest_line, dataset, attr_name): """ For each line in manifest, transform annotations into Fiftyone format Args: line: manifest line Output: Fiftyone image sample """ file_name = manifest_line.get("source-ref")[5:].split("/")[-1] file_loc = f'200kFashionDatasetExportResult-16Images/data/{file_name}' sample = fo.Sample(filepath=file_loc) sample['ground_truth'] = get_bounding_box_labels( manifest_line=manifest_line, dataset=dataset, attr_name=attr_name ) sample["prediction"] = get_classification_labels( manifest_line=manifest_line, dataset=dataset, attr_name=attr_name ) return sample adjustment_dataset = fo.Dataset("adjustment-job-dataset") samples = [ get_sample_from_manifest_line( manifest_line=json.loads(manifest_line), dataset=adjustment_dataset, attr_name='smgt-fiftyone-style-adjustment-job' ) for manifest_line in adjustment_manifest_lines ] adjustment_dataset.add_samples(samples) session = fo.launch_app(adjustment_dataset)

Możesz teraz zobaczyć wysokiej jakości oznaczone dane z Ground Truth w FiftyOne.

Wnioski

W tym poście pokazaliśmy, jak tworzyć wysokiej jakości zestawy danych, łącząc moc Pięćdziesiąt jeden by Woksel51, zestaw narzędzi typu open source, który umożliwia zarządzanie zestawem danych, śledzenie, wizualizację i kurację, oraz Ground Truth, usługę etykietowania danych, która umożliwia wydajne i dokładne etykietowanie zestawów danych wymaganych do szkolenia systemów uczenia maszynowego poprzez zapewnienie dostępu do wielu wbudowanych -w szablonach zadań i dostęp do zróżnicowanej siły roboczej za pośrednictwem Mechanical Turk, dostawców zewnętrznych lub własnej siły roboczej.

Zachęcamy do wypróbowania tej nowej funkcji poprzez zainstalowanie instancji FiftyOne i rozpoczęcie korzystania z konsoli Ground Truth. Aby dowiedzieć się więcej o Ground Truth, zobacz Dane etykiety, Często zadawane pytania dotyczące etykietowania danych Amazon SageMakeri Blog dotyczący uczenia maszynowego AWS.

Połącz się z Społeczność uczenia maszynowego i sztucznej inteligencji jeśli masz jakieś pytania lub uwagi!

Dołącz do społeczności FiftyOne!

Dołącz do tysięcy inżynierów i analityków danych, którzy już korzystają z FiftyOne, aby rozwiązywać niektóre z najtrudniejszych problemów współczesnej wizji komputerowej!

O autorach

Shalendra Chhabra jest obecnie szefem zarządzania produktami w Amazon SageMaker Human-in-the-Loop (HIL) Services. Wcześniej Shalendra inkubowała i prowadziła analizę językową i konwersacyjną dla Microsoft Teams Meetings, była EIR w Amazon Alexa Techstars Startup Accelerator, wiceprezesem ds. Omów.io, Head of Product and Marketing w Clipboard (przejętej przez Salesforce) oraz Lead Product Manager w Swype (przejętej przez Nuance). W sumie Shalendra pomogła budować, dostarczać i sprzedawać produkty, które wpłynęły na ponad miliard istnień ludzkich.

Jakub Marks jest inżynierem uczenia maszynowego i ewangelistą deweloperów w firmie Voxel51, gdzie pomaga zapewnić przejrzystość i przejrzystość danych na całym świecie. Przed dołączeniem do Voxel51 Jacob założył startup, który pomaga początkującym muzykom łączyć się i dzielić kreatywnymi treściami z fanami. Wcześniej pracował w Google X, Samsung Research i Wolfram Research. W poprzednim życiu Jacob był fizykiem teoretykiem, który zrobił doktorat na Uniwersytecie Stanforda, gdzie badał kwantowe fazy materii. W wolnym czasie Jacob lubi się wspinać, biegać i czytać powieści science fiction.

Jasona Corso jest współzałożycielem i dyrektorem generalnym firmy Voxel51, w której kieruje strategią mającą na celu zapewnienie przejrzystości i przejrzystości światowych danych za pomocą najnowocześniejszego elastycznego oprogramowania. Jest także profesorem robotyki, elektrotechniki i informatyki na Uniwersytecie Michigan, gdzie koncentruje się na najnowocześniejszych problemach na styku widzenia komputerowego, języka naturalnego i platform fizycznych. W wolnym czasie Jason lubi spędzać czas z rodziną, czytać, przebywać na łonie natury, grać w gry planszowe i wszelkiego rodzaju kreatywne zajęcia.

Brian Moore jest współzałożycielem i CTO Voxel51, gdzie kieruje strategią techniczną i wizją. Posiada doktorat z elektrotechniki na Uniwersytecie Michigan, gdzie jego badania koncentrowały się na wydajnych algorytmach dla wielkoskalowych problemów uczenia maszynowego, ze szczególnym uwzględnieniem komputerowych aplikacji wizyjnych. W wolnym czasie lubi badmintona, golfa, piesze wędrówki i zabawy ze swoimi bliźniaczymi Yorkshire Terrierami.

Zhuling Bai jest inżynierem rozwoju oprogramowania w Amazon Web Services. Zajmuje się tworzeniem wielkoskalowych systemów rozproszonych do rozwiązywania problemów związanych z uczeniem maszynowym.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoAiStream. Analiza danych Web3. Wiedza wzmocniona. Dostęp tutaj.
Wybijanie przyszłości w Adryenn Ashley. Dostęp tutaj.
Kupuj i sprzedawaj akcje spółek PRE-IPO z PREIPO®. Dostęp tutaj.
Źródło: https://aws.amazon.com/blogs/machine-learning/create-high-quality-datasets-with-amazon-sagemaker-ground-truth-and-fiftyone/

Znak czasu: 5 maja 2023 r.

Znak czasu: Czerwiec 21, 2023

Opublikowane ponownie przez Plato

Ogłaszamy zaktualizowane złącze Microsoft OneDrive (V2) dla Amazon Kendra

Tłumacz dokumenty w wielu językach źródłowych na wiele języków docelowych za pomocą usługi Amazon Translate

Wybór modelu klasyfikacji obrazu za pomocą Amazon SageMaker JumpStart

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto