Opret datasæt af høj kvalitet med Amazon SageMaker Ground Truth And FiftyOne

Genudgivet af Platon

Abonnenter: 0

Dette er et fælles indlæg skrevet af AWS og Voxel51. Voxel51 er virksomheden bag FiftyOne, open source-værktøjssættet til opbygning af datasæt af høj kvalitet og computervisionsmodeller.

En detailvirksomhed er ved at bygge en mobilapp for at hjælpe kunder med at købe tøj. For at oprette denne app har de brug for et datasæt af høj kvalitet, der indeholder tøjbilleder, mærket med forskellige kategorier. I dette indlæg viser vi, hvordan man genbruger et eksisterende datasæt via datarensning, forbehandling og præ-mærkning med en nul-skuds klassificeringsmodel i Enoghalvtreds, og justere disse etiketter med Amazon SageMaker Ground Truth.

Du kan bruge Ground Truth og FiftyOne til at fremskynde dit datamærkningsprojekt. Vi illustrerer, hvordan man problemfrit bruger de to applikationer sammen til at skabe mærkede datasæt af høj kvalitet. Til vores eksempel use case arbejder vi med Fashion200K datasæt, udgivet på ICCV 2017.

Løsningsoversigt

Ground Truth er en fuldt selvbetjent og administreret datamærkningstjeneste, der giver dataforskere, maskinlæringsingeniører (ML) og forskere mulighed for at bygge datasæt af høj kvalitet. Enoghalvtreds by Voxel51 er et open source-værktøjssæt til at kurere, visualisere og evaluere datasæt over computervisioner, så du kan træne og analysere bedre modeller ved at accelerere dine use cases.

I de følgende afsnit viser vi, hvordan du gør følgende:

Visualiser datasættet i FiftyOne
Rens datasættet med filtrering og billeddeduplikering i FiftyOne
Formærk de rensede data med nul-skudsklassificering i FiftyOne
Mærk det mindre kurerede datasæt med Ground Truth
Injicer mærkede resultater fra Ground Truth i FiftyOne og gennemgå mærkede resultater i FiftyOne

Brug case oversigt

Antag, at du ejer en detailvirksomhed og ønsker at bygge en mobilapplikation til at give personlige anbefalinger for at hjælpe brugerne med at beslutte, hvad de skal have på. Dine potentielle brugere leder efter en applikation, der fortæller dem, hvilke tøjartikler i deres skab der fungerer godt sammen. Du ser en mulighed her: Hvis du kan identificere gode outfits, kan du bruge dette til at anbefale nye tøjartikler, der komplementerer det tøj, en kunde allerede ejer.

Du ønsker at gøre tingene så nemme som muligt for slutbrugeren. Ideelt set behøver nogen, der bruger din applikation, kun at tage billeder af tøjet i deres garderobe, og dine ML-modeller arbejder med deres magi bag kulisserne. Du kan træne en model til generelle formål eller finjustere en model til hver brugers unikke stil med en form for feedback.

Først skal du dog identificere, hvilken type tøj brugeren fanger. Er det en skjorte? Et par bukser? Eller noget andet? Når alt kommer til alt, vil du sandsynligvis ikke anbefale et outfit, der har flere kjoler eller flere hatte.

For at løse denne indledende udfordring vil du generere et træningsdatasæt bestående af billeder af forskellige tøjartikler med forskellige mønstre og stilarter. For at prototype med et begrænset budget, vil du bootstrap ved hjælp af et eksisterende datasæt.

For at illustrere og lede dig gennem processen i dette indlæg, bruger vi Fashion200K-datasættet, der blev udgivet på ICCV 2017. Det er et etableret og velciteret datasæt, men det er ikke direkte egnet til din brugssituation.

Selvom tøjartikler er mærket med kategorier (og underkategorier) og indeholder en række nyttige tags, der er udtrukket fra de originale produktbeskrivelser, er dataene ikke systematisk mærket med mønster- eller stilinformation. Dit mål er at omdanne dette eksisterende datasæt til et robust træningsdatasæt til dine tøjklassificeringsmodeller. Du skal rense dataene og udvide mærkningsskemaet med stiletiketter. Og du vil gerne gøre det hurtigt og med så lidt forbrug som muligt.

Download dataene lokalt

Download først women.tar zip-filen og labels-mappen (med alle dens undermapper) ved at følge instruktionerne i Fashion200K dataset GitHub repository. Når du har pakket dem begge ud, skal du oprette en overordnet mappe fashion200k og flytte etiketterne og kvindemapperne ind i denne. Heldigvis er disse billeder allerede blevet beskåret til objektdetektions afgrænsningsfelter, så vi kan fokusere på klassificering i stedet for at bekymre os om objektdetektering.

På trods af "200K" i dets moniker, indeholder kvindekataloget, vi udpakkede, 338,339 billeder. For at generere det officielle Fashion200K-datasæt gennemgik datasættets forfattere mere end 300,000 produkter online, og kun produkter med beskrivelser indeholdende mere end fire ord klarede snittet. Til vores formål, hvor produktbeskrivelsen ikke er afgørende, kan vi bruge alle de crawlede billeder.

Lad os se på, hvordan disse data er organiseret: i kvindemappen er billeder arrangeret efter artikeltype på øverste niveau (nederdele, toppe, bukser, jakker og kjoler) og artikeltype-underkategori (bluser, t-shirts, langærmede) toppe).

Inden for underkategorikatalogerne er der en undermappe for hver produktliste. Hver af disse indeholder et variabelt antal billeder. Underkategorien cropped_pants indeholder for eksempel følgende produktlister og tilhørende billeder.

Mappen Etiketter indeholder en tekstfil for hver artikeltype på øverste niveau, for både tog- og testopdelinger. Inden for hver af disse tekstfiler er en separat linje for hvert billede, der angiver den relative filsti, en score og tags fra produktbeskrivelsen.

Fordi vi omformåler datasættet, kombinerer vi alle tog- og testbillederne. Vi bruger disse til at generere et applikationsspecifikt datasæt af høj kvalitet. Når vi har fuldført denne proces, kan vi tilfældigt opdele det resulterende datasæt i nye tog- og testopdelinger.

Injicer, se og sammensæt et datasæt i FiftyOne

Hvis du ikke allerede har gjort det, skal du installere open source FiftyOne ved hjælp af pip:

pip install fiftyone

En bedste praksis er at gøre det i et nyt virtuelt (venv eller conda) miljø. Importer derefter de relevante moduler. Importer basisbiblioteket, fiftyone, FiftyOne Brain, som har indbyggede ML-metoder, FiftyOne Zoo, hvorfra vi vil indlæse en model, der vil generere nul-shot-etiketter til os, og ViewField, som lader os effektivt filtrere data i vores datasæt:

import fiftyone as fo
import fiftyone.brain as fob
import fiftyone.zoo as foz
from fiftyone import ViewField as F

Du vil også importere glob- og os Python-modulerne, som vil hjælpe os med at arbejde med stier og mønstermatch over mappeindhold:

from glob import glob
import os

Nu er vi klar til at indlæse datasættet i FiftyOne. Først opretter vi et datasæt ved navn fashion200k og gør det persistent, hvilket giver os mulighed for at gemme resultaterne af beregningsintensive operationer, så vi kun behøver at beregne de nævnte mængder én gang.

dataset = fo.Dataset("fashion200k", persistent=True)

Vi kan nu iterere gennem alle underkategorikataloger og tilføje alle billederne i produktkatalogerne. Vi tilføjer en FiftyOne-klassificeringsetiket til hver prøve med feltnavnet artikeltype, udfyldt af billedets artikelkategori på øverste niveau. Vi tilføjer også information om både kategori og underkategori som tags:

# Map dir categories to article type labels
labels_map = { "dresses": "dress", "jackets": "jacket", "pants": "pants", "skirts": "skirt", "tops": "top",
} dataset_dir = "./fashion200k" for d in glob(os.path.join(dataset_dir, "women", "*", "*")): _, _, category, subcategory = d.split("/") subcategory = subcategory.replace("_", " ") label = labels_map[category] dataset.add_samples( [ fo.Sample( filepath=filepath,
tags=[category, subcategory], article_type=fo.Classification(label=label), ) for filepath in glob(os.path.join(d, "*", "*")) ] )

På dette tidspunkt kan vi visualisere vores datasæt i FiftyOne-appen ved at starte en session:

session = fo.launch_app(dataset)

Vi kan også udskrive en oversigt over datasættet i Python ved at køre print(dataset):

Name: fashion200k
Media type: image
Num samples: 338339
Persistent: True
Tags: []
Sample fields: id: fiftyone.core.fields.ObjectIdField filepath: fiftyone.core.fields.StringField tags: fiftyone.core.fields.ListField(fiftyone.core.fields.StringField) metadata: fiftyone.core.fields.EmbeddedDocumentField(fiftyone.core.metadata.ImageMetadata) article_type: fiftyone.core.fields.EmbeddedDocumentField(fiftyone.core.labels.Classification)

Vi kan også tilføje tags fra labels mappe til prøverne i vores datasæt:

working_dir = os.getcwd() tags = {
f: set(t) for f, t in zip(*dataset.values(["filepath", "tags"]))
} for label_file in glob("fashion200k/labels/*"): with open(label_file, 'r') as f: for line in f.readlines(): line_list = line.split() fp = os.path.join( working_dir, dataset_dir, line_list[0] ) # add new tags new_tags_for_fp = line_list[2:] tags[fp].update(new_tags_for_fp) # Update tags
dataset.set_values("tags", tags, key_field="filepath")

Når man ser på dataene, bliver et par ting klart:

Nogle af billederne er ret kornede med lav opløsning. Dette skyldes sandsynligvis, at disse billeder blev genereret ved at beskære indledende billeder i afgrænsningsfelter for objektdetektering.
Noget tøj bæres af en person, og noget er fotograferet på egen hånd. Disse detaljer er indkapslet af viewpoint ejendom.
Mange af billederne af det samme produkt er meget ens, så i det mindste til at begynde med, at inkludere mere end ét billede pr. produkt, tilføjer måske ikke meget forudsigelseskraft. For det meste er det første billede af hvert produkt (ender på _0.jpeg) er den reneste.

I første omgang vil vi måske træne vores tøjstilklassificeringsmodel på en kontrolleret delmængde af disse billeder. Til dette formål bruger vi billeder i høj opløsning af vores produkter og begrænser vores visning til én repræsentativ prøve pr. produkt.

Først filtrerer vi billederne i lav opløsning fra. Vi bruger compute_metadata() metode til at beregne og gemme billedbredde og -højde i pixels for hvert billede i datasættet. Vi bruger derefter FiftyOne ViewField at filtrere billeder fra baseret på de mindst tilladte bredde- og højdeværdier. Se følgende kode:

dataset.compute_metadata() min_width = 200
min_height = 300 width_filter = F("metadata.width") > min_width
height_filter = F("metadata.height") > min_height high_res_view = dataset.match( width_filter & height_filter
) session.view = high_res_view.view()

Denne højopløselige delmængde har lige under 200,000 prøver.

Fra denne visning kan vi oprette en ny visning i vores datasæt, der kun indeholder én repræsentativ prøve (højst) for hvert produkt. Vi bruger ViewField endnu en gang, mønstermatchning for filstier, der ender med _0.jpeg:

representative_view = high_res_view.match( F("filepath").ends_with("_0.jpeg")
)

Lad os se en tilfældigt blandet rækkefølge af billeder i denne undergruppe:

session.view = representative_view.shuffle()

Fjern overflødige billeder i datasættet

Denne visning indeholder 66,297 billeder eller lidt over 19% af det originale datasæt. Når vi ser på udsigten, ser vi dog, at der er mange meget lignende produkter. At beholde alle disse kopier vil sandsynligvis kun øge omkostningerne til vores mærkning og modeltræning uden at forbedre ydeevnen mærkbart. Lad os i stedet slippe af med de næsten dubletter for at skabe et mindre datasæt, der stadig pakker den samme punch.

Fordi disse billeder ikke er nøjagtige dubletter, kan vi ikke kontrollere for pixelmæssig lighed. Heldigvis kan vi bruge FiftyOne-hjernen til at hjælpe os med at rense vores datasæt. Især vil vi beregne en indlejring for hvert billede - en lavere dimensionel vektor, der repræsenterer billedet - og derefter kigge efter billeder, hvis indlejringsvektorer er tæt på hinanden. Jo tættere vektorerne er, jo mere ens billederne.

Vi bruger en CLIP-model til at generere en 512-dimensionel indlejringsvektor for hvert billede og gemmer disse indlejringer i feltindlejringerne på prøverne i vores datasæt:

## load model
model = foz.load_zoo_model("clip-vit-base32-torch") ## compute embeddings
representative_view.compute_embeddings(
model, embeddings_field="embedding"
)

Derefter beregner vi nærheden mellem indlejringer ved hjælp af cosinus lighedog hævder, at alle to vektorer, hvis lighed er større end en eller anden tærskel, sandsynligvis er tæt på dubletter. Cosinus-lighedsscorer ligger i området [0, 1], og ser man på dataene, ser en tærskelscore på tærskel=0.5 ud til at være nogenlunde rigtig. Igen, dette behøver ikke at være perfekt. Nogle få næsten-duplikerede billeder vil sandsynligvis ikke ødelægge vores forudsigelsesevne, og at smide et par ikke-duplikerede billeder væk påvirker ikke modellens ydeevne væsentligt.

results = fob.compute_similarity(
view,
embeddings="embedding",
brain_key="sim",
metric="cosine"
) results.find_duplicates(thresh=0.5)

Vi kan se de påståede dubletter for at bekræfte, at de faktisk er overflødige:

## view the duplicates, paired up, ## to make sure it is doing what we think it is doing
dup_view = results.duplicates_view()
session = fo.launch_app(dup_view)

Når vi er tilfredse med resultatet og mener, at disse billeder faktisk er næsten dubletter, kan vi vælge en prøve fra hvert sæt af lignende prøver at beholde, og ignorere de andre:

## get one image from each group of duplicates
dup_rep_ids = list(results.neighbors_map.keys()) # get ids of non-duplicates
non_dup_ids = representative_view.exclude(
dup_view.values("id")
).values("id") # ids to keep
ids = dup_rep_ids + non_dup_ids # create view from ids
non_dup_view = representative_view[ids]

Nu har denne visning 3,729 billeder. Ved at rense dataene og identificere et højkvalitetsundersæt af Fashion200K-datasættet lader FiftyOne os begrænse vores fokus fra mere end 300,000 billeder til lige under 4,000, hvilket repræsenterer en reduktion på 98 %. Alene brugen af indlejringer til at fjerne næsten duplikerede billeder bragte vores samlede antal billeder under overvejelse ned med mere end 90 %, med ringe om nogen effekt på nogen modeller, der skulle trænes på disse data.

Før vi præ-mærker denne delmængde, kan vi bedre forstå dataene ved at visualisere de indlejringer, vi allerede har beregnet. Vi kan bruge FiftyOne Brain's indbyggede compute_visualization() metode, som anvender uniform manifold approksimation (UMAP) teknik til at projicere de 512-dimensionelle indlejringsvektorer ind i todimensionelt rum, så vi kan visualisere dem:

fob.compute_visualization( non_dup_view, embeddings="embedding", brain_key="vis"
)

Vi åbner en ny Indstøbningspanel i FiftyOne-appen og farvelægning efter artikeltype, og vi kan se, at disse indlejringer nogenlunde koder for en forestilling om artikeltype (blandt andet!).

Nu er vi klar til at præmærke disse data.

Ved at inspicere disse meget unikke billeder i høj opløsning, kan vi generere en anstændig indledende liste over stilarter til brug som klasser i vores præ-mærkning nul-shot klassificering. Vores mål med at præ-mærke disse billeder er ikke nødvendigvis at mærke hvert billede korrekt. Vores mål er snarere at give et godt udgangspunkt for menneskelige annotatorer, så vi kan reducere mærkningstiden og -omkostningerne.

styles = [ "graphic", "lettered", "plain", "striped", "polka dot", "floral", "jersey", "checkered", "denim", "plaid", "houndstooth", "chevron", "paisley", "animal print", "quatrefoil", “camouflage”
]

Vi kan derefter instansiere en nul-skuds klassificeringsmodel for denne applikation. Vi bruger en CLIP-model, som er en generel model, der er trænet i både billeder og naturligt sprog. Vi instansierer en CLIP-model med tekstprompten "Tøj i stilen", så givet et billede, vil modellen udskrive den klasse, som "Tøj i stilen [klasse]" passer bedst til. CLIP er ikke uddannet i detail- eller modespecifikke data, så dette vil ikke være perfekt, men det kan spare dig i mærknings- og annoteringsomkostninger.

zero_shot_model = foz.load_zoo_model( "clip-vit-base32-torch", text_prompt="Clothing in the style ", classes=styles,
)

Vi anvender derefter denne model på vores reducerede delmængde og gemmer resultaterne i en article_style Mark:

non_dup_view.apply_model(
zero_shot_model, label_field="article_style"
)

Ved at lancere FiftyOne-appen igen kan vi visualisere billederne med disse forudsagte stiletiketter. Vi sorterer efter forudsigelsestillid, så vi ser de mest sikre stilforudsigelser først:

high_conf_view = non_dup_view.sort_by( "article_style.confidence", reverse=True
) session.view = high_conf_view

Vi kan se, at de højeste tillidsforudsigelser synes at være for "jersey", "dyretryk", "prikker" og "bogstaver". Dette giver mening, fordi disse stilarter er relativt forskellige. Det ser også ud til, at de forudsagte stiletiketter for det meste er nøjagtige.

Vi kan også se på stilforudsigelserne med den laveste tillid:

low_conf_view = non_dup_view.sort_by( "article_style.confidence"
)
session.view = low_conf_view

For nogle af disse billeder er den passende stilkategori på den medfølgende liste, og beklædningsgenstanden er forkert mærket. Det første billede i gitteret skal for eksempel klart være "camouflage" og ikke "chevron". I andre tilfælde passer produkterne dog ikke pænt ind i stilkategorierne. Kjolen på det andet billede i anden række er for eksempel ikke ligefrem "stribet", men givet de samme mærkningsmuligheder, kan en menneskelig annotator også have været i konflikt. Når vi bygger vores datasæt ud, skal vi beslutte, om vi skal fjerne kanttilfælde som disse, tilføje nye stilkategorier eller udvide datasættet.

Eksporter det endelige datasæt fra FiftyOne

Eksporter det endelige datasæt med følgende kode:

# The directory to which to write the exported dataset
export_dir = "200kFashionDatasetExportResult" # The name of the sample field containing the label that you wish to export
# Used when exporting labeled datasets (e.g., classification or detection)
label_field = "article_style" # for example # The type of dataset to export
# Any subclass of `fiftyone.types.Dataset` is supported
dataset_type = fo.types.COCODetectionDataset # for example # Export the dataset
high_conf_view.export( export_dir=export_dir, dataset_type=dataset_type, label_field=label_field,
)

Vi kan eksportere et mindre datasæt, for eksempel 16 billeder, til mappen 200kFashionDatasetExportResult-16Images. Vi opretter et Ground Truth-justeringsjob ved at bruge det:

# The directory to which to write the exported dataset
export_dir = "200kFashionDatasetExportResult-16Images" # The name of the sample field containing the label that you wish to export
# Used when exporting labeled datasets (e.g., classification or detection)
label_field = "article_style" # for example # The type of dataset to export
# Any subclass of `fiftyone.types.Dataset` is supported
dataset_type = fo.types.COCODetectionDataset # for example # Export the dataset
high_conf_view.take(16).export( export_dir=export_dir, dataset_type=dataset_type, label_field=label_field,
)

Upload det reviderede datasæt, konverter etiketformatet til Ground Truth, upload til Amazon S3, og opret en manifestfil til justeringsjobbet

Vi kan konvertere etiketterne i datasættet til at matche output manifest skema af et Ground Truth bounding box job, og upload billederne til en Amazon Simple Storage Service (Amazon S3) spand til at lancere en Ground Truth justeringsjob:

import json
# open the labels.json file of ground truth bounding box #labels from the exported dataset
f = open('200kFashionDatasetExportResult-16Images/labels.json')
data = json.load(f) # provide your aws s3 bucket name, prefix, and aws credentials
bucket_name = 'sagemaker-your-preferred-s3-bucket'
s3_prefix = 'sagemaker-your-preferred-s3-prefix' session = boto3.Session( aws_access_key_id='<AWS_ACCESS_KEY_ID>', aws_secret_access_key='<AWS_SECRET_ACCESS_KEY>'
)
s3 = session.resource('s3') for image in data['images']: file_name = image['file_name'] file_id = file_name[:-4] image_id = image['id'] # upload the image to s3 s3.meta.client.upload_file('200kFashionDatasetExportResult-16Images/data/'+image['file_name'], bucket_name, s3_prefix+'/'+image['file_name']) gt_annotations = [] confidence = 0.00 for annotation in data['annotations']: if annotation['image_id'] == image['id']: confidence = annotation['score'] gt_annotation = { "class_id": gt_class_array.index(style_category), # convert the original ground_truth bounding box #label to predicted style label "left": annotation['bbox'][0], "top": annotation['bbox'][1], "width": annotation['bbox'][2], "height": annotation['bbox'][3] } gt_annotations.append(gt_annotation) break gt_metadata_objects = [] for gt_annotation in gt_annotations: gt_metadata_objects.append({ "confidence": confidence }) gt_label_attribute_metadata = { "class-map": gt_class_map, "objects": gt_metadata_objects, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2023-02-19T00:23:25.339582", "job-name": "labeling-job/200k-fashion-origin" } gt_output = { "source-ref": f"s3://{bucket_name}/{s3_prefix}/{image['file_name']}", "200k-fashion-origin": { "image_size": [ { "width": image['width'], "height": image['height'], "depth": 3 } ], "annotations": gt_annotations }, "200k-fashion-origin-metadata": gt_label_attribute_metadata } # write to the manifest file with open(200k-fashion-output.manifest', 'a') as output_file: output_file.write(json.dumps(gt_output) + "n")

Upload manifestfilen til Amazon S3 med følgende kode:

s3.meta.client.upload_file(200k-fashion-output.manifest', bucket_name, s3_prefix+'/200k-fashion-output.manifest')

Opret korrigerede stylede etiketter med Ground Truth

For at annotere dine data med stiletiketter ved hjælp af Ground Truth, skal du fuldføre de nødvendige trin for at starte et afgrænsningsfeltetiketteringsjob ved at følge proceduren, der er beskrevet i Kom godt i gang med Ground Truth guide med datasættet i samme S3-spand.

På SageMaker-konsollen skal du oprette et Ground Truth-mærkningsjob.
Indstil Indtast datasætplacering at være det manifest, som vi skabte i de foregående trin.
Angiv en S3-sti til Outputdatasæts placering.
Til IAM rolle, vælg Indtast en tilpasset IAM-rolle ARN, indtast derefter rollen ARN.
Til Opgavekategori, vælg Billede og vælg Afgrænsningskasse.
Vælg Næste.
I Arbejdere skal du vælge den type arbejdsstyrke, du gerne vil bruge.
Du kan vælge en arbejdsstyrke igennem Amazon Mechanical Turk, tredjepartsleverandører eller din egen private arbejdsstyrke. For flere detaljer om dine muligheder for arbejdsstyrke, se Opret og administrer arbejdsstyrker.
Udvid Visningsmuligheder for eksisterende etiketter og vælg Jeg ønsker at vise eksisterende etiketter fra datasættet for dette job.
Til Etiketattribut navn, skal du vælge det navn fra dit manifest, der svarer til de etiketter, du vil vise til justering.
Du vil kun se etiketattributnavne for etiketter, der matcher den opgavetype, du valgte i de foregående trin.
Indtast manuelt etiketterne for Afgrænsningsboksmærkningsværktøj.
Etiketterne skal indeholde de samme etiketter, som bruges i det offentlige datasæt. Du kan tilføje nye etiketter. Følgende skærmbillede viser, hvordan du kan vælge arbejdere og konfigurere værktøjet til dit etiketteringsjob.
Vælg Eksempel for at få vist billedet og originale anmærkninger.

Vi har nu oprettet et mærkningsjob i Ground Truth. Når vores job er fuldført, kan vi indlæse de nyligt genererede mærkede data i FiftyOne. Ground Truth producerer outputdata i et Ground Truth outputmanifest. For flere detaljer om output-manifestfilen, se Bounding Box Job Output. Følgende kode viser et eksempel på dette output-manifestformat:

{ "source-ref": "s3://AWSDOC-EXAMPLE-BUCKET/example_image.png", "bounding-box-attribute-name": { "image_size": [{ "width": 500, "height": 400, "depth":3}], "annotations": [ {"class_id": 0, "left": 111, "top": 134, "width": 61, "height": 128}, {"class_id": 5, "left": 161, "top": 250, "width": 30, "height": 30}, {"class_id": 5, "left": 20, "top": 20, "width": 30, "height": 30} ] }, "bounding-box-attribute-name-metadata": { "objects": [ {"confidence": 0.8}, {"confidence": 0.9}, {"confidence": 0.9} ], "class-map": { "0": "jersey", "5": "polka dot" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2018-10-18T22:18:13.527256", "job-name": "identify-fashion-set" }, "adjusted-bounding-box": { "image_size": [{ "width": 500, "height": 400, "depth":3}], "annotations": [ {"class_id": 0, "left": 110, "top": 135, "width": 61, "height": 128}, {"class_id": 5, "left": 161, "top": 250, "width": 30, "height": 30}, {"class_id": 5, "left": 10, "top": 10, "width": 30, "height": 30} ] }, "adjusted-bounding-box-metadata": { "objects": [ {"confidence": 0.8}, {"confidence": 0.9}, {"confidence": 0.9} ], "class-map": { "0": "dog", "5": "bone" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2018-11-20T22:18:13.527256", "job-name": "adjust-identify-fashion-set", "adjustment-status": "adjusted" } }

Gennemgå mærkede resultater fra Ground Truth i FiftyOne

Når jobbet er fuldført, skal du downloade outputmanifestet for mærkningsjobbet fra Amazon S3.

Læs outputmanifestfilen:

with open('<path-to-your-output.manifest>', 'r') as fh: adjustment_manifest_lines = fh.readlines()

Opret et FiftyOne-datasæt og konverter manifestlinjerne til prøver i datasættet:

def get_classification_labels(manifest_line, dataset, attr_name) -> fo.Classifications: label_attribute_data = manifest_line.get(attr_name) metadata = manifest_line.get(f"{attr_name}-metadata") annotations = label_attribute_data.get("annotations") image_data = label_attribute_data.get("image_size")[0] width = image_data.get("width") height = image_data.get("height") predictions = [] for i, annotation in enumerate(annotations): label = metadata.get("class-map").get(str(annotation.get("class_id"))) confidence = metadata.get("objects")[i].get("confidence") prediction = fo.Classification(label=label, confidence=confidence) predictions.append(prediction) return fo.Classifications(classifications=predictions) def get_bounding_box_labels(manifest_line, dataset, attr_name) -> fo.Detections: label_attribute_data = manifest_line.get(attr_name) metadata = manifest_line.get(f"{attr_name}-metadata") annotations = label_attribute_data.get("annotations") image_data = label_attribute_data.get("image_size")[0] width = image_data.get("width") height = image_data.get("height") detections = [] for i, annotation in enumerate(annotations): label = metadata.get("class-map").get(str(annotation.get("class_id"))) confidence = metadata.get("objects")[i].get("confidence") # Bounding box coordinates should be relative values # in [0, 1] in the following format: # [top-left-x, top-left-y, width, height] bounding_box = [ annotation.get("left") / width, annotation.get("top") / height, annotation.get("width") / width, annotation.get("height") / height, ] detection = fo.Detection( label=label, bounding_box=bounding_box, confidence=confidence ) detections.append(detection) return fo.Detections(detections=detections) def get_sample_from_manifest_line(manifest_line, dataset, attr_name): """ For each line in manifest, transform annotations into Fiftyone format Args: line: manifest line Output: Fiftyone image sample """ file_name = manifest_line.get("source-ref")[5:].split("/")[-1] file_loc = f'200kFashionDatasetExportResult-16Images/data/{file_name}' sample = fo.Sample(filepath=file_loc) sample['ground_truth'] = get_bounding_box_labels( manifest_line=manifest_line, dataset=dataset, attr_name=attr_name ) sample["prediction"] = get_classification_labels( manifest_line=manifest_line, dataset=dataset, attr_name=attr_name ) return sample adjustment_dataset = fo.Dataset("adjustment-job-dataset") samples = [ get_sample_from_manifest_line( manifest_line=json.loads(manifest_line), dataset=adjustment_dataset, attr_name='smgt-fiftyone-style-adjustment-job' ) for manifest_line in adjustment_manifest_lines ] adjustment_dataset.add_samples(samples) session = fo.launch_app(adjustment_dataset)

Du kan nu se mærkede data af høj kvalitet fra Ground Truth i FiftyOne.

Konklusion

I dette indlæg viste vi, hvordan man opbygger datasæt af høj kvalitet ved at kombinere kraften i Enoghalvtreds by Voxel51, et open source-værktøjssæt, der giver dig mulighed for at administrere, spore, visualisere og kurere dit datasæt, og Ground Truth, en datamærkningstjeneste, der giver dig mulighed for effektivt og præcist at mærke de datasæt, der kræves til træning af ML-systemer, ved at give adgang til flere indbyggede -i opgaveskabeloner og adgang til en mangfoldig arbejdsstyrke gennem Mechanical Turk, tredjepartsleverandører eller din egen private arbejdsstyrke.

Vi opfordrer dig til at prøve denne nye funktionalitet ved at installere en FiftyOne-instans og bruge Ground Truth-konsollen til at komme i gang. For at lære mere om Ground Truth, se Etiketdata, Ofte stillede spørgsmål om Amazon SageMaker-datamærkning, og AWS Machine Learning Blog.

Opret forbindelse til Machine Learning & AI-fællesskab hvis du har spørgsmål eller feedback!

Tilmeld dig FiftyOne-fællesskabet!

Slut dig til de tusindvis af ingeniører og dataforskere, der allerede bruger FiftyOne til at løse nogle af de mest udfordrende problemer inden for computersyn i dag!

Om forfatterne

Shalendra Chhabra er i øjeblikket Head of Product Management for Amazon SageMaker Human-in-the-Loop (HIL) Services. Tidligere inkuberede og ledede Shalendra Language and Conversational Intelligence til Microsoft Teams Meetings, var EIR hos Amazon Alexa Techstars Startup Accelerator, VP of Product and Marketing hos Diskuter.io, Head of Product and Marketing hos Clipboard (erhvervet af Salesforce) og Lead Product Manager hos Swype (erhvervet af Nuance). I alt har Shalendra hjulpet med at bygge, sende og markedsføre produkter, der har rørt mere end en milliard liv.

Jacob Marks er Machine Learning Engineer og Developer Evangelist hos Voxel51, hvor han hjælper med at bringe gennemsigtighed og klarhed til verdens data. Før han kom til Voxel51, grundlagde Jacob en startup for at hjælpe nye musikere med at forbinde og dele kreativt indhold med fans. Før det arbejdede han hos Google X, Samsung Research og Wolfram Research. I et tidligere liv var Jacob en teoretisk fysiker, og afsluttede sin ph.d.-grad på Stanford, hvor han undersøgte kvantefaser af stof. I sin fritid nyder Jacob at klatre, løbe og læse science fiction-romaner.

Jason Corso er medstifter og administrerende direktør for Voxel51, hvor han styrer strategien for at hjælpe med at bringe gennemsigtighed og klarhed til verdens data gennem state-of-the-art fleksibel software. Han er også professor i robotteknologi, elektroteknik og datalogi ved University of Michigan, hvor han fokuserer på banebrydende problemer i krydsfeltet mellem computersyn, naturligt sprog og fysiske platforme. I sin fritid nyder Jason at bruge tid med sin familie, læse, være i naturen, spille brætspil og alle mulige kreative aktiviteter.

Brian Moore er medstifter og CTO for Voxel51, hvor han leder teknisk strategi og vision. Han har en ph.d. i elektroteknik fra University of Michigan, hvor hans forskning var fokuseret på effektive algoritmer til maskinlæringsproblemer i stor skala, med særlig vægt på computersynsapplikationer. I sin fritid nyder han badminton, golf, vandreture og at lege med sine tvillinger Yorkshire Terriers.

Zhuling Bai er softwareudviklingsingeniør hos Amazon Web Services. Hun arbejder på at udvikle distribuerede systemer i stor skala til at løse maskinlæringsproblemer.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoAiStream. Web3 Data Intelligence. Viden forstærket. Adgang her.
Udmøntning af fremtiden med Adryenn Ashley. Adgang her.
Køb og sælg aktier i PRE-IPO-virksomheder med PREIPO®. Adgang her.
Kilde: https://aws.amazon.com/blogs/machine-learning/create-high-quality-datasets-with-amazon-sagemaker-ground-truth-and-fiftyone/

Tidsstempel: Maj 5, 2023

Tidsstempel: Mar 7, 2023

Genudgivet af Platon

Nyt – No-code generative AI-funktioner nu tilgængelige i Amazon SageMaker Canvas | Amazon Web Services

Analyser gnaverangreb ved hjælp af Amazon SageMaker geospatiale kapaciteter | Amazon Web Services

Tilpas udtale ved hjælp af Amazon Polly

Maksimer ydeevnen og reducer dine omkostninger til dyb læring med AWS Trainium og Amazon SageMaker

Inkrementel træning med Amazon SageMaker JumpStart

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto