ایجاد مجموعه داده با کیفیت بالا با Amazon SageMaker Ground Truth and FiftyOne

بازنشر افلاطون

دنبال: 0

این یک پست مشترک است که توسط AWS و Voxel51 نوشته شده است. Voxel51 شرکتی است که در پشت FiftyOne، کیت ابزار منبع باز برای ساخت مجموعه داده های با کیفیت بالا و مدل های بینایی کامپیوتری قرار دارد.

یک شرکت خرده‌فروشی در حال ساخت یک اپلیکیشن موبایل برای کمک به مشتریان در خرید لباس است. برای ایجاد این برنامه، آنها به یک مجموعه داده با کیفیت بالا شامل تصاویر لباس، برچسب‌گذاری شده با دسته‌های مختلف نیاز دارند. در این پست، ما نشان می‌دهیم که چگونه می‌توان یک مجموعه داده موجود را از طریق پاکسازی داده‌ها، پیش‌پردازش، و پیش برچسب‌گذاری با یک مدل طبقه‌بندی صفر شات در استفاده مجدد قرار داد. پنجاه و یک، و تنظیم این برچسب ها با Amazon SageMaker Ground Truth.

می توانید از Ground Truth و FiftyOne برای تسریع پروژه برچسب گذاری داده های خود استفاده کنید. ما نحوه استفاده یکپارچه از این دو برنامه را برای ایجاد مجموعه داده های برچسب دار با کیفیت بالا نشان می دهیم. برای مثال مورد استفاده ما، ما با آن کار می کنیم مجموعه داده Fashion200K، منتشر شده در ICCV 2017.

بررسی اجمالی راه حل

Ground Truth یک سرویس برچسب‌گذاری داده کاملاً مستقل و مدیریت شده است که به دانشمندان داده، مهندسان یادگیری ماشین (ML) و محققان برای ساخت مجموعه داده‌های با کیفیت بالا قدرت می‌دهد. پنجاه و یک by وکسل 51 یک جعبه ابزار منبع باز برای مدیریت، تجسم و ارزیابی مجموعه داده های بینایی کامپیوتری است تا بتوانید با تسریع در موارد استفاده، مدل های بهتری را آموزش و تجزیه و تحلیل کنید.

در بخش های زیر نحوه انجام کارهای زیر را نشان می دهیم:

مجموعه داده را در FiftyOne تجسم کنید
مجموعه داده را با فیلتر کردن و حذف مجدد تصاویر در FiftyOne پاک کنید
داده های پاک شده را با طبقه بندی صفر شات در FiftyOne از قبل برچسب بزنید
مجموعه داده کوچکتر انتخاب شده را با Ground Truth برچسب گذاری کنید
نتایج برچسب‌گذاری شده از Ground Truth را به FiftyOne تزریق کنید و نتایج برچسب‌گذاری شده را در FiftyOne بررسی کنید

از نمای کلی مورد استفاده کنید

فرض کنید صاحب یک شرکت خرده‌فروشی هستید و می‌خواهید یک اپلیکیشن موبایلی بسازید تا توصیه‌های شخصی‌سازی شده برای کمک به کاربران در تصمیم‌گیری برای پوشیدن لباس‌ها ارائه کنید. کاربران بالقوه شما به دنبال برنامه‌ای هستند که به آنها بگوید کدام لباس‌ها در کمدشان به خوبی با هم کار می‌کنند. شما یک فرصت را در اینجا می بینید: اگر می توانید لباس های خوب را شناسایی کنید، می توانید از این برای توصیه لباس های جدید استفاده کنید که مکمل لباس هایی است که مشتری از قبل دارد.

شما می خواهید کارها را تا حد امکان برای کاربر نهایی آسان کنید. در حالت ایده آل، شخصی که از برنامه شما استفاده می کند فقط باید از لباس های موجود در کمد لباس خود عکس بگیرد و مدل های ML شما در پشت صحنه جادوی خود را انجام می دهند. می‌توانید یک مدل همه‌منظوره را آموزش دهید یا با نوعی بازخورد، یک مدل را با سبک منحصر به فرد هر کاربر تنظیم کنید.

با این حال، ابتدا باید تشخیص دهید که کاربر چه نوع لباسی را می گیرد. آیا پیراهن است؟ یک شلوار؟ یا چیز دیگری؟ از این گذشته، احتمالاً نمی خواهید لباسی را توصیه کنید که دارای چندین لباس یا کلاه باشد.

برای مقابله با این چالش اولیه، شما می خواهید مجموعه داده آموزشی متشکل از تصاویری از انواع لباس با الگوها و سبک های مختلف ایجاد کنید. برای نمونه سازی با بودجه محدود، می خواهید با استفاده از مجموعه داده های موجود بوت استرپ کنید.

برای نشان دادن و راهنمایی شما در فرآیند این پست، از مجموعه داده Fashion200K که در ICCV 2017 منتشر شد، استفاده می‌کنیم. این مجموعه داده‌ای ثابت و قابل استناد است، اما مستقیماً برای مورد استفاده شما مناسب نیست.

اگرچه محصولات لباس با دسته‌ها (و زیرمجموعه‌ها) برچسب‌گذاری می‌شوند و حاوی انواع برچسب‌های مفیدی هستند که از توضیحات اصلی محصول استخراج شده‌اند، داده‌ها به طور سیستماتیک با اطلاعات الگو یا سبک برچسب‌گذاری نمی‌شوند. هدف شما این است که این مجموعه داده موجود را به یک مجموعه داده آموزشی قوی برای مدل های طبقه بندی لباس خود تبدیل کنید. باید داده ها را تمیز کنید و طرح برچسب گذاری را با برچسب های سبک تقویت کنید. و شما می خواهید این کار را سریع و با کمترین هزینه ممکن انجام دهید.

داده ها را به صورت محلی دانلود کنید

ابتدا فایل زیپ women.tar و پوشه labels (با تمام زیر پوشه های آن) را طبق دستورالعمل های ارائه شده در زیر دانلود کنید. مخزن مجموعه داده Fashion200K GitHub. بعد از اینکه هر دو را از حالت فشرده خارج کردید، یک پوشه والد fashion200k ایجاد کنید و پوشه‌ها و برچسب‌ها را به این قسمت منتقل کنید. خوشبختانه، این تصاویر قبلاً در جعبه‌های مرزی تشخیص اشیا برش داده شده‌اند، بنابراین می‌توانیم به جای نگرانی در مورد تشخیص شی، بر طبقه‌بندی تمرکز کنیم.

با وجود "200K" در نام خود، فهرست زنانی که استخراج کردیم شامل 338,339 تصویر است. برای تولید مجموعه داده رسمی Fashion200K، نویسندگان مجموعه داده بیش از 300,000 محصول را به صورت آنلاین خزیده اند و تنها محصولاتی با توضیحات حاوی بیش از چهار کلمه برش داده شده اند. برای اهداف ما، جایی که شرح محصول ضروری نیست، می‌توانیم از همه تصاویر خزیده شده استفاده کنیم.

بیایید به نحوه سازماندهی این داده ها نگاهی بیندازیم: در پوشه زنان، تصاویر بر اساس نوع مقاله سطح بالا (دامن، تاپ، شلوار، ژاکت و لباس) و زیر شاخه نوع مقاله (بلوز، تی شرت، آستین بلند) مرتب می شوند. تاپ ها).

در دایرکتوری های زیر شاخه، یک زیر شاخه برای هر فهرست محصول وجود دارد. هر کدام از اینها دارای تعداد متغیری از تصاویر است. برای مثال، زیرشاخه cropped_pants شامل لیست محصولات زیر و تصاویر مرتبط است.

پوشه برچسب ها حاوی یک فایل متنی برای هر نوع مقاله سطح بالا، هم برای تقسیم قطار و هم برای تقسیم بندی آزمایشی است. درون هر یک از این فایل‌های متنی یک خط جداگانه برای هر تصویر وجود دارد که مسیر فایل نسبی، امتیاز و برچسب‌ها را از توضیحات محصول مشخص می‌کند.

از آنجایی که ما مجموعه داده را تغییر کاربری می دهیم، تمام تصاویر قطار و آزمایش را با هم ترکیب می کنیم. ما از اینها برای تولید یک مجموعه داده خاص برنامه کاربردی با کیفیت بالا استفاده می کنیم. پس از تکمیل این فرآیند، می‌توانیم به‌طور تصادفی مجموعه داده‌های حاصل را به بخش‌های قطار و آزمایش جدید تقسیم کنیم.

یک مجموعه داده را در FiftyOne تزریق، مشاهده و مدیریت کنید

اگر قبلاً این کار را نکرده اید، FiftyOne منبع باز را با استفاده از pip نصب کنید:

pip install fiftyone

بهترین روش انجام این کار در یک محیط مجازی جدید (venv یا conda) است. سپس ماژول های مربوطه را وارد کنید. کتابخانه پایه، fiftyone، FiftyOne Brain را وارد کنید، که دارای روش‌های ML داخلی است، FiftyOne Zoo، که از آن مدلی را بارگذاری می‌کنیم که برچسب‌های صفر شات را برای ما تولید می‌کند، و ViewField، که به ما امکان می‌دهد به طور موثر فیلتر را فیلتر کنیم. داده های موجود در مجموعه داده ما:

import fiftyone as fo
import fiftyone.brain as fob
import fiftyone.zoo as foz
from fiftyone import ViewField as F

همچنین می‌خواهید ماژول‌های glob و os Python را وارد کنید، که به ما کمک می‌کند تا با مسیرها و تطابق الگوها بر روی محتویات دایرکتوری کار کنیم:

from glob import glob
import os

اکنون آماده بارگذاری مجموعه داده در FiftyOne هستیم. ابتدا یک مجموعه داده به نام fashion200k ایجاد می‌کنیم و آن را پایدار می‌کنیم، که به ما امکان می‌دهد نتایج عملیات محاسباتی فشرده را ذخیره کنیم، بنابراین فقط یک بار باید مقادیر گفته شده را محاسبه کنیم.

dataset = fo.Dataset("fashion200k", persistent=True)

اکنون می‌توانیم از طریق همه فهرست‌های زیرمجموعه، همه تصاویر را در فهرست‌های محصول اضافه کنیم. ما یک برچسب طبقه‌بندی FiftyOne به هر نمونه با نام فیلد article_type اضافه می‌کنیم که با دسته مقاله سطح بالای تصویر پر شده است. ما همچنین اطلاعات دسته و زیر شاخه را به عنوان برچسب اضافه می کنیم:

# Map dir categories to article type labels
labels_map = { "dresses": "dress", "jackets": "jacket", "pants": "pants", "skirts": "skirt", "tops": "top",
} dataset_dir = "./fashion200k" for d in glob(os.path.join(dataset_dir, "women", "*", "*")): _, _, category, subcategory = d.split("/") subcategory = subcategory.replace("_", " ") label = labels_map[category] dataset.add_samples( [ fo.Sample( filepath=filepath,
tags=[category, subcategory], article_type=fo.Classification(label=label), ) for filepath in glob(os.path.join(d, "*", "*")) ] )

در این مرحله، می‌توانیم مجموعه داده‌های خود را در برنامه FiftyOne با راه‌اندازی یک جلسه تجسم کنیم:

session = fo.launch_app(dataset)

همچنین می‌توانیم خلاصه‌ای از مجموعه داده در پایتون را با اجرا چاپ کنیم print(dataset):

Name: fashion200k
Media type: image
Num samples: 338339
Persistent: True
Tags: []
Sample fields: id: fiftyone.core.fields.ObjectIdField filepath: fiftyone.core.fields.StringField tags: fiftyone.core.fields.ListField(fiftyone.core.fields.StringField) metadata: fiftyone.core.fields.EmbeddedDocumentField(fiftyone.core.metadata.ImageMetadata) article_type: fiftyone.core.fields.EmbeddedDocumentField(fiftyone.core.labels.Classification)

ما همچنین می توانیم تگ ها را از قسمت اضافه کنیم labels دایرکتوری به نمونه های موجود در مجموعه داده ما:

working_dir = os.getcwd() tags = {
f: set(t) for f, t in zip(*dataset.values(["filepath", "tags"]))
} for label_file in glob("fashion200k/labels/*"): with open(label_file, 'r') as f: for line in f.readlines(): line_list = line.split() fp = os.path.join( working_dir, dataset_dir, line_list[0] ) # add new tags new_tags_for_fp = line_list[2:] tags[fp].update(new_tags_for_fp) # Update tags
dataset.set_values("tags", tags, key_field="filepath")

با نگاهی به داده ها، چند چیز روشن می شود:

برخی از تصاویر نسبتاً دانه دانه و با وضوح پایین هستند. این احتمالاً به این دلیل است که این تصاویر با برش تصاویر اولیه در جعبه های مرزی تشخیص اشیا ایجاد شده اند.
بعضی از لباس ها را یک نفر می پوشد و بعضی را به تنهایی عکس می گیرد. این جزئیات توسط viewpoint ویژگی.
بسیاری از تصاویر یک محصول مشابه بسیار مشابه هستند، بنابراین حداقل در ابتدا، گنجاندن بیش از یک تصویر در هر محصول ممکن است قدرت پیش بینی زیادی را اضافه نکند. در بیشتر موارد، اولین تصویر از هر محصول (به پایان می رسد _0.jpeg) تمیزترین است.

در ابتدا، ممکن است بخواهیم مدل طبقه بندی سبک لباس خود را بر روی یک زیر مجموعه کنترل شده از این تصاویر آموزش دهیم. برای این منظور، ما از تصاویر با وضوح بالا از محصولات خود استفاده می کنیم و دید خود را به یک نمونه نماینده در هر محصول محدود می کنیم.

ابتدا تصاویر با وضوح پایین را فیلتر می کنیم. ما استفاده می کنیم compute_metadata() روش محاسبه و ذخیره عرض و ارتفاع تصویر، بر حسب پیکسل، برای هر تصویر در مجموعه داده. سپس FiftyOne را به کار می گیریم ViewField برای فیلتر کردن تصاویر بر اساس حداقل مقادیر عرض و ارتفاع مجاز. کد زیر را ببینید:

dataset.compute_metadata() min_width = 200
min_height = 300 width_filter = F("metadata.width") > min_width
height_filter = F("metadata.height") > min_height high_res_view = dataset.match( width_filter & height_filter
) session.view = high_res_view.view()

این زیر مجموعه با وضوح بالا کمتر از 200,000 نمونه دارد.

از این دیدگاه، می‌توانیم یک نمای جدید در مجموعه داده خود ایجاد کنیم که فقط یک نمونه نماینده (حداکثر) برای هر محصول داشته باشد. ما استفاده می کنیم ViewField یک بار دیگر، تطبیق الگو برای مسیرهای فایل که به پایان می رسد _0.jpeg:

representative_view = high_res_view.match( F("filepath").ends_with("_0.jpeg")
)

بیایید ترتیب تصادفی تصاویر را در این زیر مجموعه مشاهده کنیم:

session.view = representative_view.shuffle()

تصاویر اضافی را در مجموعه داده حذف کنید

این نمای شامل 66,297 تصویر یا کمی بیش از 19 درصد از مجموعه داده اصلی است. با این حال، وقتی به نما نگاه می کنیم، می بینیم که محصولات بسیار مشابه زیادی وجود دارد. نگهداری همه این نسخه‌ها احتمالاً فقط به آموزش برچسب‌گذاری و مدل‌سازی ما هزینه می‌افزاید، بدون اینکه عملکرد قابل توجهی بهبود یابد. در عوض، بیایید از شر موارد مشابه خلاص شویم تا یک مجموعه داده کوچکتر ایجاد کنیم که همچنان همان پانچ را دارد.

از آنجایی که این تصاویر دقیقاً تکراری نیستند، نمی‌توانیم برابری پیکسلی را بررسی کنیم. خوشبختانه، ما می‌توانیم از FiftyOne Brain برای کمک به تمیز کردن مجموعه داده‌هایمان استفاده کنیم. به طور خاص، ما یک جاسازی برای هر تصویر محاسبه می‌کنیم - یک بردار با ابعاد پایین‌تر که تصویر را نشان می‌دهد - و سپس به دنبال تصاویری می‌گردیم که بردارهای جاسازی آن‌ها نزدیک به یکدیگر هستند. هر چه بردارها به هم نزدیکتر باشند، تصاویر مشابه تر هستند.

ما از یک مدل CLIP برای تولید بردار تعبیه ۵۱۲ بعدی برای هر تصویر استفاده می‌کنیم و این جاسازی‌ها را در جاسازی‌های فیلد روی نمونه‌های مجموعه داده‌مان ذخیره می‌کنیم:

## load model
model = foz.load_zoo_model("clip-vit-base32-torch") ## compute embeddings
representative_view.compute_embeddings(
model, embeddings_field="embedding"
)

سپس با استفاده از نزدیکی بین جاسازی ها را محاسبه می کنیم شباهت کسینوس، و ادعا کنید که هر دو بردار که شباهت آنها بیشتر از آستانه باشد احتمالاً تقریباً تکراری هستند. نمرات شباهت کسینوس در محدوده [0، 1] قرار دارد و با نگاه کردن به داده‌ها، به نظر می‌رسد که امتیاز آستانه 0.5 = thresh تقریباً درست باشد. باز هم، این نیازی به کامل بودن ندارد. چند تصویر تقریباً تکراری به احتمال زیاد قدرت پیش‌بینی ما را از بین نمی‌برند، و دور انداختن چند تصویر غیر تکراری بر عملکرد مدل تأثیر چندانی ندارد.

results = fob.compute_similarity(
view,
embeddings="embedding",
brain_key="sim",
metric="cosine"
) results.find_duplicates(thresh=0.5)

ما می توانیم موارد تکراری ادعا شده را مشاهده کنیم تا بررسی کنیم که آنها واقعاً اضافی هستند:

## view the duplicates, paired up, ## to make sure it is doing what we think it is doing
dup_view = results.duplicates_view()
session = fo.launch_app(dup_view)

وقتی از نتیجه راضی هستیم و معتقدیم که این تصاویر واقعاً تکراری هستند، می‌توانیم از هر مجموعه نمونه‌های مشابه یک نمونه را برای نگهداری انتخاب کنیم و بقیه را نادیده بگیریم:

## get one image from each group of duplicates
dup_rep_ids = list(results.neighbors_map.keys()) # get ids of non-duplicates
non_dup_ids = representative_view.exclude(
dup_view.values("id")
).values("id") # ids to keep
ids = dup_rep_ids + non_dup_ids # create view from ids
non_dup_view = representative_view[ids]

اکنون این نما دارای 3,729 تصویر است. FiftyOne با پاک کردن داده‌ها و شناسایی زیرمجموعه‌ای با کیفیت بالا از مجموعه داده‌های Fashion200K، به ما اجازه می‌دهد تمرکز خود را از بیش از 300,000 تصویر به کمتر از 4,000 محدود کنیم که نشان دهنده کاهش 98 درصدی است. استفاده از جاسازی‌ها برای حذف تصاویر تقریباً تکراری به تنهایی تعداد کل تصاویر مورد بررسی ما را تا بیش از 90 درصد کاهش داد، بدون اینکه تأثیر کمی بر روی هر مدلی که باید بر روی این داده‌ها آموزش داده شود.

قبل از اینکه این زیر مجموعه را از قبل برچسب گذاری کنیم، با تجسم جاسازی هایی که قبلاً محاسبه کرده ایم، می توانیم داده ها را بهتر درک کنیم. ما می توانیم از FiftyOne Brain داخلی استفاده کنیم compute_visualization() روش، که از تکنیک تقریب منیفولد یکنواخت (UMAP) برای نمایش بردارهای تعبیه شده 512 بعدی در فضای دو بعدی استفاده می کند تا بتوانیم آنها را تجسم کنیم:

fob.compute_visualization( non_dup_view, embeddings="embedding", brain_key="vis"
)

جدید باز می کنیم پنل جاسازی در برنامه FiftyOne و رنگ‌آمیزی بر اساس نوع مقاله، و می‌توانیم ببینیم که این جاسازی‌ها تقریباً مفهومی از نوع مقاله را رمزگذاری می‌کنند (در میان چیزهای دیگر!).

اکنون ما آماده ایم که این داده ها را از قبل برچسب گذاری کنیم.

با بررسی این تصاویر بسیار منحصربه‌فرد و با وضوح بالا، می‌توانیم فهرست اولیه مناسبی از سبک‌ها را برای استفاده به عنوان کلاس‌ها در طبقه‌بندی عکس صفر قبل از برچسب‌گذاری خود ایجاد کنیم. هدف ما از پیش برچسب گذاری این تصاویر این نیست که لزوماً هر تصویر را به درستی برچسب گذاری کنیم. در عوض، هدف ما ارائه یک نقطه شروع خوب برای حاشیه نویسان انسانی است تا بتوانیم زمان و هزینه برچسب گذاری را کاهش دهیم.

styles = [ "graphic", "lettered", "plain", "striped", "polka dot", "floral", "jersey", "checkered", "denim", "plaid", "houndstooth", "chevron", "paisley", "animal print", "quatrefoil", “camouflage”
]

سپس می‌توانیم یک مدل طبقه‌بندی شات صفر را برای این برنامه نمونه‌سازی کنیم. ما از یک مدل CLIP استفاده می کنیم که یک مدل همه منظوره است که هم بر روی تصاویر و هم بر روی زبان طبیعی آموزش داده شده است. ما یک مدل CLIP را با دستور متنی «لباس به سبک» نمونه‌سازی می‌کنیم، به طوری که با توجه به یک تصویر، مدل کلاسی را که «لباس به سبک [کلاس]» برای آن بهترین است را خروجی می‌دهد. CLIP بر روی داده‌های خرده‌فروشی یا مد خاص آموزش داده نشده است، بنابراین بی‌نقص نخواهد بود، اما می‌تواند در هزینه‌های برچسب‌گذاری و حاشیه‌نویسی صرفه‌جویی کند.

zero_shot_model = foz.load_zoo_model( "clip-vit-base32-torch", text_prompt="Clothing in the style ", classes=styles,
)

سپس این مدل را به زیر مجموعه کاهش یافته خود اعمال می کنیم و نتایج را در یک ذخیره می کنیم article_style رشته:

non_dup_view.apply_model(
zero_shot_model, label_field="article_style"
)

با راه اندازی مجدد برنامه FiftyOne، می توانیم تصاویر را با این برچسب های سبک پیش بینی شده تجسم کنیم. ما بر اساس اطمینان پیش‌بینی مرتب می‌کنیم، بنابراین ابتدا مطمئن‌ترین پیش‌بینی‌های سبک را مشاهده می‌کنیم:

high_conf_view = non_dup_view.sort_by( "article_style.confidence", reverse=True
) session.view = high_conf_view

می بینیم که به نظر می رسد بالاترین پیش بینی های اطمینان مربوط به سبک های «جرسی»، «چاپ حیوانی»، «پولکا نقطه» و «حروف» باشد. این منطقی است، زیرا این سبک ها نسبتاً متمایز هستند. همچنین به نظر می رسد که در بیشتر موارد، برچسب های سبک پیش بینی شده دقیق هستند.

همچنین می‌توانیم به پیش‌بینی‌های سبک کم‌اعتماد نگاه کنیم:

low_conf_view = non_dup_view.sort_by( "article_style.confidence"
)
session.view = low_conf_view

برای برخی از این تصاویر، دسته بندی استایل مناسب در لیست ارائه شده قرار دارد و روی کالای لباس به اشتباه برچسب گذاری شده است. به عنوان مثال، اولین تصویر در شبکه باید به وضوح "استتار" باشد و نه "شورون". با این حال، در موارد دیگر، محصولات به طور منظم در دسته بندی های سبک قرار نمی گیرند. برای مثال، لباس در تصویر دوم در ردیف دوم، دقیقاً «راه راه» نیست، اما با توجه به گزینه‌های برچسب‌گذاری یکسان، ممکن است حاشیه‌نویس انسانی نیز دچار تضاد باشد. همانطور که مجموعه داده خود را ایجاد می کنیم، باید تصمیم بگیریم که آیا موارد لبه مانند این موارد را حذف کنیم، دسته بندی های سبک جدید اضافه کنیم یا مجموعه داده را تقویت کنیم.

مجموعه داده نهایی را از FiftyOne صادر کنید

مجموعه داده نهایی را با کد زیر صادر کنید:

# The directory to which to write the exported dataset
export_dir = "200kFashionDatasetExportResult" # The name of the sample field containing the label that you wish to export
# Used when exporting labeled datasets (e.g., classification or detection)
label_field = "article_style" # for example # The type of dataset to export
# Any subclass of `fiftyone.types.Dataset` is supported
dataset_type = fo.types.COCODetectionDataset # for example # Export the dataset
high_conf_view.export( export_dir=export_dir, dataset_type=dataset_type, label_field=label_field,
)

می‌توانیم مجموعه داده‌های کوچک‌تری، به عنوان مثال، 16 تصویر را به پوشه صادر کنیم 200kFashionDatasetExportResult-16Images. ما با استفاده از آن یک کار تنظیم Truth ایجاد می کنیم:

# The directory to which to write the exported dataset
export_dir = "200kFashionDatasetExportResult-16Images" # The name of the sample field containing the label that you wish to export
# Used when exporting labeled datasets (e.g., classification or detection)
label_field = "article_style" # for example # The type of dataset to export
# Any subclass of `fiftyone.types.Dataset` is supported
dataset_type = fo.types.COCODetectionDataset # for example # Export the dataset
high_conf_view.take(16).export( export_dir=export_dir, dataset_type=dataset_type, label_field=label_field,
)

مجموعه داده اصلاح شده را آپلود کنید، قالب برچسب را به Ground Truth تبدیل کنید، در Amazon S3 آپلود کنید، و یک فایل مانیفست برای کار تنظیم ایجاد کنید.

ما می توانیم برچسب های موجود در مجموعه داده را برای مطابقت با آن تبدیل کنیم طرح مانیفست خروجی از یک کار جعبه مرزی Ground Truth و آپلود تصاویر در یک سرویس ذخیره سازی ساده آمازون (Amazon S3) سطل برای راه اندازی یک کار تنظیم حقیقت زمین:

import json
# open the labels.json file of ground truth bounding box #labels from the exported dataset
f = open('200kFashionDatasetExportResult-16Images/labels.json')
data = json.load(f) # provide your aws s3 bucket name, prefix, and aws credentials
bucket_name = 'sagemaker-your-preferred-s3-bucket'
s3_prefix = 'sagemaker-your-preferred-s3-prefix' session = boto3.Session( aws_access_key_id='<AWS_ACCESS_KEY_ID>', aws_secret_access_key='<AWS_SECRET_ACCESS_KEY>'
)
s3 = session.resource('s3') for image in data['images']: file_name = image['file_name'] file_id = file_name[:-4] image_id = image['id'] # upload the image to s3 s3.meta.client.upload_file('200kFashionDatasetExportResult-16Images/data/'+image['file_name'], bucket_name, s3_prefix+'/'+image['file_name']) gt_annotations = [] confidence = 0.00 for annotation in data['annotations']: if annotation['image_id'] == image['id']: confidence = annotation['score'] gt_annotation = { "class_id": gt_class_array.index(style_category), # convert the original ground_truth bounding box #label to predicted style label "left": annotation['bbox'][0], "top": annotation['bbox'][1], "width": annotation['bbox'][2], "height": annotation['bbox'][3] } gt_annotations.append(gt_annotation) break gt_metadata_objects = [] for gt_annotation in gt_annotations: gt_metadata_objects.append({ "confidence": confidence }) gt_label_attribute_metadata = { "class-map": gt_class_map, "objects": gt_metadata_objects, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2023-02-19T00:23:25.339582", "job-name": "labeling-job/200k-fashion-origin" } gt_output = { "source-ref": f"s3://{bucket_name}/{s3_prefix}/{image['file_name']}", "200k-fashion-origin": { "image_size": [ { "width": image['width'], "height": image['height'], "depth": 3 } ], "annotations": gt_annotations }, "200k-fashion-origin-metadata": gt_label_attribute_metadata } # write to the manifest file with open(200k-fashion-output.manifest', 'a') as output_file: output_file.write(json.dumps(gt_output) + "n")

فایل مانیفست را با کد زیر در Amazon S3 آپلود کنید:

s3.meta.client.upload_file(200k-fashion-output.manifest', bucket_name, s3_prefix+'/200k-fashion-output.manifest')

با Ground Truth برچسب‌های استایل اصلاح شده ایجاد کنید

برای حاشیه‌نویسی داده‌های خود با برچسب‌های سبک با استفاده از Ground Truth، مراحل لازم را برای شروع کار برچسب‌گذاری جعبه مرزی با پیروی از روش مشخص شده در شروع با حقیقت پایه راهنمای با مجموعه داده در همان سطل S3.

در کنسول SageMaker، یک کار برچسب‌گذاری Ground Truth ایجاد کنید.
تنظیم کنید محل مجموعه داده ورودی تا مانیفستی باشد که در مراحل قبل ایجاد کردیم.
یک مسیر S3 برای محل داده خروجی.
برای نقش IAM، انتخاب کنید یک نقش سفارشی IAM را وارد کنید RNA، سپس نقش ARN را وارد کنید.
برای دسته وظایف، انتخاب کنید تصویر را انتخاب کنید و جعبه مرزی.
را انتخاب کنید بعدی.
در کارگران بخش، نوع نیروی کاری را که می خواهید استفاده کنید انتخاب کنید.
شما می توانید نیروی کار را از طریق انتخاب کنید آمازون مکانیک ترک، فروشندگان شخص ثالث یا نیروی کار خصوصی شما. برای جزئیات بیشتر در مورد گزینه های نیروی کار خود، ببینید ایجاد و مدیریت نیروی کار.
گسترش گزینه‌های نمایش برچسب‌های موجود را انتخاب کنید و من می خواهم برچسب های موجود را از مجموعه داده برای این کار نمایش دهم.
برای ویژگی برچسب نام، نامی را از مانیفست خود انتخاب کنید که مطابق با برچسب هایی است که می خواهید برای تنظیم نمایش دهید.
شما فقط نام ویژگی های برچسب را برای برچسب هایی خواهید دید که با نوع کار انتخابی شما در مراحل قبلی مطابقت دارند.
برچسب ها را به صورت دستی وارد کنید ابزار برچسب زدن جعبه مرزی.
برچسب ها باید حاوی همان برچسب های مورد استفاده در مجموعه داده عمومی باشند. می توانید برچسب های جدید اضافه کنید. تصویر زیر نشان می دهد که چگونه می توانید کارگران را انتخاب کنید و ابزار را برای کار برچسب زدن خود پیکربندی کنید.
را انتخاب کنید پیش نمایش برای پیش نمایش تصویر و حاشیه نویسی اصلی.

ما اکنون یک کار برچسب زدن در Ground Truth ایجاد کرده ایم. پس از اتمام کار، می‌توانیم داده‌های برچسب‌گذاری شده جدید تولید شده را در FiftyOne بارگذاری کنیم. Ground Truth داده های خروجی را در مانیفست خروجی Ground Truth تولید می کند. برای جزئیات بیشتر در مورد فایل مانیفست خروجی، نگاه کنید خروجی کار جعبه محدود. کد زیر نمونه ای از این فرمت مانیفست خروجی را نشان می دهد:

{ "source-ref": "s3://AWSDOC-EXAMPLE-BUCKET/example_image.png", "bounding-box-attribute-name": { "image_size": [{ "width": 500, "height": 400, "depth":3}], "annotations": [ {"class_id": 0, "left": 111, "top": 134, "width": 61, "height": 128}, {"class_id": 5, "left": 161, "top": 250, "width": 30, "height": 30}, {"class_id": 5, "left": 20, "top": 20, "width": 30, "height": 30} ] }, "bounding-box-attribute-name-metadata": { "objects": [ {"confidence": 0.8}, {"confidence": 0.9}, {"confidence": 0.9} ], "class-map": { "0": "jersey", "5": "polka dot" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2018-10-18T22:18:13.527256", "job-name": "identify-fashion-set" }, "adjusted-bounding-box": { "image_size": [{ "width": 500, "height": 400, "depth":3}], "annotations": [ {"class_id": 0, "left": 110, "top": 135, "width": 61, "height": 128}, {"class_id": 5, "left": 161, "top": 250, "width": 30, "height": 30}, {"class_id": 5, "left": 10, "top": 10, "width": 30, "height": 30} ] }, "adjusted-bounding-box-metadata": { "objects": [ {"confidence": 0.8}, {"confidence": 0.9}, {"confidence": 0.9} ], "class-map": { "0": "dog", "5": "bone" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2018-11-20T22:18:13.527256", "job-name": "adjust-identify-fashion-set", "adjustment-status": "adjusted" } }

نتایج برچسب‌گذاری شده از Ground Truth در FiftyOne را مرور کنید

پس از اتمام کار، مانیفست خروجی کار برچسب زدن را از آمازون S3 دانلود کنید.

فایل مانیفست خروجی را بخوانید:

with open('<path-to-your-output.manifest>', 'r') as fh: adjustment_manifest_lines = fh.readlines()

یک مجموعه داده FiftyOne ایجاد کنید و خطوط مانیفست را به نمونه در مجموعه داده تبدیل کنید:

def get_classification_labels(manifest_line, dataset, attr_name) -> fo.Classifications: label_attribute_data = manifest_line.get(attr_name) metadata = manifest_line.get(f"{attr_name}-metadata") annotations = label_attribute_data.get("annotations") image_data = label_attribute_data.get("image_size")[0] width = image_data.get("width") height = image_data.get("height") predictions = [] for i, annotation in enumerate(annotations): label = metadata.get("class-map").get(str(annotation.get("class_id"))) confidence = metadata.get("objects")[i].get("confidence") prediction = fo.Classification(label=label, confidence=confidence) predictions.append(prediction) return fo.Classifications(classifications=predictions) def get_bounding_box_labels(manifest_line, dataset, attr_name) -> fo.Detections: label_attribute_data = manifest_line.get(attr_name) metadata = manifest_line.get(f"{attr_name}-metadata") annotations = label_attribute_data.get("annotations") image_data = label_attribute_data.get("image_size")[0] width = image_data.get("width") height = image_data.get("height") detections = [] for i, annotation in enumerate(annotations): label = metadata.get("class-map").get(str(annotation.get("class_id"))) confidence = metadata.get("objects")[i].get("confidence") # Bounding box coordinates should be relative values # in [0, 1] in the following format: # [top-left-x, top-left-y, width, height] bounding_box = [ annotation.get("left") / width, annotation.get("top") / height, annotation.get("width") / width, annotation.get("height") / height, ] detection = fo.Detection( label=label, bounding_box=bounding_box, confidence=confidence ) detections.append(detection) return fo.Detections(detections=detections) def get_sample_from_manifest_line(manifest_line, dataset, attr_name): """ For each line in manifest, transform annotations into Fiftyone format Args: line: manifest line Output: Fiftyone image sample """ file_name = manifest_line.get("source-ref")[5:].split("/")[-1] file_loc = f'200kFashionDatasetExportResult-16Images/data/{file_name}' sample = fo.Sample(filepath=file_loc) sample['ground_truth'] = get_bounding_box_labels( manifest_line=manifest_line, dataset=dataset, attr_name=attr_name ) sample["prediction"] = get_classification_labels( manifest_line=manifest_line, dataset=dataset, attr_name=attr_name ) return sample adjustment_dataset = fo.Dataset("adjustment-job-dataset") samples = [ get_sample_from_manifest_line( manifest_line=json.loads(manifest_line), dataset=adjustment_dataset, attr_name='smgt-fiftyone-style-adjustment-job' ) for manifest_line in adjustment_manifest_lines ] adjustment_dataset.add_samples(samples) session = fo.launch_app(adjustment_dataset)

اکنون می‌توانید داده‌های برچسب‌گذاری شده با کیفیت بالا را از Ground Truth در FiftyOne ببینید.

نتیجه

در این پست، نحوه ساخت مجموعه داده های با کیفیت بالا را با ترکیب قدرت نشان دادیم پنجاه و یک by وکسل 51، یک جعبه ابزار منبع باز که به شما امکان می دهد مجموعه داده خود را مدیریت، ردیابی، تجسم و مدیریت کنید، و Ground Truth، یک سرویس برچسب گذاری داده که به شما امکان می دهد به طور موثر و دقیق مجموعه داده های مورد نیاز برای آموزش سیستم های ML را با دسترسی به چندین ساخته شده برچسب گذاری کنید. قالب‌های کار و دسترسی به نیروی کار متنوع از طریق Mechanical Turk، فروشندگان شخص ثالث یا نیروی کار خصوصی خودتان.

ما شما را تشویق می کنیم که با نصب یک نمونه FiftyOne و استفاده از کنسول Ground Truth برای شروع، این عملکرد جدید را امتحان کنید. برای کسب اطلاعات بیشتر در مورد حقیقت زمین، مراجعه کنید داده های برچسب, پرسش‌های متداول برچسب‌گذاری داده‌های Amazon SageMaker، و وبلاگ یادگیری ماشین AWS.

با جامعه یادگیری ماشین و هوش مصنوعی اگر سوال یا بازخوردی دارید!

به انجمن FiftyOne بپیوندید!

به هزاران مهندس و دانشمند داده بپیوندید که در حال حاضر از FiftyOne برای حل برخی از چالش برانگیزترین مشکلات در بینایی کامپیوتر امروز استفاده می کنند!

درباره نویسنده

شالندرا چابرا در حال حاضر رئیس مدیریت محصول برای Amazon SageMaker Human-in-the-Loop (HIL) خدمات است. پیش از این، شالندر انکوباتور و رهبری هوش زبان و مکالمه برای جلسات تیم های مایکروسافت، EIR در شتاب دهنده راه اندازی آمازون الکسا Techstars، معاون محصول و بازاریابی در آمازون بود. Discuss.io، رئیس محصول و بازاریابی در کلیپ بورد (که توسط Salesforce خریداری شده است) و مدیر محصول اصلی در Swype (خرید شده توسط Nuance). در مجموع، شالندرا به ساخت، ارسال و عرضه محصولاتی کمک کرده است که جان بیش از یک میلیارد را تحت تأثیر قرار داده است.

جیکوب مارکس یک مهندس یادگیری ماشین و مبشر توسعه دهنده در Voxel51 است، جایی که به شفافیت و وضوح داده های جهان کمک می کند. قبل از پیوستن به Voxel51، جیکوب یک استارتاپ را تاسیس کرد تا به نوازندگان نوظهور کمک کند تا محتوای خلاقانه خود را با طرفداران ارتباط برقرار کنند و به اشتراک بگذارند. او قبل از آن در گوگل ایکس، سامسونگ ریسرچ و ولفرام ریسرچ کار می کرد. در زندگی گذشته، جیکوب یک فیزیکدان نظری بود و دکترای خود را در استنفورد تکمیل کرد، جایی که مراحل کوانتومی ماده را بررسی کرد. جیکوب در اوقات فراغت خود از کوهنوردی، دویدن و خواندن رمان های علمی تخیلی لذت می برد.

جیسون کورسو یکی از بنیانگذاران و مدیرعامل Voxel51 است، جایی که او استراتژی را برای کمک به شفافیت و وضوح داده های جهان از طریق پیشرفته ترین نرم افزارهای انعطاف پذیر هدایت می کند. او همچنین استاد رباتیک، مهندسی برق، و علوم کامپیوتر در دانشگاه میشیگان است، جایی که او بر روی مشکلات پیشرفته در تقاطع بینایی کامپیوتر، زبان طبیعی و پلتفرم‌های فیزیکی تمرکز دارد. جیسون در اوقات فراغت خود از گذراندن وقت با خانواده، مطالعه، حضور در طبیعت، بازی های رومیزی و انواع فعالیت های خلاقانه لذت می برد.

برایان مور یکی از بنیانگذاران و CTO Voxel51 است، جایی که او استراتژی و چشم انداز فنی را رهبری می کند. او دارای مدرک دکترای مهندسی برق از دانشگاه میشیگان است، جایی که تحقیقات او بر روی الگوریتم‌های کارآمد برای مشکلات یادگیری ماشین در مقیاس بزرگ، با تأکید ویژه بر برنامه‌های بینایی رایانه متمرکز بود. او در اوقات فراغت خود از بدمینتون، گلف، پیاده‌روی و بازی با دوقلوی یورکشایر تریر لذت می‌برد.

ژولینگ بای مهندس توسعه نرم افزار در خدمات وب آمازون است. او روی توسعه سیستم های توزیع شده در مقیاس بزرگ برای حل مشکلات یادگیری ماشین کار می کند.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoAiStream. Web3 Data Intelligence دانش تقویت شده دسترسی به اینجا.
ضرب کردن آینده با آدرین اشلی. دسترسی به اینجا.
خرید و فروش سهام در شرکت های PRE-IPO با PREIPO®. دسترسی به اینجا.
منبع: https://aws.amazon.com/blogs/machine-learning/create-high-quality-datasets-with-amazon-sagemaker-ground-truth-and-fiftyone/

تمبر زمان: ممکن است 5، 2023

تمبر زمان: ژوئن 21، 2023

بازنشر افلاطون

کانکتور به روز شده مایکروسافت OneDrive (V2) برای Amazon Kendra را اعلام کرد

چندین سند زبان مبدأ را با استفاده از ترجمه آمازون به چندین زبان مقصد ترجمه کنید

انتخاب مدل طبقه بندی تصویر با استفاده از Amazon SageMaker JumpStart

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب