Label Text For Aspect-based Sentiment Analysis Using SageMaker Ground Truth

Taasavaldanud Platon

järgijaid: 0

Amazon Machine Learning Solutions Lab (MLSL) lõi hiljuti tööriista nimelise üksuse tuvastamise (NER) ja seose siltidega teksti märkimiseks. Amazon SageMaker Ground Truth. Annotaatorid kasutavad seda tööriista teksti nimega olemitega märgistamiseks ja nende suhete linkimiseks, luues seeläbi andmestiku moodsate loomuliku keele töötlemise (NLP) masinõppe (ML) mudelite koolitamiseks. Kõige tähtsam on see, et see on nüüd kõigile AWS-i klientidele avalikult saadaval.

Kliendi kasutusjuht: Booking.com

Booking.com on üks maailma juhtivaid online-reisiplatvorme. Tipptasemel kliendikogemuse säilitamiseks on oluline mõista, mida kliendid ettevõtte 28 miljoni üle platvormi kinnisvara kohta räägivad. Varem sai Booking.com kasutada klientide loodud arvustuste ulatuslikuks tõlgendamiseks ainult traditsioonilist meeleoluanalüüsi. Nende tõlgenduste spetsiifilisuse täiendamiseks pöördus Booking.com hiljuti MLSL-i poole, et saada abi kohandatud annoteeritud andmestiku koostamiseks aspektipõhise sentimentaalanalüüsi mudeli koolitamiseks.

Traditsiooniline sentimentianalüüs on protsess, mille käigus liigitatakse tekstiosa positiivseks, negatiivseks või neutraalseks kui a ainulaadne sentiment. See aitab üldjoontes mõista, kas kasutajad on konkreetse kogemusega rahul või mitte. Näiteks traditsioonilise tundeanalüüsi korral võib järgmise teksti liigitada neutraalseks:

Meie viibimine hotellis oli tore. Personal oli sõbralik ja toad puhtad, kuid meie voodid olid üsna ebamugavad.

Aspektipõhine sentimentianalüüs pakub sisust nüansirikkamat arusaama. Booking.com-i puhul võib selle asemel, et võtta kliendi arvustust tervikuna ja liigitada seda kategooriliselt, võtta arvustuse seest lähtuv sentiment ja määrata see konkreetsetele aspektidele. Näiteks võivad klientide arvustused antud hotelli kohta kiita laitmatut basseini ja spordiala, kuid anda kriitilist tagasisidet restorani ja salongi kohta.

Väide, mis oleks traditsioonilise sentimentianalüüsi järgi klassifitseeritud neutraalseks, muutub aspektipõhise sentimentanalüüsiga:

Meie viibimine hotellis oli tore. Personal oli sõbralik ja toad puhtad, kuid meie voodid olid üsna ebamugavad.

Hotell: positiivne
Personal: positiivne
Tuba: positiivne
Voodid: negatiivsed

Priceline positiivne, negatiivnevõi neutraalne.

Enne kui Booking.com suutis selle mudeli jaoks koolitusandmestiku koostada, vajasid nad viisi selle märkuste tegemiseks. MLSL-i annotatsioonitööriist pakkus väga vajalikku kohandatud lahendust. Inimeste ülevaatus tehti suurele hotelliarvustustele. Seejärel koostasid annotaatorid enne sobivate vahemike ühendamist tunde ja külaliste kogemuse tekstivahemike ja fraaside kohta nimelise olemi märkuse.

Uus aspektipõhine mudel võimaldab Booking.com-il oma klientide jaoks isikupärastada nii majutusi kui ka arvustusi. Iga majutuskoha positiivsete ja negatiivsete külgede esiletõstmine võimaldab klientidel valida endale sobivaima. Lisaks hoolivad erinevad kliendid majutuse erinevatest aspektidest ning uus mudel avab võimaluse näidata igaühele kõige asjakohasemaid arvustusi.

Nõuded märgistamisele

Kuigi Ground Truth pakub sisseehitatud NER-i tekstimärkuste tegemise võimalust, ei paku see võimalust olemeid omavahel siduda. Seda silmas pidades töötasid Booking.com ja MLSL välja järgmised kõrgetasemelised nõuded uue nimega olemi tuvastamise teksti sildistamise tööriista jaoks, mis:

Aktsepteerib sisendiks: tekst, olemi sildid, suhtesildidja klassifikatsioonisildid.
Valikuliselt aktsepteerib sisendandmetena eelmärkusega andmeid koos eelneva sildi ja seose märkustega.
Esitab annotaatori kas märkusteta või eelmärkusteta tekstiga.
Võimaldab annotaatoritel olemisildiga suvalist teksti esile tõsta ja annoteerida.
Võimaldab annotaatoritel luua seoseid kahe olemimärkuse vahel.
Võimaldab annotaatoritel hõlpsalt navigeerida suure hulga olemi siltide vahel.
Toetab olemi siltide rühmitamist kategooriatesse.
Luba kattuvaid seoseid, mis tähendab, et sama annoteeritud tekstilõik võib olla seotud rohkem kui ühe teise kommenteeritud tekstisegmendiga.
Lubab kattuvaid olemi siltide märkusi, mis tähendab, et kaks märkust võivad sama tekstiosa kattuda. Näiteks tekstil "Seattle Space Needle" võivad olla nii märkused "Seattle" → "asukohad" kui ka "Seattle Space Needle" → "atraktsioonid".
Väljundvorming ühildub sisendvorminguga ja seda saab edasistesse märgistamistoimingutesse tagasi suunata.
Toetab UTF-8 kodeeritud teksti, mis sisaldab emotikone ja muid mitmebaidiseid märke.
Toetab vasakult paremale kirjutatavaid keeli.

Annotatsiooni näidis

Kaaluge järgmist dokumenti:

Meile meeldis selle hotelli asukoht! Katusesalong andis meile täiusliku vaate ruuminõelale. See on ka lühikese autosõidu kaugusel haugiplatsi turust ja rannast.
Toit oli saadaval ainult toateeninduse kaudu, mis valmistas veidi pettumust, kuid on selles pandeemiajärgses maailmas mõistlik.
Üldiselt mõistliku hinnaga kogemus.

Selle dokumendi laadimisel uude NER-i annotatsiooni kuvatakse töötajale järgmine liides:

Töötajale esitati märkusteta dokument

Sel juhul on töötaja ülesanne:

Märgistage kinnisvaraga seotud üksused (asukoht, hind, toit jne)
Märgistage meeleoluga seotud üksused (positiivsed, negatiivsed või neutraalsed)
Linkige kinnisvaraga seotud nimelised olemid sentimentidega seotud märksõnadega, et külaliste kogemust täpselt jäädvustada

Töötaja, kes teeb märkusi

Märkuste kiirus oli tööriista juures oluline kaalutlus. Intuitiivsete kiirklahvide ja hiireliigutuste jada abil saavad annotaatorid liidest juhtida ja:

Lisage ja eemaldage nimega olemi märkusi
Lisage seoseid nimetatud üksuste vahel
Hüppa dokumendi algusesse ja lõppu
Esitage dokument

Lisaks on olemas kattuvate siltide tugi. Näiteks, Seattle Space Needle: selles lauses Seattle on märgitud nii asukohana kui ka vaatamisväärsuse nime osana.

Valminud annotatsioon annab täielikuma ja nüansirikkama andmete analüüsi:

Täidetud dokument

Seoseid saab konfigureerida mitmel tasandil, alates olemikategooriatest kuni muude olemikategooriateni (näiteks alates "toit" kuni "tunne") või üksikute olemitüüpide vahel. Suhted on suunatud, nii et annotaatorid saavad siduda aspekti, nagu toit, meeleoluga, kuid mitte vastupidi (kui see pole selgesõnaliselt lubatud). Seoste joonistamisel tuletab märkuste tööriist automaatselt seose sildi ja suuna.

NER-i märkuste tööriista konfigureerimine

Selles jaotises käsitleme, kuidas kohandada NER-i märkuste tööriista kliendipõhiste kasutusjuhtude jaoks. See hõlmab konfigureerimist:

Annoteeritav sisendtekst
Üksuste sildid
Suhtesildid
Klassifikatsioonisildid
Eelmärkusega andmed
Töötaja juhised

Käsitleme sisend- ja väljunddokumendi vormingute eripärasid ning toome igaühe kohta mõned näited.

Sisenddokumendi vorming

NER-i märkimistööriist ootab järgmist JSON-vormingus sisenddokumenti (väljad, mille nime kõrval on küsimärk, on valikulised).

{ text: string; tokenRows?: string[][]; documentId?: string; entityLabels?: { name: string; shortName?: string; category?: string; shortCategory?: string; color?: string; }[]; classificationLabels?: string[]; relationshipLabels?: { name: string; allowedRelationships?: { sourceEntityLabelCategories?: string[]; targetEntityLabelCategories?: string[]; sourceEntityLabels?: string[]; targetEntityLabels?: string[]; }[]; }[]; entityAnnotations?: { id: string; start: number; end: number; text: string; label: string; labelCategory?: string; }[]; relationshipAnnotations?: { sourceEntityAnnotationId: string; targetEntityAnnotationId: string; label: string; }[]; classificationAnnotations?: string[]; meta?: { instructions?: string; disableSubmitConfirmation?: boolean; multiClassification: boolean; };
}

Lühidalt öeldes on sisendvormingul järgmised omadused:

Kumbki entityLabels or classificationLabels (või mõlemad) on kohustatud märkima.
If entityLabels antakse siis relationshipLabels saab lisada.
Seosed võivad olla lubatud erinevate olemi/kategooria siltide või nende segude vahel.
Seose "allikas" on olem, millega suunatud nool algab, samas kui "sihtmärk" on see, kuhu see suundub.

Väli	KASUTUSALA	Kirjeldus
tekst	nöör	Nõutud. Sisestage annotatsiooni tekst.
tokenRows	string[][]	Valikuline. Sisendteksti kohandatud märgistamine. Massiivi stringide massiiv. Tipptaseme massiiv tähistab iga tekstirida (reavahetused) ja teise taseme massiiv tähistab iga rea märke. Kõik sisendteksti märgid/ruunid tuleb arvesse võtta tokenRows, sealhulgas tühik.
dokumendi ID	nöör	Valikuline. Valikuline väärtus klientidele märkuste tegemisel dokumendi jälgimiseks.
entityLabels	objekt[]	Nõutav, kui ClassificationLabels on tühi. Olemi siltide massiiv.
entityLabels[].name	nöör	Nõutud. Olemi sildi kuvatav nimi.
entityLabels[].category	nöör	Valikuline. Olemi sildi kategooria nimi.
entityLabels[].shortName	nöör	Valikuline. Kuvage see tekst täisnime asemel annoteeritud üksuste kohal.
entityLabels[].shortCategory	nöör	Valikuline. Kuva see tekst olemi annotatsiooni rippmenüüs kategooria nime nelja esimese tähe asemel.
entityLabels.color	nöör	Valikuline. Kuueteistkümnendvärvikood koos „#” eesliitega. Kui see on tühi, määrab see olemisildile automaatselt värvi.
suhtesildid	objekt[]	Valikuline. Suhtesiltide hulk.
suheLabels[].nimi	nöör	Nõutud. Seosesildi kuvatav nimi.
relationLabels[].allowedRelationships	objekt[]	Valikuline. Väärtuste massiiv, mis piirab seda, millist tüüpi allika ja sihtkoha olemi siltidele saab selle seose määrata. Iga massiivi üksus on "OR" koos.
relationLabels[].allowedRelationships[].sourceEntityLabelCategories	string[]	Nõutav kas sourceEntityLabelCategories või sourceEntityLabels (või mõlema) määramiseks. Selle seose juriidilise lähteüksuse sildi kategooriatüüpide loend.
relationLabels[].allowedRelationships[].targetEntityLabelCategories	string[]	Nõutav kas targetEntityLabelCategories või targetEntityLabels (või mõlema) määramiseks. Selle suhte juriidilise sihtüksuse sildi kategooriatüüpide loend.
relationLabels[].allowedRelationships[].sourceEntityLabels	string[]	Nõutav kas sourceEntityLabelCategories või sourceEntityLabels (või mõlema) määramiseks. Selle seose juriidilise lähteüksuse sildi tüüpide loend.
relationLabels[].allowedRelationships[].sourceEntityLabels	string[]	Nõutav kas targetEntityLabelCategories või targetEntityLabels (või mõlema) määramiseks. Selle suhte juriidiliste sihtüksuste silditüüpide loend.
klassifikatsioonEtiketid	string[]	Nõutav, kui entityLabels on tühi. Dokumenditaseme klassifikatsioonisiltide loend.
entityAnnotations	objekt[]	Valikuline. Olemi märkuste massiiv sisendteksti eelmärkuste tegemiseks.
entityAnnotations[].id	nöör	Nõutud. Selle olemi annotatsiooni kordumatu identifikaator. Kasutatakse sellele olemile viitamiseks jaotises relationAnnotations.
entityAnnotations[].start	number	Nõutud. Käivitage selle olemi märkuse ruuninihe.
entityAnnotations[].end	number	Nõutud. Selle olemi märkuse ruuni lõpu nihe.
entityAnnotations[].text	nöör	Nõutud. Teksti sisu ruuni alguse ja lõpu nihke vahel.
entityAnnotations[].label	nöör	Nõutud. Seotud olemi sildi nimi (entityLabelsi nimedest).
entityAnnotations[].labelCategory	nöör	Valikuline.Seotud olemi sildi kategooria (olemisiltide kategooriatest).
suheMärkused	objekt[]	Valikuline. Suhtemärkuste hulk.
relationAnnotations[].sourceEntityAnnotationId	nöör	Nõutud. Selle seose lähteüksuse märkuse ID.
relationAnnotations[].targetEntityAnnotationId	nöör	Nõutud. Selle seose sihtüksuse märkuse ID.
suheAnnotatsioonid[].silt	nöör	Nõutud. Seotud suhtesildi nimi.
klassifikatsioonMärkused	string[]	Valikuline. Klassifikatsioonide massiiv, millega dokumendile eelmärkused lisada.
meta	objekt	Valikuline. Täiendavad konfiguratsiooniparameetrid.
meta.juhised	nöör	Valikuline. Märgistusannotaatori juhised Markdowni vormingus.
meta.disableSubmitConfirmation	loogiline	Valikuline. Kinnituse esitamise modaali keelamiseks määrake väärtuseks Tõene.
meta.multiClassification	loogiline	Valikuline. Määrake väärtuseks Tõene, et lubada mitme sildi režiimi klassifitseerimise siltide jaoks.

Siin on mõned näidisdokumendid selle sisendvormingu paremaks mõistmiseks

Sellele skeemile vastavad dokumendid esitatakse Ground Truthile sisendmanifesti üksikute reaüksustena.

Väljunddokumendi vorming

Väljundvorming on loodud hõlpsalt tagasisidet andma uuele annotatsiooniülesandele. Väljunddokumendi valikulised väljad on määratud, kui need on määratud ka sisenddokumendis. Ainus erinevus sisend- ja väljundvormingu vahel on meta objekt

{ text: string; tokenRows?: string[][]; documentId?: string; entityLabels?: { name: string; shortName?: string; category?: string; shortCategory?: string; color?: string; }[]; relationshipLabels: { name: string; allowedRelationships?: { sourceEntityLabelCategories?: string[]; targetEntityLabelCategories?: string[]; sourceEntityLabels?: string[]; targetEntityLabels?: string[]; }[]; }[]; classificationLabels?: string[]; entityAnnotations?: { id: string; start: number; end: number; text: string; labelCategory?: string; label: string; }[]; relationshipAnnotations?: { sourceEntityAnnotationId: string; targetEntityAnnotationId: string; label: string; }[]; classificationAnnotations?: string[]; meta: { instructions?: string; disableSubmitConfirmation?: boolean; multiClassification: boolean; runes: string[]; rejected: boolean; rejectedReason: string; }
}

Väli	KASUTUSALA	Kirjeldus
meta.tõrjutud	loogiline	Määratakse väärtuseks Tõene, kui annotaator lükkas selle dokumendi tagasi.
meta.rejectedReason	nöör	Annotaatori poolt dokumendi tagasilükkamise põhjus.
meta.ruunid	string[]	Ruunide massiiv, mis kajastab kõiki sisendteksti märke. Kasutatakse olemi annotatsiooni alguse ja lõpu nihete arvutamiseks.

Siin on väljunddokumendi näidis, millele on lisatud märkused:

Ruunide märkus:

"Ruun" on selles kontekstis üks esiletõstetav märk tekstis, sealhulgas mitmebaidised märgid, näiteks emotikonid.

Kuna erinevad programmeerimiskeeled esindavad mitmebaidiseid märke erinevalt, tähendab „Ruunide” kasutamine iga esiletõstmisvõimelise tähemärgi ühe aatomielemendina määratlemiseks, et meil on ühemõtteline viis mis tahes tekstivaliku kirjeldamiseks.
Näiteks Python käsitleb Rootsi lippu nelja tähemärgina:

Kuid JavaScript käsitleb sama emotikone kahe tähemärgina

Ebaselguse kõrvaldamiseks käsitleme Rootsi lippu (ja kõiki muid emotikone ja mitmebaidiseid märke) ühe aatomielemendina.

Nihe: ruuni asukoht sisendteksti suhtes (alates indeksist 0)

NER-i märkuste esitamine põhitõega

Täielikult hallatava andmesilditeenusena koostab Ground Truth ML-i jaoks koolitusandmekogumeid. Sel kasutusjuhul kasutame Ground Truthi tekstidokumentide kogumi saatmiseks töötajate kogumile märkuste tegemiseks. Lõpuks vaatame üle kvaliteedi.

Ground Truthi saab konfigureerida andmete sildistamise töö loomiseks, kasutades kohandatud mallina uut NER-tööriista.

Täpsemalt teeme:

Looge märkuste tegemise ülesande täitmiseks töötajatest eramärgistuse tööjõud
Looge Ground Truthi sisendmanifest dokumentidega, millele tahame märkmeid lisada, ja seejärel laadige see üles Amazon Simple Storage Service (Amazon S3)
Looge eelmärgistusülesande ja märgistamisjärgse ülesande lambdafunktsioonid
Looge Ground Truthi sildistamistöö, kasutades kohandatud NER-malli
Tehke dokumentidele märkused
Vaadake tulemused üle

NER tööriista ressursid

Viidatud ressursside ja näidisdokumentide täieliku loendi leiate järgmisest tabelist.

Tööjõu loomise märgistamine

Ground Truth kasutab töötajate haldamiseks ja ülesannete jaotamiseks SageMakeri märgistustööjõudu. Looge privaatne tööjõud, töötajate meeskond nimega ner-worker-team ja määrake end meeskonda, kasutades juhiseid, mis leiate Eratööjõu loomine (Amazon SageMakeri konsool).

Kui olete lisanud end eratööjõu hulka ja kinnitanud oma e-posti aadressi, märkige üles AWS-i halduskonsoolis olev töötajate portaali URL:

Liigu SageMaker
Liigu Ground Truth → Labeling workforces
Valige Private tab
Pange tähele URL-i Labeling portal sign-in URL

Märgistusülesannete vaatamiseks ja nendega töö alustamiseks logige sisse töötajate portaali.

Sisestusmanifest

Ground Truthi sisendandmete manifest on JSON-ridade fail, kus iga rida sisaldab ühte töötaja ülesannet. Meie puhul sisaldab iga rida ühte JSON-kodeeringuga sisenddokumenti, mis sisaldab teksti, mille tahame annoteerida, ja NER-i annotatsiooniskeemi.

Laadige alla sisendmanifesti näidis reviews.manifest Alates https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest

märkused: sisestusmanifesti iga rida vajab ülataseme võtit source or source-ref. Saate rohkem teada saada Kasutage sisendmanifesti faili Amazon SageMakeri arendaja juhendis.

Laadige sisestusmanifest üles Amazon S3-sse

Laadige see sisendmanifest üles S3 ämbrisse, kasutades AWS-i halduskonsooli või käsurealt, asendades sellega your-bucket tegeliku ämbri nimega.

aws s3 cp reviews.manifest s3://your-bucket/ner-input/reviews.manifest

Laadige alla kohandatud töötaja mall

Laadige NER-i tööriista kohandatud töötaja mall alla aadressilt https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html allikat vaadates ja sisu lokaalselt salvestades või käsurealt:

wget https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html

Looge eelmärgistusülesande ja märgistamisjärgse ülesande lambdafunktsioonid

Laadige alla Lambda funktsiooni eelmärgistamise ülesande näidis: smgt-ner-pre-labeling-task-lambda.py Alates https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py

Laadige alla Lambda funktsiooni eelmärgistamise ülesande näidis: smgt-ner-post-labeling-task-lambda.py Alates https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py

Looge AWS-i halduskonsoolist eelmärgistusülesande Lambda funktsioon:
- Liigu Lambda
- valima Create function
- Täpsustama Function name as smgt-ner-pre-labeling-task-lambda
- valima Runtime → Python 3.6
- valima Create function
- In Function code → lambda_hanadler.py, kleepige sisu smgt-ner-pre-labeling-task-lambda.py
- valima Deploy
Looge AWS-i halduskonsoolist märgistamisjärgse ülesande Lambda funktsioon:
- Liigu Lambda
- valima Create function
- Täpsustama Function name as smgt-ner-post-labeling-task-lambda
- valima Runtime → Python 3.6
- Laiendama Change default execution role
- valima Create a new role from AWS policy templates
- Märkida Role name: smgt-ner-post-labeling-task-lambda-role
- valima Create function
- Valige Permissions tab
- Valige Role name: smgt-ner-post-labeling-task-lambda-role IAM-konsooli avamiseks
- Lisage rollile kaks poliitikat
  - valima Attach policies
  - Kinnitage AmazonS3FullAccess poliitika
  - valima Add inline policy
  - Valige JSON tab
  - Kleepige sisse järgmised tekstisisesed eeskirjad:
```
{ "Version": "2012-10-17", "Statement": { "Effect": "Allow", "Action": "sts:AssumeRole", "Resource": "arn:aws:iam::YOUR_ACCOUNT_NUMBER:role/service-role/AmazonSageMaker-ExecutionRole-*" }
}
```
- Navigeerige tagasi lehele smgt-ner-post-labeling-task-lambda Lambda funktsiooni konfiguratsioonileht
- Valige Configuration tab
- In Function code → lambda_hanadler.py, kleepige sisu smgt-ner-post-labeling-task-lambda.py
- valima Deploy

Looge Ground Truthi märgistamistöö

AWS-i halduskonsoolist:

Liikuge Amazon SageMaker teenus
Liigu Ground Truth → Labeling Jobs.
valima Create labeling job
Täpsustage a Job Name
valima Manual Data Setup
Määrake sisendandmestiku asukoht, kuhu laadisite sisendmanifesti varem üles (nt s3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl)
Määrake väljundandmestiku asukoht, et osutada samas ämbris olevale teisele kaustale (nt s3://your-bucket/ner-output/)
Määrake an IAM Role valides Create new role
- Lubage sellel rollil pääseda juurde mis tahes S3 ämbrile, valides S3 buckets you specify → Any S3 bucket poliitika loomisel
- Avage uues AWS-i halduskonsooli aknas IAM konsool ja valige Roles
- Otsige just loodud rolli nime (näiteks AmazonSageMaker-ExecutionRole-20210301T154158)
- Valige rolli nimi, et roll konsoolis avada
- Lisage järgmised kolm reeglit.
  - Valige Manusta eeskirjad
  - Kinnitage AWSLambda_FullAccess rolli juurde
  - valima Trust Relationships → Edit Trust Relationships
  - Muutke usaldussuhte JSON-i,
  - asendama YOUR_ACCOUNT_NUMBER oma numbrilise AWS-i kontonumbriga, et lugeda:
```
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "sagemaker.amazonaws.com" }, "Action": "sts:AssumeRole" }, { "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::YOUR_ACCOUNT_NUMBER:role/service-role/smgt-ner-post-labeling-task-lambda-role" }, "Action": "sts:AssumeRole" } ]
}
```
  - Salvestage usaldussuhe
Naaske uue Ground Truthi töö juurde eelmises AWS-i halduskonsooli aknas: all Task Categoryvalige Custom
valima Next
valima Worker types: Private
Valige Private team : ner-worker-team mis loodi eelmises jaotises
aasta Custom labeling task setup tekstiala, tühjendage vaikesisu ja kleepige selle sisu worker-template.liquid.html varem saadud fail
Märkida Pre-labeling task Lambda function eelnevalt loodud funktsiooniga: smgt-ner-pre-labeling
Märkida Post-labeling task Lambda function varem loodud funktsiooniga: smgt-ner-post-labeling
valima Create

Tehke dokumentidele märkused

Kui töö Ground Truth on loodud, saame hakata dokumentidele märkusi tegema. Avage meie varem loodud töötajate portaal (AWS-i halduskonsoolis navigeerige saidile SageMaker , Ground Truth → Labeling workforces, Privateja avage Labeling portal sign-in URL )

Logige sisse ja valige tabelist esimene märgistamisülesanne ning seejärel valige annotaatori avamiseks "Alusta tööd". Tehke oma märkused ja valige kõigi kolme näidisdokumendi kohta Esita.

Vaadake tulemused üle

Kui Ground Truthi annotaatorid ülesandeid täidavad, on tulemused saadaval väljund S3 ämbris:

s3://your-bucket/path-to-your-ner-job/annotations/worker-response/iteration-1/0/

Kui kõik märgistamistöö ülesanded on lõpetatud, on konsolideeritud väljund saadaval output.manifest fail asub siin:

s3://your-bucket/path-to-your-ner-job/manifests/output/output.manifest

See väljundmanifest on JSON-ridade fail, mille rea kohta on üks märkustega tekstidokument eelnevalt määratud „Väljunddokumendi vormingus”. See fail ühildub sisenddokumendi vorminguga ja selle saab järgmise annotatsioonivooru jaoks otse järgmisesse Ground Truthi töösse sisestada. Teise võimalusena saab selle sõeluda ja saata ML-i koolitustööle. Mõned stsenaariumid, mille puhul võiksime kasutada teist märkuste ringi, on järgmised:

Annotatsiooniprotsessi jagamine kaheks etapiks, kus esimene annotaator tuvastab olemi annotatsioonid ja teine märkija loob seosed
Meie proovi võtmine output.manifest ja saata see kvaliteedikontrolli kontrolliks ülevaatamiseks teisele, kogenumale annotaatorile

Kohandatud Ground Truth märkuste mallid

Selles dokumendis kirjeldatud NER-i annotatsioonitööriist on rakendatud kohandatud Ground Truthi annotatsioonimallina. AWS-i kliendid saavad luua oma kohandatud märkuste liidesed, kasutades juhiseid, mis leiate siit:

Järeldus

Koostöös suutsid Booking.com ja Amazon MLSL välja töötada võimsa tekstimärkuste tööriista, mis on võimeline looma keerulisi nimega üksuste tuvastamise ja seoste märkusi.

Julgustame AWS-i kliente, kellel on NER-i tekstimärkuste kasutusjuht, proovima selles postituses kirjeldatud tööriista. Kui soovite abi ML-i kasutamise kiirendamisel oma toodetes ja teenustes, võtke ühendust Amazoni masinõppelahenduste labor.

Autoritest

Dan Noble on Amazoni tarkvaraarenduse insener, kus ta aitab luua meeldivaid kasutajakogemusi. Vabal ajal meeldib talle lugeda, trenni teha ja perega seikleda.

Pri Nonis on süvaõppearhitekt Amazon ML Solutions Labis, kus ta töötab klientidega erinevatest vertikaalidest ja aitab neil kiirendada pilverände teekonda ning lahendada ML-probleeme, kasutades tipptasemel lahendusi ja tehnoloogiaid.

Niharika Jayanthi on AWS-i esiotsa insener, kus ta töötab välja kohandatud annotatsioonilahendusi Amazon SageMakeri klientidele. Töövälisel ajal meeldib talle muuseumides käia ja trenni teha.

Amit Beka on masinõppejuht ettevõttes Booking.com, kellel on üle 15-aastane tarkvaraarenduse ja masinõppe kogemus. Ta on lummatud inimestest ja keeltest ning sellest, kuidas arvutid on siiani mõlemast hämmingus.

Allikas: https://aws.amazon.com/blogs/machine-learning/labeling-text-for-aspect-based-sentiment-analysis-using-sagemaker-ground-truth/

Ajatempel: Jaanuar 14, 2022

Ajatempel: Mar 9, 2021

Sildi tekst aspektipõhise sentimentianalüüsi jaoks, kasutades SageMaker Ground Truthi

Taasavaldanud Platon

Kliendi kasutusjuht: Booking.com

Nõuded märgistamisele

Annotatsiooni näidis

NER-i märkuste tööriista konfigureerimine

Sisenddokumendi vorming

Väljunddokumendi vorming

Ruunide märkus:

NER-i märkuste esitamine põhitõega

NER tööriista ressursid

Tööjõu loomise märgistamine

Sisestusmanifest

Laadige sisestusmanifest üles Amazon S3-sse

Laadige alla kohandatud töötaja mall

Looge eelmärgistusülesande ja märgistamisjärgse ülesande lambdafunktsioonid

Looge Ground Truthi märgistamistöö

Tehke dokumentidele märkused

Vaadake tulemused üle

Kohandatud Ground Truth märkuste mallid

Järeldus

Autoritest

Veel alates AWS-i masinõppe ajaveeb

Looge oma kaubamärgi tuvastamine ja nähtavus Amazon SageMaker Ground Truthi ja Amazon Rekognitioni kohandatud siltide abil – 2. osa: koolitus- ja analüüsi töövood

Lihtsustage andmete märkimist ja modelleerige koolitusülesandeid Amazon Rekognitioni kohandatud siltidega

Turvaline juurdepääs Amazon SageMaker Studiole AWS SSO ja SAML-rakendusega

Rakendage kontrollpunkti määramist TensorFlow abil Amazon SageMakeri hallatava kohakoolituse jaoks

Automatiseerige pidevat mudeli täiustamist Amazon Rekognitioni kohandatud siltide ja Amazon A2I: 2. osa abil

Kasutage arvutinägemist põllukultuuride haiguste tuvastamiseks pildianalüüsi abil Amazon Rekognitioni kohandatud siltide abil

Kasutage süvaõppe raamistikke algselt rakenduses Amazon SageMaker Processing

Amazon Polly integreerimine IVR-i pärandsüsteemidega, teisendades väljundi WAV-vormingusse

Pakkuge Amazon Connecti, Amazon Lexi ja Salesforce'i abil isikupärastatud klienditoe kogemusi

Amazon Comprehendi kohandatud klassifitseerimismudelite aktiivõppe töövoog – 2. osa

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto