Amazon Machine Learning Solutions Lab (MLSL) lõi hiljuti tööriista nimelise üksuse tuvastamise (NER) ja seose siltidega teksti märkimiseks. Amazon SageMaker Ground Truth. Annotaatorid kasutavad seda tööriista teksti nimega olemitega märgistamiseks ja nende suhete linkimiseks, luues seeläbi andmestiku moodsate loomuliku keele töötlemise (NLP) masinõppe (ML) mudelite koolitamiseks. Kõige tähtsam on see, et see on nüüd kõigile AWS-i klientidele avalikult saadaval.
Kliendi kasutusjuht: Booking.com
Booking.com on üks maailma juhtivaid online-reisiplatvorme. Tipptasemel kliendikogemuse säilitamiseks on oluline mõista, mida kliendid ettevõtte 28 miljoni üle platvormi kinnisvara kohta räägivad. Varem sai Booking.com kasutada klientide loodud arvustuste ulatuslikuks tõlgendamiseks ainult traditsioonilist meeleoluanalüüsi. Nende tõlgenduste spetsiifilisuse täiendamiseks pöördus Booking.com hiljuti MLSL-i poole, et saada abi kohandatud annoteeritud andmestiku koostamiseks aspektipõhise sentimentaalanalüüsi mudeli koolitamiseks.
Traditsiooniline sentimentianalüüs on protsess, mille käigus liigitatakse tekstiosa positiivseks, negatiivseks või neutraalseks kui a ainulaadne sentiment. See aitab üldjoontes mõista, kas kasutajad on konkreetse kogemusega rahul või mitte. Näiteks traditsioonilise tundeanalüüsi korral võib järgmise teksti liigitada neutraalseks:
Meie viibimine hotellis oli tore. Personal oli sõbralik ja toad puhtad, kuid meie voodid olid üsna ebamugavad.
Aspektipõhine sentimentianalüüs pakub sisust nüansirikkamat arusaama. Booking.com-i puhul võib selle asemel, et võtta kliendi arvustust tervikuna ja liigitada seda kategooriliselt, võtta arvustuse seest lähtuv sentiment ja määrata see konkreetsetele aspektidele. Näiteks võivad klientide arvustused antud hotelli kohta kiita laitmatut basseini ja spordiala, kuid anda kriitilist tagasisidet restorani ja salongi kohta.
Väide, mis oleks traditsioonilise sentimentianalüüsi järgi klassifitseeritud neutraalseks, muutub aspektipõhise sentimentanalüüsiga:
Meie viibimine hotellis oli tore. Personal oli sõbralik ja toad puhtad, kuid meie voodid olid üsna ebamugavad.
- Hotell: positiivne
- Personal: positiivne
- Tuba: positiivne
- Voodid: negatiivsed
Priceline positiivne, negatiivnevõi neutraalne.
Enne kui Booking.com suutis selle mudeli jaoks koolitusandmestiku koostada, vajasid nad viisi selle märkuste tegemiseks. MLSL-i annotatsioonitööriist pakkus väga vajalikku kohandatud lahendust. Inimeste ülevaatus tehti suurele hotelliarvustustele. Seejärel koostasid annotaatorid enne sobivate vahemike ühendamist tunde ja külaliste kogemuse tekstivahemike ja fraaside kohta nimelise olemi märkuse.
Uus aspektipõhine mudel võimaldab Booking.com-il oma klientide jaoks isikupärastada nii majutusi kui ka arvustusi. Iga majutuskoha positiivsete ja negatiivsete külgede esiletõstmine võimaldab klientidel valida endale sobivaima. Lisaks hoolivad erinevad kliendid majutuse erinevatest aspektidest ning uus mudel avab võimaluse näidata igaühele kõige asjakohasemaid arvustusi.
Nõuded märgistamisele
Kuigi Ground Truth pakub sisseehitatud NER-i tekstimärkuste tegemise võimalust, ei paku see võimalust olemeid omavahel siduda. Seda silmas pidades töötasid Booking.com ja MLSL välja järgmised kõrgetasemelised nõuded uue nimega olemi tuvastamise teksti sildistamise tööriista jaoks, mis:
- Aktsepteerib sisendiks: tekst, olemi sildid, suhtesildidja klassifikatsioonisildid.
- Valikuliselt aktsepteerib sisendandmetena eelmärkusega andmeid koos eelneva sildi ja seose märkustega.
- Esitab annotaatori kas märkusteta või eelmärkusteta tekstiga.
- Võimaldab annotaatoritel olemisildiga suvalist teksti esile tõsta ja annoteerida.
- Võimaldab annotaatoritel luua seoseid kahe olemimärkuse vahel.
- Võimaldab annotaatoritel hõlpsalt navigeerida suure hulga olemi siltide vahel.
- Toetab olemi siltide rühmitamist kategooriatesse.
- Luba kattuvaid seoseid, mis tähendab, et sama annoteeritud tekstilõik võib olla seotud rohkem kui ühe teise kommenteeritud tekstisegmendiga.
- Lubab kattuvaid olemi siltide märkusi, mis tähendab, et kaks märkust võivad sama tekstiosa kattuda. Näiteks tekstil "Seattle Space Needle" võivad olla nii märkused "Seattle" → "asukohad" kui ka "Seattle Space Needle" → "atraktsioonid".
- Väljundvorming ühildub sisendvorminguga ja seda saab edasistesse märgistamistoimingutesse tagasi suunata.
- Toetab UTF-8 kodeeritud teksti, mis sisaldab emotikone ja muid mitmebaidiseid märke.
- Toetab vasakult paremale kirjutatavaid keeli.
Annotatsiooni näidis
Kaaluge järgmist dokumenti:
Meile meeldis selle hotelli asukoht! Katusesalong andis meile täiusliku vaate ruuminõelale. See on ka lühikese autosõidu kaugusel haugiplatsi turust ja rannast.
Toit oli saadaval ainult toateeninduse kaudu, mis valmistas veidi pettumust, kuid on selles pandeemiajärgses maailmas mõistlik.
Üldiselt mõistliku hinnaga kogemus.
Selle dokumendi laadimisel uude NER-i annotatsiooni kuvatakse töötajale järgmine liides:
Sel juhul on töötaja ülesanne:
- Märgistage kinnisvaraga seotud üksused (asukoht, hind, toit jne)
- Märgistage meeleoluga seotud üksused (positiivsed, negatiivsed või neutraalsed)
- Linkige kinnisvaraga seotud nimelised olemid sentimentidega seotud märksõnadega, et külaliste kogemust täpselt jäädvustada
Märkuste kiirus oli tööriista juures oluline kaalutlus. Intuitiivsete kiirklahvide ja hiireliigutuste jada abil saavad annotaatorid liidest juhtida ja:
- Lisage ja eemaldage nimega olemi märkusi
- Lisage seoseid nimetatud üksuste vahel
- Hüppa dokumendi algusesse ja lõppu
- Esitage dokument
Lisaks on olemas kattuvate siltide tugi. Näiteks, Seattle Space Needle
: selles lauses Seattle
on märgitud nii asukohana kui ka vaatamisväärsuse nime osana.
Valminud annotatsioon annab täielikuma ja nüansirikkama andmete analüüsi:
Seoseid saab konfigureerida mitmel tasandil, alates olemikategooriatest kuni muude olemikategooriateni (näiteks alates "toit" kuni "tunne") või üksikute olemitüüpide vahel. Suhted on suunatud, nii et annotaatorid saavad siduda aspekti, nagu toit, meeleoluga, kuid mitte vastupidi (kui see pole selgesõnaliselt lubatud). Seoste joonistamisel tuletab märkuste tööriist automaatselt seose sildi ja suuna.
NER-i märkuste tööriista konfigureerimine
Selles jaotises käsitleme, kuidas kohandada NER-i märkuste tööriista kliendipõhiste kasutusjuhtude jaoks. See hõlmab konfigureerimist:
- Annoteeritav sisendtekst
- Üksuste sildid
- Suhtesildid
- Klassifikatsioonisildid
- Eelmärkusega andmed
- Töötaja juhised
Käsitleme sisend- ja väljunddokumendi vormingute eripärasid ning toome igaühe kohta mõned näited.
Sisenddokumendi vorming
NER-i märkimistööriist ootab järgmist JSON-vormingus sisenddokumenti (väljad, mille nime kõrval on küsimärk, on valikulised).
Lühidalt öeldes on sisendvormingul järgmised omadused:
- Kumbki
entityLabels
orclassificationLabels
(või mõlemad) on kohustatud märkima. - If
entityLabels
antakse siisrelationshipLabels
saab lisada. - Seosed võivad olla lubatud erinevate olemi/kategooria siltide või nende segude vahel.
- Seose "allikas" on olem, millega suunatud nool algab, samas kui "sihtmärk" on see, kuhu see suundub.
Väli | KASUTUSALA | Kirjeldus |
tekst | nöör | Nõutud. Sisestage annotatsiooni tekst. |
tokenRows | string[][] | Valikuline. Sisendteksti kohandatud märgistamine. Massiivi stringide massiiv. Tipptaseme massiiv tähistab iga tekstirida (reavahetused) ja teise taseme massiiv tähistab iga rea märke. Kõik sisendteksti märgid/ruunid tuleb arvesse võtta tokenRows, sealhulgas tühik. |
dokumendi ID | nöör | Valikuline. Valikuline väärtus klientidele märkuste tegemisel dokumendi jälgimiseks. |
entityLabels | objekt[] | Nõutav, kui ClassificationLabels on tühi. Olemi siltide massiiv. |
entityLabels[].name | nöör | Nõutud. Olemi sildi kuvatav nimi. |
entityLabels[].category | nöör | Valikuline. Olemi sildi kategooria nimi. |
entityLabels[].shortName | nöör | Valikuline. Kuvage see tekst täisnime asemel annoteeritud üksuste kohal. |
entityLabels[].shortCategory | nöör | Valikuline. Kuva see tekst olemi annotatsiooni rippmenüüs kategooria nime nelja esimese tähe asemel. |
entityLabels.color | nöör | Valikuline. Kuueteistkümnendvärvikood koos „#” eesliitega. Kui see on tühi, määrab see olemisildile automaatselt värvi. |
suhtesildid | objekt[] | Valikuline. Suhtesiltide hulk. |
suheLabels[].nimi | nöör | Nõutud. Seosesildi kuvatav nimi. |
relationLabels[].allowedRelationships | objekt[] | Valikuline. Väärtuste massiiv, mis piirab seda, millist tüüpi allika ja sihtkoha olemi siltidele saab selle seose määrata. Iga massiivi üksus on "OR" koos. |
relationLabels[].allowedRelationships[].sourceEntityLabelCategories | string[] | Nõutav kas sourceEntityLabelCategories või sourceEntityLabels (või mõlema) määramiseks. Selle seose juriidilise lähteüksuse sildi kategooriatüüpide loend. |
relationLabels[].allowedRelationships[].targetEntityLabelCategories | string[] | Nõutav kas targetEntityLabelCategories või targetEntityLabels (või mõlema) määramiseks. Selle suhte juriidilise sihtüksuse sildi kategooriatüüpide loend. |
relationLabels[].allowedRelationships[].sourceEntityLabels | string[] | Nõutav kas sourceEntityLabelCategories või sourceEntityLabels (või mõlema) määramiseks. Selle seose juriidilise lähteüksuse sildi tüüpide loend. |
relationLabels[].allowedRelationships[].sourceEntityLabels | string[] | Nõutav kas targetEntityLabelCategories või targetEntityLabels (või mõlema) määramiseks. Selle suhte juriidiliste sihtüksuste silditüüpide loend. |
klassifikatsioonEtiketid | string[] | Nõutav, kui entityLabels on tühi. Dokumenditaseme klassifikatsioonisiltide loend. |
entityAnnotations | objekt[] | Valikuline. Olemi märkuste massiiv sisendteksti eelmärkuste tegemiseks. |
entityAnnotations[].id | nöör | Nõutud. Selle olemi annotatsiooni kordumatu identifikaator. Kasutatakse sellele olemile viitamiseks jaotises relationAnnotations. |
entityAnnotations[].start | number | Nõutud. Käivitage selle olemi märkuse ruuninihe. |
entityAnnotations[].end | number | Nõutud. Selle olemi märkuse ruuni lõpu nihe. |
entityAnnotations[].text | nöör | Nõutud. Teksti sisu ruuni alguse ja lõpu nihke vahel. |
entityAnnotations[].label | nöör | Nõutud. Seotud olemi sildi nimi (entityLabelsi nimedest). |
entityAnnotations[].labelCategory | nöör | Valikuline.Seotud olemi sildi kategooria (olemisiltide kategooriatest). |
suheMärkused | objekt[] | Valikuline. Suhtemärkuste hulk. |
relationAnnotations[].sourceEntityAnnotationId | nöör | Nõutud. Selle seose lähteüksuse märkuse ID. |
relationAnnotations[].targetEntityAnnotationId | nöör | Nõutud. Selle seose sihtüksuse märkuse ID. |
suheAnnotatsioonid[].silt | nöör | Nõutud. Seotud suhtesildi nimi. |
klassifikatsioonMärkused | string[] | Valikuline. Klassifikatsioonide massiiv, millega dokumendile eelmärkused lisada. |
meta | objekt | Valikuline. Täiendavad konfiguratsiooniparameetrid. |
meta.juhised | nöör | Valikuline. Märgistusannotaatori juhised Markdowni vormingus. |
meta.disableSubmitConfirmation | loogiline | Valikuline. Kinnituse esitamise modaali keelamiseks määrake väärtuseks Tõene. |
meta.multiClassification | loogiline | Valikuline. Määrake väärtuseks Tõene, et lubada mitme sildi režiimi klassifitseerimise siltide jaoks. |
Siin on mõned näidisdokumendid selle sisendvormingu paremaks mõistmiseks
Sellele skeemile vastavad dokumendid esitatakse Ground Truthile sisendmanifesti üksikute reaüksustena.
Väljunddokumendi vorming
Väljundvorming on loodud hõlpsalt tagasisidet andma uuele annotatsiooniülesandele. Väljunddokumendi valikulised väljad on määratud, kui need on määratud ka sisenddokumendis. Ainus erinevus sisend- ja väljundvormingu vahel on meta
objekt
Väli | KASUTUSALA | Kirjeldus |
meta.tõrjutud | loogiline | Määratakse väärtuseks Tõene, kui annotaator lükkas selle dokumendi tagasi. |
meta.rejectedReason | nöör | Annotaatori poolt dokumendi tagasilükkamise põhjus. |
meta.ruunid | string[] | Ruunide massiiv, mis kajastab kõiki sisendteksti märke. Kasutatakse olemi annotatsiooni alguse ja lõpu nihete arvutamiseks. |
Siin on väljunddokumendi näidis, millele on lisatud märkused:
Ruunide märkus:
"Ruun" on selles kontekstis üks esiletõstetav märk tekstis, sealhulgas mitmebaidised märgid, näiteks emotikonid.
- Kuna erinevad programmeerimiskeeled esindavad mitmebaidiseid märke erinevalt, tähendab „Ruunide” kasutamine iga esiletõstmisvõimelise tähemärgi ühe aatomielemendina määratlemiseks, et meil on ühemõtteline viis mis tahes tekstivaliku kirjeldamiseks.
- Näiteks Python käsitleb Rootsi lippu nelja tähemärgina:
Kuid JavaScript käsitleb sama emotikone kahe tähemärgina
Ebaselguse kõrvaldamiseks käsitleme Rootsi lippu (ja kõiki muid emotikone ja mitmebaidiseid märke) ühe aatomielemendina.
- Nihe: ruuni asukoht sisendteksti suhtes (alates indeksist 0)
NER-i märkuste esitamine põhitõega
Täielikult hallatava andmesilditeenusena koostab Ground Truth ML-i jaoks koolitusandmekogumeid. Sel kasutusjuhul kasutame Ground Truthi tekstidokumentide kogumi saatmiseks töötajate kogumile märkuste tegemiseks. Lõpuks vaatame üle kvaliteedi.
Ground Truthi saab konfigureerida andmete sildistamise töö loomiseks, kasutades kohandatud mallina uut NER-tööriista.
Täpsemalt teeme:
- Looge märkuste tegemise ülesande täitmiseks töötajatest eramärgistuse tööjõud
- Looge Ground Truthi sisendmanifest dokumentidega, millele tahame märkmeid lisada, ja seejärel laadige see üles Amazon Simple Storage Service (Amazon S3)
- Looge eelmärgistusülesande ja märgistamisjärgse ülesande lambdafunktsioonid
- Looge Ground Truthi sildistamistöö, kasutades kohandatud NER-malli
- Tehke dokumentidele märkused
- Vaadake tulemused üle
NER tööriista ressursid
Viidatud ressursside ja näidisdokumentide täieliku loendi leiate järgmisest tabelist.
Tööjõu loomise märgistamine
Ground Truth kasutab töötajate haldamiseks ja ülesannete jaotamiseks SageMakeri märgistustööjõudu. Looge privaatne tööjõud, töötajate meeskond nimega ner-worker-team ja määrake end meeskonda, kasutades juhiseid, mis leiate Eratööjõu loomine (Amazon SageMakeri konsool).
Kui olete lisanud end eratööjõu hulka ja kinnitanud oma e-posti aadressi, märkige üles AWS-i halduskonsoolis olev töötajate portaali URL:
- Liigu
SageMaker
- Liigu
Ground Truth → Labeling workforces
- Valige
Private
tab - Pange tähele URL-i
Labeling portal sign-in URL
Märgistusülesannete vaatamiseks ja nendega töö alustamiseks logige sisse töötajate portaali.
Sisestusmanifest
Ground Truthi sisendandmete manifest on JSON-ridade fail, kus iga rida sisaldab ühte töötaja ülesannet. Meie puhul sisaldab iga rida ühte JSON-kodeeringuga sisenddokumenti, mis sisaldab teksti, mille tahame annoteerida, ja NER-i annotatsiooniskeemi.
Laadige alla sisendmanifesti näidis reviews.manifest
Alates https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest
märkused: sisestusmanifesti iga rida vajab ülataseme võtit source
or source-ref
. Saate rohkem teada saada Kasutage sisendmanifesti faili Amazon SageMakeri arendaja juhendis.
Laadige sisestusmanifest üles Amazon S3-sse
Laadige see sisendmanifest üles S3 ämbrisse, kasutades AWS-i halduskonsooli või käsurealt, asendades sellega your-bucket
tegeliku ämbri nimega.
Laadige alla kohandatud töötaja mall
Laadige NER-i tööriista kohandatud töötaja mall alla aadressilt https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html allikat vaadates ja sisu lokaalselt salvestades või käsurealt:
Looge eelmärgistusülesande ja märgistamisjärgse ülesande lambdafunktsioonid
Laadige alla Lambda funktsiooni eelmärgistamise ülesande näidis: smgt-ner-pre-labeling-task-lambda.py
Alates https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py
Laadige alla Lambda funktsiooni eelmärgistamise ülesande näidis: smgt-ner-post-labeling-task-lambda.py
Alates https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py
- Looge AWS-i halduskonsoolist eelmärgistusülesande Lambda funktsioon:
- Liigu
Lambda
- valima
Create function
- Täpsustama
Function name
assmgt-ner-pre-labeling-task-lambda
- valima
Runtime
→Python 3.6
- valima
Create function
- In
Function code
→lambda_hanadler.py
, kleepige sisusmgt-ner-pre-labeling-task-lambda.py
- valima
Deploy
- Liigu
- Looge AWS-i halduskonsoolist märgistamisjärgse ülesande Lambda funktsioon:
- Liigu
Lambda
- valima
Create function
- Täpsustama
Function name
assmgt-ner-post-labeling-task-lambda
- valima
Runtime
→Python 3.6
- Laiendama
Change default execution role
- valima
Create a new role from AWS policy templates
- Märkida
Role name
:smgt-ner-post-labeling-task-lambda-role
- valima
Create function
- Valige
Permissions
tab - Valige
Role name
:smgt-ner-post-labeling-task-lambda-role
IAM-konsooli avamiseks - Lisage rollile kaks poliitikat
- valima
Attach policies
- Kinnitage
AmazonS3FullAccess
poliitika - valima
Add inline policy
- Valige
JSON
tab - Kleepige sisse järgmised tekstisisesed eeskirjad:
- valima
- Navigeerige tagasi lehele
smgt-ner-post-labeling-task-lambda
Lambda funktsiooni konfiguratsioonileht - Valige
Configuration
tab - In
Function code
→ lambda_hanadler.py
, kleepige sisusmgt-ner-post-labeling-task-lambda.py
- valima
Deploy
- Liigu
Looge Ground Truthi märgistamistöö
AWS-i halduskonsoolist:
- Liikuge
Amazon SageMaker
teenus - Liigu
Ground Truth
→Labeling Jobs
. - valima
Create labeling job
- Täpsustage a
Job Name
- valima
Manual Data Setup
- Määrake sisendandmestiku asukoht, kuhu laadisite sisendmanifesti varem üles (nt s
3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl
) - Määrake väljundandmestiku asukoht, et osutada samas ämbris olevale teisele kaustale (nt
s3://your-bucket/ner-output/
) - Määrake an
IAM Role
validesCreate new role
- Lubage sellel rollil pääseda juurde mis tahes S3 ämbrile, valides
S3 buckets you specify
→Any S3 bucket
poliitika loomisel - Avage uues AWS-i halduskonsooli aknas
IAM
konsool ja valigeRoles
- Otsige just loodud rolli nime (näiteks
AmazonSageMaker-ExecutionRole-20210301T154158
) - Valige rolli nimi, et roll konsoolis avada
- Lisage järgmised kolm reeglit.
- Valige Manusta eeskirjad
- Kinnitage
AWSLambda_FullAccess
rolli juurde - valima
Trust Relationships
→Edit Trust Relationships
- Muutke usaldussuhte JSON-i,
- asendama
YOUR_ACCOUNT_NUMBER
oma numbrilise AWS-i kontonumbriga, et lugeda: - Salvestage usaldussuhe
- Lubage sellel rollil pääseda juurde mis tahes S3 ämbrile, valides
- Naaske uue Ground Truthi töö juurde eelmises AWS-i halduskonsooli aknas: all
Task Category
valigeCustom
- valima
Next
- valima
Worker types
:Private
- Valige
Private team
:ner-worker-team
mis loodi eelmises jaotises - aasta
Custom labeling task setup
tekstiala, tühjendage vaikesisu ja kleepige selle sisuworker-template.liquid.html
varem saadud fail - Märkida
Pre-labeling task Lambda function
eelnevalt loodud funktsiooniga:smgt-ner-pre-labeling
- Märkida
Post-labeling task Lambda function
varem loodud funktsiooniga:smgt-ner-post-labeling
- valima
Create
Tehke dokumentidele märkused
Kui töö Ground Truth on loodud, saame hakata dokumentidele märkusi tegema. Avage meie varem loodud töötajate portaal (AWS-i halduskonsoolis navigeerige saidile SageMaker
, Ground Truth → Labeling workforces
, Private
ja avage Labeling portal sign-in URL
)
Logige sisse ja valige tabelist esimene märgistamisülesanne ning seejärel valige annotaatori avamiseks "Alusta tööd". Tehke oma märkused ja valige kõigi kolme näidisdokumendi kohta Esita.
Vaadake tulemused üle
Kui Ground Truthi annotaatorid ülesandeid täidavad, on tulemused saadaval väljund S3 ämbris:
Kui kõik märgistamistöö ülesanded on lõpetatud, on konsolideeritud väljund saadaval output.manifest
fail asub siin:
See väljundmanifest on JSON-ridade fail, mille rea kohta on üks märkustega tekstidokument eelnevalt määratud „Väljunddokumendi vormingus”. See fail ühildub sisenddokumendi vorminguga ja selle saab järgmise annotatsioonivooru jaoks otse järgmisesse Ground Truthi töösse sisestada. Teise võimalusena saab selle sõeluda ja saata ML-i koolitustööle. Mõned stsenaariumid, mille puhul võiksime kasutada teist märkuste ringi, on järgmised:
- Annotatsiooniprotsessi jagamine kaheks etapiks, kus esimene annotaator tuvastab olemi annotatsioonid ja teine märkija loob seosed
- Meie proovi võtmine
output.manifest
ja saata see kvaliteedikontrolli kontrolliks ülevaatamiseks teisele, kogenumale annotaatorile
Kohandatud Ground Truth märkuste mallid
Selles dokumendis kirjeldatud NER-i annotatsioonitööriist on rakendatud kohandatud Ground Truthi annotatsioonimallina. AWS-i kliendid saavad luua oma kohandatud märkuste liidesed, kasutades juhiseid, mis leiate siit:
Järeldus
Koostöös suutsid Booking.com ja Amazon MLSL välja töötada võimsa tekstimärkuste tööriista, mis on võimeline looma keerulisi nimega üksuste tuvastamise ja seoste märkusi.
Julgustame AWS-i kliente, kellel on NER-i tekstimärkuste kasutusjuht, proovima selles postituses kirjeldatud tööriista. Kui soovite abi ML-i kasutamise kiirendamisel oma toodetes ja teenustes, võtke ühendust Amazoni masinõppelahenduste labor.
Autoritest
Dan Noble on Amazoni tarkvaraarenduse insener, kus ta aitab luua meeldivaid kasutajakogemusi. Vabal ajal meeldib talle lugeda, trenni teha ja perega seikleda.
Pri Nonis on süvaõppearhitekt Amazon ML Solutions Labis, kus ta töötab klientidega erinevatest vertikaalidest ja aitab neil kiirendada pilverände teekonda ning lahendada ML-probleeme, kasutades tipptasemel lahendusi ja tehnoloogiaid.
Niharika Jayanthi on AWS-i esiotsa insener, kus ta töötab välja kohandatud annotatsioonilahendusi Amazon SageMakeri klientidele. Töövälisel ajal meeldib talle muuseumides käia ja trenni teha.
Amit Beka on masinõppejuht ettevõttes Booking.com, kellel on üle 15-aastane tarkvaraarenduse ja masinõppe kogemus. Ta on lummatud inimestest ja keeltest ning sellest, kuidas arvutid on siiani mõlemast hämmingus.
Allikas: https://aws.amazon.com/blogs/machine-learning/labeling-text-for-aspect-based-sentiment-analysis-using-sagemaker-ground-truth/- '
- 100
- 11
- 7
- MEIST
- juurdepääs
- konto
- raamatupidamine
- üle
- tegevus
- lisamine
- Täiendavad lisad
- Materjal: BPA ja flataatide vaba plastik
- Amazon
- Amazoni masinõpe
- Amazon SageMaker
- Mitmetähenduslikkus
- analüüs
- PIIRKOND
- saadaval
- Saadaval kõigile
- AWS
- Algus
- on
- ehitama
- Ehitus
- mis
- juhtudel
- klassifikatsioon
- Cloud
- kood
- kogumine
- keeruline
- arvutid
- konfiguratsioon
- tasu
- konsool
- sisu
- sisu
- võiks
- loomine
- kriitiline
- Kliendi kogemus
- Kliendid
- andmed
- sügav õpe
- arendama
- arendaja
- & Tarkvaraarendus
- erinev
- dokumendid
- Ei tee
- kergesti
- mõju
- Emoji
- julgustama
- insener
- jms
- näide
- täitmine
- ootab
- kogemus
- Kogemused
- pere
- Toidetud
- tagasiside
- Valdkonnad
- Lõpuks
- esimene
- sobivus
- toit
- formaat
- avastatud
- täis
- funktsioon
- gif
- läheb
- külaline
- suunata
- aitama
- aitab
- siin
- Esile tõstma
- hotell
- Kuidas
- Kuidas
- HTTPS
- IAM
- rakendatud
- oluline
- Kaasa arvatud
- indeks
- eraldi
- IT
- JavaScript
- töö
- teekond
- Võti
- märgistamine
- Labels
- keel
- Keeled
- suur
- juhtivate
- Õppida
- õppimine
- Õigus
- Tase
- taset
- joon
- LINK
- Vedelik
- nimekiri
- Näita
- kohapeal
- liising
- otsin
- masinõpe
- juhtimine
- märk
- Turg
- Vastama
- Meta
- meeles
- ML
- mudel
- rohkem
- Muuseumid
- nimed
- Loomulik keel
- Natural Language Processing
- vaja
- nlp
- numbrid
- Pakkumised
- tasakaalustama
- Internetis
- avatud
- Avaneb
- Võimalus
- Muu
- Inimesed
- fraasid
- inimesele
- Platvormid
- Poliitika
- poliitika
- ujula
- Portal
- pandeemiajärgne
- võimas
- hind
- Peamine
- era-
- protsess
- Toodet
- Programming
- programmeerimiskeeled
- kinnisvara
- anda
- annab
- Python
- kvaliteet
- küsimus
- Lugemine
- Suhted
- Nõuded
- ressurss
- Vahendid
- restoran
- Tulemused
- läbi
- Arvustused
- Toad
- salveitegija
- säästmine
- Skaala
- tunne
- tunne
- Teenused
- komplekt
- Lühike
- lihtne
- So
- tarkvara
- tarkvaraarenduse
- Lahendused
- LAHENDAGE
- Ruum
- kiirus
- algus
- väljavõte
- jääma
- ladustamine
- toetama
- sihtmärk
- Tehnoloogiad
- Allikas
- aeg
- kokku
- Tokeniseerimine
- märgid
- tööriist
- ülemine
- tipptasemel
- jälgida
- traditsiooniline
- koolitus
- reisima
- käsitlema
- kohtleb
- Usalda
- us
- Kasutajad
- väärtus
- versioon
- vaade
- M
- jooksul
- Töö
- töötas
- töötajate
- Tööjõud
- töö
- trenni tegema
- töötab
- maailm
- maailma
- oleks
- aastat