Enterprise Data Labeling For LLM Development - DATAVERSITY

Taasavaldanud Platon

järgijaid: 0

Ajastul, mil suured keelemudelid (LLM-id) defineerivad tehisintellekti digitaalset suhtlust uuesti, kerkib ülimalt esile täpsete, kvaliteetsete ja asjakohaste andmete märgistamise kriitilisus. See tähendab, et andmemärgistajad ja nende üle järelevalvet teostavad müüjad peavad andmekvaliteedi sujuvalt ühendama inimeste teadmiste ja eetiliste töötavadega. LLM-ide andmehoidlate loomine nõuab mitmekesist ja domeenispetsiifilist asjatundlikkust. Sellisena annab see andmemüüjatele võimaluse pühenduda tugeva ekspertide meeskonna loomisele ja väärtustada nii oma teadmiste edasiandmist kogu andmesildistamise projekti vältel kui ka andmete taga olevaid inimesi.

Tehisintellektil põhineva innovatsiooni tulevikku kujundavad jätkuvalt tehnoloogia taga olevad üksikisikud. Seetõttu on meil moraalne vastutus edendada eetiline AI arendustavad, sealhulgas meie lähenemisviis andmete märgistamisele.

Arvestades seda hiljutist meremuutust ja keskendumist LLM-idele, oleme näinud (vähemalt) viit kriitilist suundumust, mis on tehisintellekti tuleviku alustalaks, kui arvestame inimeste mõju arenevatele tehnoloogiatele.

1. Pühendumine andmete tipptasemele: Mõiste andmete kvaliteedi liigne kogus on jätkuvalt asjakohane ajastul, mil andmete märgistamise nõuded puudutavad täpsust, kaitset ja praktikat. Andmete kogumist ja annoteerimist peavad toetama tipptasemel anonüümseks muutmise protsessid minimaalse eelarvamusega. Kallutatust saab minimeerida ainult põhjaliku annotaatorikoolituse abil, mida toetavad regulaarsed auditid ja tagasisidetsüklid, mida toidavad uusimad rakendussüsteemid, et tugevdada andmete terviklikkust ja usaldusväärsust.

2. Peenhäälestus ja spetsialiseerumine domeeni spetsiifilisusele: Igal tööstusharul on spetsiifilised keele- ja märgistamisnõuded ning spetsialiseerumisalad, nt meditsiinidiagnostika vestlusbot. Domeenispetsiifiline peenhäälestus joondab andmete annotatsiooni tavad konkreetsete tööstusharude nüanssidega, nagu tervishoid, rahandus või tehnika. Et masinõppemudelid ja analüütika oleks tõhusad, peavad need põhinema domeeniga seotud andmetel, et saavutada paremaid tulemusi teostatava ülevaatega.

3. Inforcement learning with Human Feedback (RLHF) rakendamine. Inimahela tagasiside on masinõppe mudelite iteratiivse arengu tagamiseks hädavajalik. Tehisintellekti arvutuslikke tugevusi peab kahandama inimekspertide kvalitatiivne hinnang, et luua dünaamiline õppemehhanism, mille tulemuseks on jõulised, täiustatud ja vastupidavad AI mudelid. See dünaamiline õppemehhanism ühendab tehisintellekti arvutuslikud tugevused inimekspertide kvalitatiivsete hinnangutega, mille tulemuseks on tugevad, täiustatud ja vastupidavad AI mudelid.

4. Intellektuaalomandi ja eetiliste andmete aluste austamine: Intellektuaalomandi austamine on digitaalse teabe ajastul ülimalt oluline. Kuna organisatsioonid jätkavad kommertskontekstide jaoks andmekogumite koostamist, on järjest olulisem seada esikohale andmete autentsus ja edendada kõrgeimaid eetilisi standardeid. AI-mudeleid tuleb koolitada ehtsate ja eetiliselt saadud andmete põhjal. See lähenemisviis viib tehnoloogilised edusammud vastavusse moraalse vastutusega.

5. Erinevate annotatsioonimeeskondade kasutamine ülemaailmse asjakohasuse edendamiseks: AI tegutseb globaalsel turul, kus andmete annotatsioon nõuab globaalset perspektiivi. Andmete märgistamiseks on vaja mitmekesist (inim)annotaatorite kogumit, mis hõlmavad eri kultuure, keeli ja tausta, tagades esindatuse erineva keelelise, akadeemilise ja kultuurilise taustaga. Mitmekesisuse rakendamine andmete märgistamisel tabab globaalseid nüansse, nii et tehisintellektisüsteemid on universaalsemalt pädevad ja kultuuriliselt tundlikumad.

Arenevad tehisintellekti andmete märgistamise tavad tähistavad tehnoloogia uut lähenemist ja inimahelas põhinevat lähenemist. Seetõttu on oluline, et tänapäeva andmeteadlased võitleksid andmete kvaliteedi, eetiliste tavade ja mitmekesisuse eest, kutsudes samal ajal sidusrühmi meiega ühinema, et kujundada kaasavat ja uuenduslikku tehisintellekti tulevikku.