Het oplossen van een machine-learning mysterie

Het oplossen van een machine-learning mysterie

Bronknooppunt: 1944875
07 februari 2023 (Nanowerk Nieuws) Grote taalmodellen zoals GPT-3 van OpenAI zijn enorme neurale netwerken die mensachtige tekst kunnen genereren, van poëzie tot programmeercode. Deze machinale leermodellen zijn getraind met behulp van grote hoeveelheden internetgegevens en nemen een klein stukje invoertekst en voorspellen vervolgens de tekst die waarschijnlijk als volgende zal komen. Maar dat is niet alles wat deze modellen kunnen doen. Onderzoekers onderzoeken een merkwaardig fenomeen dat bekend staat als in-context learning, waarbij een groot taalmodel een taak leert volbrengen nadat hij slechts een paar voorbeelden heeft gezien – ondanks het feit dat het niet voor die taak is getraind. Iemand kan het model bijvoorbeeld een aantal voorbeeldzinnen en hun sentimenten (positief of negatief) geven, en het vervolgens met een nieuwe zin aanzetten, waarna het model het juiste sentiment kan weergeven. Normaal gesproken zou een machinaal leermodel zoals GPT-3 opnieuw moeten worden getraind met nieuwe gegevens voor deze nieuwe taak. Tijdens dit trainingsproces werkt het model zijn parameters bij terwijl het nieuwe informatie verwerkt om de taak te leren. Maar bij in-context leren worden de parameters van het model niet bijgewerkt, waardoor het lijkt alsof het model een nieuwe taak leert zonder ook maar iets te leren. Wetenschappers van MIT, Google Research en Stanford University streven ernaar dit mysterie te ontrafelen. Ze bestudeerden modellen die sterk lijken op grote taalmodellen om te zien hoe ze kunnen leren zonder parameters bij te werken. De theoretische resultaten van de onderzoekers laten zien dat deze enorme neurale netwerkmodellen kleinere, eenvoudigere lineaire modellen erin kunnen bevatten. Het grote model zou dan een eenvoudig leeralgoritme kunnen implementeren om dit kleinere, lineaire model te trainen om een ​​nieuwe taak te voltooien, waarbij alleen de informatie wordt gebruikt die al in het grotere model aanwezig is. De parameters ervan blijven vast. Dit onderzoek is een belangrijke stap in de richting van het begrijpen van de mechanismen achter in-context leren en opent de deur naar meer onderzoek rond de leeralgoritmen die deze grote modellen kunnen implementeren, zegt Ekin Akyürek, een afgestudeerde student computerwetenschappen en hoofdauteur van een artikel (“What learning algorithm is in-context learning? Investigations with linear models”) onderzoekt dit fenomeen. Met een beter begrip van in-context leren zouden onderzoekers modellen in staat kunnen stellen nieuwe taken uit te voeren zonder de noodzaak van dure herscholing. “Als je deze modellen wilt verfijnen, moet je doorgaans domeinspecifieke gegevens verzamelen en ingewikkelde engineering uitvoeren. Maar nu kunnen we het gewoon een input geven, vijf voorbeelden, en het bereikt wat we willen. Leren in de context is dus een behoorlijk opwindend fenomeen”, zegt Akyürek. Naast Akyürek op het papier zijn Dale Schuurmans, onderzoeker bij Google Brain en hoogleraar informatica aan de Universiteit van Alberta; evenals senior auteurs Jacob Andreas, assistent-professor van het X Consortium bij de MIT-afdeling Elektrotechniek en Computerwetenschappen en lid van het MIT Computer Science and Artificial Intelligence Laboratory (CSAIL); Tengyu Ma, assistent-professor computerwetenschappen en statistiek aan Stanford; en Danny Zhou, hoofdwetenschapper en onderzoeksdirecteur bij Google Brain. Het onderzoek zal worden gepresenteerd op de International Conference on Learning Representations.

Een model binnen een model

In de onderzoeksgemeenschap op het gebied van machinaal leren zijn veel wetenschappers gaan geloven dat grote taalmodellen in-context leren kunnen uitvoeren vanwege de manier waarop ze zijn getraind, zegt Akyürek. GPT-3 heeft bijvoorbeeld honderden miljarden parameters en is getraind door enorme hoeveelheden tekst op internet te lezen, van Wikipedia-artikelen tot Reddit-berichten. Dus als iemand de modelvoorbeelden van een nieuwe taak laat zien, heeft hij of zij waarschijnlijk al iets soortgelijks gezien, omdat de trainingsdataset tekst van miljarden websites bevatte. Het herhaalt patronen die het tijdens de training heeft gezien, in plaats van nieuwe taken te leren uitvoeren. Akyürek veronderstelde dat leerlingen in de context niet alleen eerder geziene patronen matchen, maar in plaats daarvan daadwerkelijk nieuwe taken leren uitvoeren. Hij en anderen hadden geëxperimenteerd door deze modellen aanwijzingen te geven met behulp van synthetische gegevens, die ze nergens eerder hadden kunnen zien, en ontdekten dat de modellen nog steeds konden leren van slechts een paar voorbeelden. Akyürek en zijn collega's dachten dat deze neurale netwerkmodellen misschien kleinere machine-learning-modellen bevatten die de modellen kunnen trainen om een ​​nieuwe taak te voltooien. “Dat zou bijna alle leerverschijnselen kunnen verklaren die we bij deze grote modellen hebben gezien”, zegt hij. Om deze hypothese te testen, gebruikten de onderzoekers een neuraal netwerkmodel, een transformator genaamd, dat dezelfde architectuur heeft als GPT-3, maar specifiek was getraind voor in-context leren. Door de architectuur van deze transformator te onderzoeken, bewezen ze theoretisch dat deze binnen zijn verborgen toestanden een lineair model kan schrijven. Een neuraal netwerk bestaat uit vele lagen van onderling verbonden knooppunten die gegevens verwerken. De verborgen toestanden zijn de lagen tussen de invoer- en uitvoerlagen. Uit hun wiskundige evaluaties blijkt dat dit lineaire model ergens in de vroegste lagen van de transformator is geschreven. De transformator kan vervolgens het lineaire model bijwerken door eenvoudige leeralgoritmen te implementeren. In wezen simuleert en traint het model een kleinere versie van zichzelf.

Het onderzoeken van verborgen lagen

De onderzoekers onderzochten deze hypothese met behulp van indringende experimenten, waarbij ze in de verborgen lagen van de transformator keken om te proberen een bepaalde hoeveelheid terug te winnen. “In dit geval probeerden we de daadwerkelijke oplossing van het lineaire model te achterhalen en konden we aantonen dat de parameter in de verborgen toestanden is geschreven. Dit betekent dat het lineaire model ergens aanwezig is”, zegt hij. Voortbouwend op dit theoretische werk kunnen de onderzoekers mogelijk een transformator in staat stellen om in-context leren uit te voeren door slechts twee lagen aan het neurale netwerk toe te voegen. Er moeten nog veel technische details worden uitgewerkt voordat dat mogelijk is, waarschuwt Akyürek, maar het zou ingenieurs kunnen helpen modellen te maken die nieuwe taken kunnen voltooien zonder dat ze opnieuw hoeven te trainen met nieuwe gegevens. In de toekomst is Akyürek van plan om in-context leren te blijven verkennen met functies die complexer zijn dan de lineaire modellen die ze in dit werk hebben bestudeerd. Ze zouden deze experimenten ook kunnen toepassen op grote taalmodellen om te zien of hun gedrag ook wordt beschreven door eenvoudige leeralgoritmen. Daarnaast wil hij dieper ingaan op de soorten voortrainingsgegevens die in-context leren mogelijk kunnen maken. “Met dit werk kunnen mensen nu visualiseren hoe deze modellen van voorbeelden kunnen leren. Ik hoop dus dat het de opvattingen van sommige mensen over in-context leren verandert”, zegt Akyürek. “Deze modellen zijn niet zo dom als mensen denken. Ze onthouden deze taken niet alleen. Ze kunnen nieuwe taken leren, en wij hebben laten zien hoe dat kan.”

Tijdstempel:

Meer van Nanowerk