Generative Agent Research Papers Du bør læse - KDnuggets

Genudgivet af Platon

Abonnenter: 0

Generative Agent Research Papers Du bør læse
Billede af pikisuperstjerne on Freepik

Generative Agents er et udtryk opfundet af Stanford University og Google-forskere i deres papir kaldet Generative agenter: Interactive Simulacra of Human Behaviour (Parkere et al., 2023). I denne artikel forklarer forskningen, at generative agenter er computersoftware, der på troværdig vis simulerer menneskelig adfærd.

I papiret introducerer de, hvordan agenter kunne agere som det, mennesker ville gøre: at skrive, lave mad, tale, stemme, sove osv., ved at implementere en generativ model, især Large Language Model (LLM). Agenterne kan vise evnen til at drage slutninger om sig selv, andre agenter og deres omgivelser ved at udnytte den naturlige sprogmodel.

Forskeren konstruerer en systemarkitektur til at lagre, syntetisere og anvende relevante minder til at generere troværdig adfærd ved hjælp af en stor sprogmodel, der muliggør generative agenter. Dette system består af tre komponenter, de er:

Hukommelsesstream. Systemet registrerer agentens oplevelser og er en reference for agentens fremtidige handlinger.
Refleksion. Systemet syntetiserer oplevelsen til minder, så en agent kan lære og præstere bedre.
Planlægning. Systemet omsætter indsigten fra det tidligere system til handlingsplaner på højt niveau og giver agenten mulighed for at reagere på miljøet.

Disse refleksioner og plansystemer arbejder synergistisk med hukommelsesstrømmen for at påvirke agentens fremtidige adfærd.

For at simulere systemet ovenfor fokuserer forskerne på at skabe et interaktivt samfund af agenter inspireret af Sims-spillet. Arkitekturen ovenfor er forbundet med ChatGPT og viser med succes 25 agentinteraktioner i deres sandbox. Et eksempel på agentaktivitet i løbet af dagen er vist på billedet nedenfor.

Generative Agent Research Papers Du bør læse
Generativ agentaktivitet og interaktion i løbet af dagen (Park et al., 2023)

Hele koden til at skabe Generative Agenter og simulere dem i sandkassen er allerede lavet open source af forskerne, som du kan finde i det følgende Repository. Retningen er enkel nok til, at du kan følge dem uden større problemer.

Med Generative Agenter ved at blive et spændende felt, sker der meget forskning baseret på dette. I denne artikel vil vi udforske forskellige Generative Agents-artikler, som du bør læse. Hvad er disse? Lad os komme ind i det.

1. Kommunikative agenter til softwareudvikling

Kommunikative agenter til softwareudvikling papir (Quan et al., 2023) er en ny tilgang til at revolutionere softwareudvikling ved hjælp af Generative Agents. Forudsætningen, som forskere foreslår, er, hvordan hele softwareudviklingsprocessen kan strømlines og forenes ved hjælp af naturlig sprogkommunikation fra Large Language Models (LLM). Opgaverne omfatter udvikling af kode, generering af dokumenter, analyse af kravene og mange flere.

Forskerne påpeger, at generering af en hel software ved hjælp af LLM har to store udfordringer: hallucinationer og mangel på krydsforhør i beslutningstagning. For at løse disse problemer foreslår forskerne en chat-baseret softwareudviklingsramme kaldet ChatDev.

ChatDev-rammeværket følger fire faser: design, kodning, test og dokumentering. I hver fase ville ChatDev'en etablere flere agenter med forskellige roller, for eksempel kodeanmeldere, softwareprogrammører osv. For at sikre, at kommunikationen mellem agenter forløber problemfrit, udviklede forskerne en chatkæde, der opdelte faserne i sekventielle atomare underopgaver. Hver delopgave ville implementere samarbejde og interaktion mellem agenterne.

ChatDev-rammen er vist på billedet nedenfor.

Generative Agent Research Papers Du bør læse
Det foreslåede ChatDev-rammeværk (Quan et al., 2023)

Forskerne udfører forskellige eksperimenter for at måle, hvordan ChatDev-rammerne klarer sig inden for softwareudvikling. Ved hjælp af gpt3.5-turbo-16k, nedenfor er softwarestatistikeksperimentets ydeevne.

Generative Agent Research Papers Du bør læse
ChatDev Framework Software Statistics (Quan et al., 2023)

Ovenstående tal er en metrik for statistisk analyse vedrørende softwaresystemerne, der genereres af ChatDev. For eksempel genereres der som minimum 39 linjer kode, hvor maksimum er 359 koder. Forskerne viste også, at 86.66% af de genererede softwaresystemer fungerede korrekt.

Det er et fantastisk papir, der viser potentialet til at ændre, hvordan udviklere arbejder. Læs papiret yderligere for at forstå den fulde implementering af ChatDev. Den fulde kode er også tilgængelig i ChatDev Repository.

2. AgentVerse: Facilitering af samarbejde mellem flere agenter og udforskning af emergent adfærd hos agenter

AgentVerse er en ramme foreslået i papiret af Chen et al., 2023 at simulere agentgrupperne via Large Language Model til dynamiske problemløsningsprocedurer i gruppen og tilpasning af gruppemedlemmerne ud fra progressionen. Denne undersøgelse eksisterer for at løse udfordringen med statisk gruppedynamik, hvor den autonome agent ikke kan tilpasse sig og udvikle sig til at løse problemer.

AgentVerse framework forsøger at opdele rammen i fire trin, herunder:

Ekspertrekruttering: Tilpasningsfasen for agenter for at tilpasse sig problemet og løsningen
Samarbejdende beslutningstagning: Agenterne diskuterer for at formulere en løsning og strategi for at løse problemet.
Handlingsudførelse: Agenterne udfører handling i miljøet baseret på beslutningen.
Evaluering: Den aktuelle tilstand og mål evalueres. Feedbackbelønningen vil vende tilbage til det første trin, hvis målet stadig skal nås.

Den overordnede struktur af AgentVerse er vist på billedet nedenfor.

Generative Agent Research Papers Du bør læse
AgentVerse Framework (Chen et al., 2023)

Forskerne eksperimenterede med rammeværket og sammenlignede AgentVerse-rammen med den individuelle agentløsning. Resultatet er præsenteret på billedet nedenfor.

Generative Agent Research Papers Du bør læse
Præstationsanalyse af AgentVerse (Chen et al., 2023)

AgentVerse-rammen kan generelt udkonkurrere individuelle agenter i alle de præsenterede opgaver. Dette beviser, at generative agenter kunne præstere bedre end individuelle agenter, der forsøger at løse problemer. Du kan prøve rammerne gennem deres Repository.

3. AgentSims: En åben kildekode-sandkasse til evaluering af store sprogmodeller

Evaluering af LLM'ers evner er stadig et åbent spørgsmål i samfundet og i felterne. Tre punkter, der begrænser evnen til at evaluere LLM korrekt, er begrænsede evalueringsevner af opgaverne, sårbare benchmarks og uobjektive målinger. For at håndtere disse problemer, Lin et al., 2023 foreslog en opgavebaseret evaluering som et LLM-benchmark i deres papir. Denne tilgang håbede at blive standard i evalueringen af LLM's værker, da den kunne afhjælpe alle de rejste problemer. For at opnå dette introducerer forskerne en ramme kaldet AgentSims.

AgentSims er et program med interaktiv og visualiseringsinfrastruktur til at kurere evalueringsopgaver for LLM'er. AgentSims overordnede mål er at give forskere og eksperter en platform til at strømline opgavedesignprocessen og bruge dem som et evalueringsværktøj. Frontenden af AgentSims er præsenteret på billedet nedenfor.

Generative Agent Research Papers Du bør læse
AgentSims Front End (Lin et al., 2023)

Da målet for AgentSims er alle, der kræver LLM-evaluering på nemmere måder, udviklede forskerne frontend, hvor vi kan interagere med brugergrænsefladen. Du kan også prøve den fulde demo på deres hjemmeside eller få adgang til den fulde kode i AgentSims Repository.

Generative agenter er en nyere tilgang i LLM'erne til at simulere menneskelig adfærd. Den seneste forskning fra Park et al., 2023 har vist en stor mulighed for, hvad de generative agenter kunne gøre. Derfor har mange typer forskning baseret på Generative Agenter dukket op og åbnet mange nye døre.

I denne artikel har vi talt om tre forskellige generative agenter forskning, herunder:

Communicative Agents for Software Development papir (Quan et al., 2023)
AgentVerse: Facilitering af multi-agent-samarbejde og udforskning af emergent adfærd hos agenter (Chen et al., 2023)

3. AgentSims: An Open-Source Sandbox for Large Language Model Evaluation (Lin et al., 2023)

Cornellius Yudha Wijaya er en data science assisterende leder og dataskribent. Mens han arbejder på fuld tid hos Allianz Indonesia, elsker han at dele Python- og Data-tips via sociale medier og skrivemedier.