Generative Agent Research Papers You Should Read - KDnuggets

Publisert av Platon

Følgere: 0

Generative Agent Research Papers Du bør lese
Bilde av pikisuperstjerne on Freepik

Generative Agents er et begrep laget av Stanford University og Google-forskere i deres artikkel kalt Generative agenter: Interactive Simulacra of Human Behaviour (Parkere et al., 2023). I denne artikkelen forklarer forskningen at generative agenter er beregningsprogramvare som på en troverdig måte simulerer menneskelig atferd.

I oppgaven introduserer de hvordan agenter kan oppføre seg som det mennesker ville gjøre: å skrive, lage mat, snakke, stemme, sove osv., ved å implementere en generativ modell, spesielt den store språkmodellen (LLM). Agentene kan vise evnen til å trekke slutninger om seg selv, andre agenter og deres miljø ved å utnytte den naturlige språkmodellen.

Forskeren konstruerer en systemarkitektur for å lagre, syntetisere og bruke relevante minner for å generere troverdig atferd ved å bruke en stor språkmodell, som muliggjør generative agenter. Dette systemet består av tre komponenter, de er:

Minnestrøm. Systemet registrerer agentens erfaringer og er en referanse for agentens fremtidige handlinger.
Refleksjon. Systemet syntetiserer opplevelsen til minner slik at en agent kan lære og prestere bedre.
Planlegging. Systemet oversetter innsikten fra det forrige systemet til handlingsplaner på høyt nivå og lar agenten reagere på omgivelsene.

Disse refleksjonene og plansystemene fungerer synergistisk med minnestrømmen for å påvirke agentens fremtidige atferd.

For å simulere systemet ovenfor fokuserer forskerne på å skape et interaktivt samfunn av agenter inspirert av Sims-spillet. Arkitekturen ovenfor er koblet til ChatGPT og viser vellykket 25 agentinteraksjoner i deres sandkasse. Et eksempel på agentaktivitet gjennom dagen er vist på bildet nedenfor.

Generative Agent Research Papers Du bør lese
Generativ agentaktivitet og interaksjon gjennom dagen (Park et al., 2023)

Hele koden for å lage generative agenter og simulere dem i sandkassen er allerede laget åpen kildekode av forskerne, som du kan finne i følgende Repository. Retningen er enkel nok til at du kan følge dem uten store problemer.

Med Generative Agenter i ferd med å bli et spennende felt, skjer det mye forskning basert på dette. I denne artikkelen vil vi utforske ulike Generative Agents-artikler som du bør lese. Hva er disse? La oss komme inn i det.

1. Kommunikasjonsagenter for programvareutvikling

De Kommunikasjonsagenter for programvareutvikling papir (Quan et al., 2023) er en ny tilnærming til å revolusjonere programvareutvikling ved å bruke Generative Agents. Forutsetningen forskerne foreslår er hvordan hele programvareutviklingsprosessen kan strømlinjeformes og forenes ved bruk av naturlig språkkommunikasjon fra Large Language Models (LLM). Oppgavene inkluderer å utvikle kode, generere dokumentene, analysere kravene og mye mer.

Forskerne påpeker at å generere en hel programvare ved hjelp av LLM har to store utfordringer: hallusinasjoner og mangel på kryssforhør i beslutningstaking. For å løse disse problemene, foreslår forskerne et chat-basert programvareutviklingsrammeverk kalt ChatDev.

ChatDev-rammeverket følger fire faser: design, koding, testing og dokumentering. I hver fase ville ChatDev-en etablere flere agenter med ulike roller, for eksempel kodeanmeldere, programvareprogrammerere osv. For å sikre at kommunikasjonen mellom agentene går knirkefritt, utviklet forskerne en chat-kjede som delte fasene inn i sekvensielle atomære underoppgaver. Hver deloppgave ville implementere samarbeid og interaksjon mellom agentene.

ChatDev-rammeverket er vist på bildet nedenfor.

Generative Agent Research Papers Du bør lese
Det foreslåtte ChatDev-rammeverket (Quan et al., 2023)

Forskerne utfører ulike eksperimenter for å måle hvordan ChatDev-rammeverket fungerer i programvareutvikling. Ved bruk av gpt3.5-turbo-16k, nedenfor er ytelsen til programvarestatistikkeksperimentet.

Generative Agent Research Papers Du bør lese
ChatDev Framework Software Statistics (Quan et al., 2023)

Tallet ovenfor er en beregning på statistisk analyse angående programvaresystemene generert av ChatDev. For eksempel genereres minimum 39 linjer med kode, med maksimalt 359 koder. Forskerne viste også at 86.66 % av programvaresystemene som ble generert, fungerte riktig.

Det er et flott papir som viser potensialet til å endre hvordan utviklere jobber. Les artikkelen videre for å forstå den fullstendige implementeringen av ChatDev. Den fullstendige koden er også tilgjengelig i ChatDev Repository.

2. AgentVerse: Tilrettelegging for samarbeid med flere agenter og utforsking av emergent atferd hos agenter

AgentVerse er et rammeverk foreslått i papiret av Chen et al., 2023 å simulere agentgruppene via Large Language Model til dynamiske problemløsningsprosedyrer innad i gruppen og justering av gruppemedlemmene basert på progresjonen. Denne studien eksisterer for å løse utfordringen med statisk gruppedynamikk der den autonome agenten ikke kan tilpasse seg og utvikle seg i å løse problemer.

AgentVerse-rammeverket prøver å dele rammeverket i fire trinn, inkludert:

Ekspertrekruttering: Justeringsfasen for agenter for å tilpasse seg problemet og løsningen
Samarbeidende beslutningstaking: Agentene diskuterer for å formulere en løsning og strategi for å løse problemet.
Handlingsutførelse: Agentene utfører handlinger i miljøet basert på beslutningen.
Evaluering: Nåværende tilstand og mål evalueres. Tilbakemeldingsbelønningen vil gå tilbake til det første trinnet hvis målet fortsatt må nås.

Den generelle strukturen til AgentVerse er vist i bildet nedenfor.

Generative Agent Research Papers Du bør lese
AgentVerse Framework (Chen et al., 2023)

Forskerne eksperimenterte med rammeverket og sammenlignet AgentVerse-rammeverket med den individuelle agentløsningen. Resultatet er presentert på bildet nedenfor.

Generative Agent Research Papers Du bør lese
Ytelsesanalyse av AgentVerse (Chen et al., 2023)

AgentVerse-rammeverket kan generelt utkonkurrere individuelle agenter i alle de presenterte oppgavene. Dette beviser at generative agenter kan prestere bedre enn individuelle agenter som prøver å løse problemer. Du kan prøve ut rammeverket gjennom deres Repository.

3. AgentSims: En åpen kildekode-sandkasse for evaluering av store språkmodeller

Evaluering av LLMs evner er fortsatt et åpent spørsmål i samfunnet og feltene. Tre punkter som begrenser muligheten til å evaluere LLM riktig er begrensede evalueringsevner av oppgavene, sårbare benchmarks og uobjektive beregninger. For å håndtere disse problemene, Lin et al., 2023 foreslo en oppgavebasert evaluering som en LLM-benchmark i papiret deres. Denne tilnærmingen håpet å bli standard i evaluering av LLMs arbeider, da den kunne lindre alle problemene som ble reist. For å oppnå dette introduserer forskerne et rammeverk kalt AgentSims.

AgentSims er et program med interaktiv og visualiseringsinfrastruktur for kurering av evalueringsoppgaver for LLM-er. Det overordnede målet med AgentSims er å gi forskere og eksperter en plattform for å strømlinjeforme oppgavedesignprosessen og bruke dem som et evalueringsverktøy. Frontenden av AgentSims er presentert i bildet nedenfor.

Generative Agent Research Papers Du bør lese
AgentSims grensesnitt (Lin et al., 2023)

Siden målet for AgentSims er alle som trenger LLM-evaluering på enklere måter, utviklet forskerne grensesnittet der vi kan samhandle med brukergrensesnittet. Du kan også prøve hele demoen på deres nettsted eller få tilgang til hele koden i AgentSims Repository.

Generative agenter er en nyere tilnærming i LLM-ene for å simulere menneskelig atferd. Den siste forskningen fra Park et al., 2023 har vist en stor mulighet for hva de generative agentene kunne gjøre. Derfor har mange typer forskning basert på Generative Agenter dukket opp og åpnet mange nye dører.

I denne artikkelen har vi snakket om tre forskjellige forskning på generative agenter, inkludert:

Communicative Agents for Software Development papir (Quan et al., 2023)
AgentVerse: Tilrettelegge for samarbeid med flere agenter og utforske fremvoksende atferd hos agenter (Chen et al., 2023)

3. AgentSims: An Open-Source Sandbox for Large Language Model Evaluation (Lin et al., 2023)

Cornellius Yudha Wijaya er assistentleder for datavitenskap og dataskribent. Mens han jobber på heltid i Allianz Indonesia, elsker han å dele Python- og Data-tips via sosiale medier og skrivemedier.