Det første Pangenome-kartet fanger hele omfanget av menneskelig genetisk mangfold

Det første Pangenome-kartet fanger hele omfanget av menneskelig genetisk mangfold

Kilde node: 2657783

Tenk på det første utkastet til det menneskelige genomet som en bok. Publisert like etter århundreskiftet banet det menneskelige genomet vei for transformativ terapi. Genredigering og genterapier kjemper nå mot tidligere ubehandlede sykdommer. Å sammenligne de genetiske bokstavene A, T, C og G med bokstavene til våre nærmeste evolusjonære fettere, avslører røttene til vår evolusjon og intelligens.

Men hva, eller hvem, refererer «vår» til?

På grunn av teknologiske begrensninger ble det nåværende referansegenomet satt sammen fra biter av sekvensert DNA fra en håndfull mennesker, for det meste av europeisk og afrikansk avstamning. Selv om den er uvurderlig for å jakte på genetiske sykdommer, innkapsler «menneskehetens bok» knapt det genetiske mangfoldet til mennesker over hele kloden.

En ny studie publisert i Natur tar det første skrittet for å utvide omfanget. Omtrent et tiår underveis fanget studien genomene til 47 personer fra Asia, Afrika, Amerika og Europa. Den herkuliske innsatsen sekvenserte totalt 94 genom, ett for hvert sett med kromosomer for hver person.

Sluttresultatet er det første utkastet til det menneskelige "pangenomet" - en samling av genetiske data fra hvert individ nøye samlet til en enkelt referanse. I stedet for en bok, er den nye datastrukturen nå et bibliotek som fanger den rike genetiske historien til mennesker rundt om i verden.

"Dette er som å gå fra svart-hvitt-TV til 1080p," sa Dr. Keolu Fox ved University of California, San Diego, som ikke var involvert i studien.

Studiet er en del av Human Pangenome Reference Consortium (HPRC), et ambisiøst internasjonalt prosjekt som ble lansert i 2019 for å fange opp mangfoldet av arten vår i en omfattende referanseordbok. Langt fra et akademisk arbeid, hjelper en mangfoldig referanse forskerne å finne genetiske koblinger for sykdommer, uavhengig av opphav.

"Det er et eksepsjonelt fremskritt ... Det gjør bildet av menneskelig genetisk variasjon mer nøyaktig og mer komplett," sa Dr. Mashaal Sohail ved National Autonomous University of Mexico, som ikke var involvert i studien.

The Quest for Humanity's Genetic Blueprint

Det første utkastet til det menneskelige genomet var en triumf. Men med åtte prosent av detaljene som mangler, inneholdt den også skjevhet.

I genetiske studier matcher forskere ofte pasientens genom til referansegenomet for å jakte på sykdomsfremkallende DNA-varianter. Men i likhet med å kontrollere skrivefeil ved hjelp av en ordbok, lider prosessen hvis ordboken er ufullstendig, eller hvis den bare inneholder én versjon av et ords stavemåte (for eksempel amerikansk "humor" versus britisk "humor").

Uten et fullstendig mangfoldig DNA-atlas er det vanskelig å tyde gener knyttet til sjeldne sykdommer - spesielt når flere gener er involvert, eller hvis svarene er begravet inne i komplekse DNA-strukturer som er unike for en viss populasjon.

Så er det problemet med diagnose og terapi. Kreftprediktorer, Eksempelvis, fungerer kanskje ikke like bra for de med asiatisk og afrikansk arv, fordi de ble utviklet ved å bruke en stort sett europeisk genomisk referanse.

Vel klar over disse hikkene, har forskere lagt til det første utkastet i flere tiår, med den siste oppdateringen GRCh38 utgitt i 2017. Selv om den inneholder DNA fra 20 personer, domineres databasen av én person med over 70 prosent bidrag. I fjor, en annen gruppe utgitt et kart som praktisk talt fanget hele det menneskelige genomet – men bare ett.

Selv om det er en "stor prestasjon, kan intet enkelt genom representere det genetiske mangfoldet til arten vår," sa forfatterne.

Et genetisk undergrunnskart

Den nye studien er første skritt for å utvide omfanget. Teamet samlet DNA-sekvenser fra 47 individer og foreldrene deres fra alle kontinenter forventer Antarktis. Fordi hver person har to sett med kromosomer, sekvenserte de til sammen 94 genomsamlinger.

På grunn av teknologiske begrensninger har forskere lenge oppdatert GRCh3-referansen med en slags biologisk kopiredigering: fikse små feil, fylle ut hull eller legge til nye varianter. De fleste nye data er korte DNA-sekvenser fra personer som skiller seg fra referansen. Men deres korte lengde gjør det vanskelig å plassere dataene riktig i referansegenomet.

På grunn av disse problemene, "kan vi ha gått glipp av mer enn 70 prosent av strukturelle varianter i tradisjonelle hele genom-sekvenseringsstudier," skrev laget.

Takket være en eksplosjon av innovative genetiske verktøy det siste tiåret, er det nå mulig å fange opp lengre DNA-lesninger fra et individ. Som å takle et puslespill på 1,000 brikker versus ett med bare 100 brikker, gjør lengre lesninger det mye lettere å sette sammen brikkene til en full genomisk sekvens med nøyaktighet. Til sammen la den nye studien 119 millioner basepar – den grunnleggende enheten av DNA – til GRCh38s eksisterende database på 3.2 milliarder.

Det neste trinnet var å krangle det enorme datasettet til et dechiffrerbart atlas.

Her brukte teamet en smart grafmetode, analog med den for et T-banekart med flere grener. Delte genetiske sekvenser konvergerer til en enkelt linje. Ved visse "stopp" hvor de genetiske sekvensene er forskjellige, divergerer de i separate linjer. Noen kan til slutt re-konvergere til en annen felles linje med delte sekvenser. Totalt sett gjør grafen det relativt enkelt å erte områder med DNA som deles på tvers av flere personer, og fange de unike for hver enkelt person.

Sluttresultatet er det første utkastet til det menneskelige pangenomet.

Oppdagelse fra mangfold

I et proof of concept viste pangenomet seg verdt det to studier som fokuserte på genetiske områder som tidligere var vanskelig å utforske. Kalt repeterende DNA-regioner, disse bitene av genetisk materiale er som frustrerende like puslespillbrikker, noe som gjør det vanskelig å sette dem nøyaktig inn i den større genomiske samlingen.

Likevel kan de også ha nøkkelen til utvikling av kimlinjeceller og utviklingen av menneskearten. Disse regionene ligger kritisk til grunn for en prosess som bidrar til å utvikle sunne sædceller og egg, men de var tidligere vanskelige å studere. Ved å bruke pangenomet fant en studie store forskjeller i hvordan disse gensegmentene dupliserer og blander seg i rekkefølge mellom individer.

"Det er spennende å se nøyaktig karakterisering av segmentelle duplikasjoner, fordi dupliserte sekvenser kan gi drivstoff til utviklingen av nye, spesialiserte roller for et gen," sa Drs. Brain McStay ved University of Galway, Irland, og Hákon Jónsson ved deCODE genetics i Reykjavik, Island, som ikke var involvert i studien.

Pangenomet kan også kaste lys over genomisk "mørk materie" som ikke er representert i GRCh38-referansen. Ved å fange et langt mer mangfoldig genetisk landskap, kan vi kanskje finne sjeldne, men påfølgende mutasjoner som fører til sykdommer.

Disse studiene er bare en smakebit på hva som kommer. Pangenomet frigis til forskere som en ressurs å bruke i sine egne studier.

Kartet er bare det første utkastet. Men teamet ser allerede etter å utvide datasettet, med et mål om å nå 350 personer innen neste år. Konsortiet utvider også aktivt samarbeidet til andre deler av verden som tradisjonelt er underrepresentert, for eksempel deler av Midtøsten og personer som tilhører marginaliserte grupper.

For å studere forfatter Dr. Eimear Kenny ved Icahn School of Medicine ved Mount Sinai, ettersom prosjektet beveger seg fremover, er åpenhet, personvern og etikk nøkkelen.

"Vi erkjenner at dette arbeidet er i forkant av genomisk forskning og har spesifikke funksjoner, inkludert åpen tilgang til data," hun sa. "[Disse detaljene] krever stor vurdering, og at søknadene kan reise etiske, juridiske og sosiale spørsmål."

Bilde Credit: Darryl Leja/NHGRI

Tidstempel:

Mer fra Singularity Hub