Det første Pangenome-kort fanger det fulde omfang af menneskelig genetisk mangfoldighed

Det første Pangenome-kort fanger det fulde omfang af menneskelig genetisk mangfoldighed

Kildeknude: 2657783

Tænk på det første udkast til det menneskelige genom som en bog. Udgivet lige efter århundredeskiftet banede det menneskelige genom vejen for transformativ terapi. Genredigering og genterapier kæmper nu mod sygdomme, der tidligere ikke kunne behandles. At sammenligne de genetiske bogstaver A, T, C og G med bogstaverne for vores nærmeste evolutionære fætre afslører rødderne til vores evolution og intelligens.

Men hvad eller hvem refererer ”vores” til?

På grund af teknologiske begrænsninger blev det nuværende referencegenom samlet af bidder af sekventeret DNA fra en håndfuld mennesker, for det meste af europæisk og afrikansk afstamning. Selvom den er uvurderlig til at jage genetiske sygdomme, indkapsler "menneskelighedens bog" næppe den genetiske mangfoldighed af mennesker over hele kloden.

En ny undersøgelse offentliggjort i Natur tager det første skridt til at udvide sit omfang. Omtrent et årti undervejs fangede undersøgelsen genomerne fra 47 mennesker fra Asien, Afrika, Amerika og Europa. Den herkuliske indsats sekventerede i alt 94 genomer, et for hvert sæt kromosomer for hver person.

Slutresultatet er det første udkast til det menneskelige "pangenom" - en samling af genetiske data fra hvert individ omhyggeligt samlet i en enkelt reference. I stedet for en bog er den nye datastruktur nu et bibliotek, der fanger den rige genetiske historie for mennesker rundt om i verden.

"Dette er som at gå fra sort-hvid-tv til 1080p," sagde Dr. Keolu Fox ved University of California, San Diego, som ikke var involveret i undersøgelsen.

Undersøgelsen er en del af Human Pangenome Reference Consortium (HPRC), et ambitiøst internationalt projekt, der blev lanceret i 2019 for at indfange vores arters mangfoldighed i en omfattende referenceordbog. Langt fra en akademisk stræben, en mangfoldig reference hjælper videnskabsmænd med at finde ud af genetiske forbindelser til sygdomme, uanset herkomst.

"Det er et usædvanligt fremskridt... Det gør billedet af menneskelig genetisk variation mere nøjagtigt og mere komplet," sagde Dr. Mashaal Sohail ved National Autonomous University of Mexico, som ikke var involveret i undersøgelsen.

The Quest for Humanity's Genetic Blueprint

Det første udkast til det menneskelige genom var en triumf. Men da otte procent af detaljerne mangler, indeholdt den også bias.

I genetiske undersøgelser matcher videnskabsmænd ofte patienters genomer til referencegenomet for at jage sygdomsfremkaldende DNA-varianter. Men i lighed med at kontrollere stavefejl ved hjælp af en ordbog, lider processen, hvis ordbogen er ufuldstændig, eller hvis den kun indeholder én version af et ords stavemåde (f.eks. amerikansk "humor" versus britisk "humor").

Uden et fuldt mangfoldigt DNA-atlas er det svært at tyde gener knyttet til sjældne sygdomme - især når flere gener er involveret, eller hvis svarene er begravet inde i komplekse DNA-strukturer, der er unikke for en bestemt befolkning.

Så er der problemet med diagnose og terapi. Kræftforudsigere, for eksempel, fungerer muligvis ikke så godt for dem med asiatisk og afrikansk arv, fordi de blev udviklet ved hjælp af en stort set europæisk genomisk reference.

Velvidende om disse hikke har videnskabsmænd tilføjet det første udkast i årtier, med den seneste opdatering GRCh38 udgivet i 2017. Selvom den indeholder DNA fra 20 personer, domineres databasen af ​​én person med over 70 procent bidrag. Sidste år en anden gruppe frigivet et kort, der praktisk talt fangede hele det menneskelige genom - men kun ét.

Selvom det er en "stor bedrift, kan intet enkelt genom repræsentere den genetiske mangfoldighed af vores art," sagde forfatterne.

Et genetisk undergrundskort

Den nye undersøgelse er det første skridt til at udvide omfanget. Holdet samlede DNA-sekvenser fra 47 individer, og deres forældre fra alle kontinenter forventer Antarktis. Fordi hver person har to sæt kromosomer, sekventerede de tilsammen 94 genomsamlinger.

På grund af teknologiske begrænsninger har videnskabsmænd længe opdateret GRCh3-referencen med en slags biologisk kopiredigering: at rette små fejl, udfylde huller eller tilføje nye varianter. De fleste nye data er korte DNA-sekvenser fra personer, der adskiller sig fra referencen. Men deres korte længde gør det vanskeligt at placere dataene korrekt i referencegenomet.

På grund af disse problemer "kan vi have savnet mere end 70 procent af strukturelle varianter i traditionelle hele genom-sekventeringsundersøgelser," skrev holdet.

Takket være en eksplosion af innovative genetiske værktøjer i det sidste årti, er det dog nu muligt at fange længere DNA-aflæsninger fra et individ. Ligesom at tackle et puslespil med 1,000 brikker i forhold til et med kun 100 brikker, gør de længere læsninger det langt nemmere at samle brikkerne til en fuld genomisk sekvens med nøjagtighed. Alt sammen tilføjede den nye undersøgelse 119 millioner basepar – den grundlæggende enhed af DNA – til GRCh38's eksisterende database på 3.2 milliarder.

Det næste trin var at skændes det enorme datasæt til et dechifrerbart atlas.

Her brugte holdet en smart grafmetode, analog med den for et metrokort med flere grene. Delte genetiske sekvenser konvergerer i en enkelt linje. Ved visse "stop", hvor de genetiske sekvenser er forskellige, divergerer de i separate linjer. Nogle kan i sidste ende re-konvergere til en anden fælles linje af delte sekvenser. Samlet set gør grafen det relativt nemt at pirre områder af DNA, der deles på tværs af flere personer, fra hinanden og fange dem, der er unikke for hver enkelt person.

Slutresultatet er det første udkast til det menneskelige pangenom.

Opdagelse fra mangfoldighed

I et proof of concept beviste pangenomet sit værd med to undersøgelser der fokuserede på genetiske områder, der tidligere var vanskelige at udforske. Kaldet gentagne DNA-regioner, er disse bidder af genetisk materiale som frustrerende ens puslespilsbrikker, hvilket gør det svært at sætte dem præcist ind i den større genomiske samling.

Alligevel kan de også have nøglen til kimcellekonstruktion og udviklingen af ​​den menneskelige art. Disse regioner ligger kritisk til grund for en proces, der hjælper med at udvikle sunde sædceller og æg, men de var tidligere vanskelige at studere. Ved at bruge pangenomet fandt en undersøgelse store forskelle i, hvordan disse gensegmenter duplikerer og blander i rækkefølge mellem individer.

"Det er spændende at se nøjagtig karakterisering af segmentelle duplikationer, fordi duplikerede sekvenser kan sætte skub i udviklingen af ​​nye, specialiserede roller for et gen." sagde Drs. Brain McStay ved University of Galway, Irland, og Hákon Jónsson ved deCODE genetics i Reykjavik, Island, som ikke var involveret i undersøgelsen.

Pangenomet kan også kaste lys over genomisk "mørk stof", der ikke er repræsenteret i GRCh38-referencen. Ved at indfange et langt mere forskelligartet genetisk landskab kan vi muligvis finde sjældne, men følgelige mutationer, der fører til sygdomme.

Disse undersøgelser er blot en smagsprøve på, hvad der kommer. Pangenomet frigives til videnskabsmænd som en ressource til brug i deres egne undersøgelser.

Kortet er kun det første udkast. Men teamet søger allerede at udvide datasættet med et mål om at nå 350 personer til næste år. Konsortiet udvider også aktivt sine samarbejder til andre dele af verden, der traditionelt er underrepræsenteret, såsom dele af Mellemøsten og mennesker, der tilhører marginaliserede grupper.

For at studere forfatter Dr. Eimear Kenny ved Icahn School of Medicine ved Sinai-bjerget, som projektet bevæger sig fremad, er gennemsigtighed, privatliv og etik nøglen.

"Vi anerkender, at dette arbejde er på forkant med genomisk forskning og har specifikke funktioner, herunder åben adgang til data," hun sagde. "[Disse detaljer] kræver stor overvejelse, og at ansøgningerne kan rejse etiske, juridiske og sociale spørgsmål."

Billede Credit: Darryl Leja/NHGRI

Tidsstempel:

Mere fra Singularitet Hub