AI til rumlig metabolomik I: Livets datasæt

Billedkilde

Her på Neuromation starter vi en spændende - og temmelig sofistikeret! - fælles projekt med den rumlige metabolomik-gruppe af Dr. Theodore Alexandrov fra European Molecular Biology Laboratory. I denne mini-serie med indlæg vil jeg forklare, hvordan vi planlægger at bruge de seneste resultater inden for dyb læring og opfinde nye modeller til at behandle billeddannelse af massespektrometri-data, hvor jeg uddrager metaboliske profiler af individuelle celler for at analysere de molekylære bane, som celler med forskellige fænotyper følger ...

Vent, jeg har helt sikkert mistet dig tre gange allerede. Lad mig starte forfra.

Omics: datasættene, der gør dig

Billedkilde

Billedet ovenfor viser molekylærbiologiens centrale dogme, den vigtigste indsigt i biologi fra det XX århundrede i, hvordan livet på Jorden fungerer. Det viser, hvordan genetisk information flyder fra DNA'et til de proteiner, der rent faktisk udfører arbejdet i cellerne:

  • DNA gemmer genetisk information og kan gentage dem;
  • i processen kendt som transkription kopierer DNA dele af dets genetiske kode til messenger RNA (m-RNA), også en nukleinsyre;
  • og til sidst er oversættelse processen med at fremstille proteiner, "læse" den genetiske kode for dem fra RNA-strenge og implementere planen i praksis.

Jeg har malet et meget forenklet billede, men dette er virkelig den centrale, den vigtigste informationsstrøm i livet. Den centrale dogme, der først blev oplyst af Francis Crick i 1958, siger, at genetisk information kun strømmer fra nukleinsyrer (DNA og RNA) til proteiner og aldrig tilbage - dine proteiner kan ikke gå tilbage og ændre dit DNA eller RNA eller endda ændre andre proteiner, de styres kun af nukleinsyrerne.

Alle ved, at den genetiske kode, der er nedfældet i DNA, er meget vigtig. Hvad der er lidt mindre kendt, er, at hvert trin langs den centrale dogmepadway (en vej er dybest set en sekvens af almindelige reaktioner, der transformerer molekyler til hinanden, f.eks. DNA -> RNA -> protein er en vej og en meget vigtig! ) svarer til sit eget "datasæt", sin egen karakterisering af en organisme, hver vigtig og interessant på sin egen måde.

Dit sæt gener, kodet i dit DNA, er kendt som genomet. Dette er det vigtigste "datasæt", din primære plan, genomet er det, der siger, hvordan du arbejder på den mest abstrakte måde. Som du sandsynligvis ved, er genomet en meget lang streng med "bogstaver" A, C, G og T, som står for de fire nukleotider ... ikke bekymre dig, vi vil ikke gå for detaljeret ind i det. Human Genome-projektet har med succes sekventeret (”læst” bogstav for bogstav) et udkast til det menneskelige genom i 2000 og et komplet menneskeligt genom i 2003, alle tre milliarder bogstaver. Siden da har sekventeringsmetoder forbedret sig meget; Desuden er alle menneskelige genomer naturligvis meget ens, så når du først har en, er det meget lettere at få de andre. Dit genom bestemmer, hvilke sygdomme du er modtagelig for og definerer mange af dine karakteristiske træk.

Undersøgelsen af ​​det menneskelige genom er langt fra forbi, men det er kun den første del af historien. Som vi har set ovenfor, skal genetisk kode fra DNA aflæses i RNA. Dette er kendt som transkription, en kompliceret proces, der er helt irrelevant for vores diskussion lige nu: Pointen er, at stykker af genomet kopieres til RNA ordret (formelt set ændrer T til U, et andet nucleotid, men det er stadig det nøjagtige samme information):

Billedkilde

Cellerne differentierer her, hvor dele af genomet transkriberes.

Sættet af RNA-sekvenser (begge kodende RNA, som senere vil blive brugt til at fremstille proteiner og ikke-kodende RNA, det vil sige resten af ​​det) i en celle kaldes transkriptomet. Transkriptomet giver meget mere specifik information om individuelle celler og væv: for eksempel har en celle i din lever nøjagtigt det samme genom som en neuron i din hjerne - men meget forskellige transkriptomer! Ved at studere transkriptomet kan biologer ”øge opløsningen” og se, hvilke gener der udtrykkes i forskellige væv, og hvordan. For eksempel screener moderne personlig medicin transkriptomer for at diagnosticere kræft.

Men dette handler stadig om den genetiske kode. Det tredje datasæt er endnu mere detaljeret: det er proteomet, der består af alle proteiner produceret i en celle, i processen kendt som translation, hvor RNA fungerer som en skabelon, med tre bogstaver, der koder for hvert protein:

Billedkilde

Dette er allerede meget tættere på det faktiske mål: proteinerne, som en celle fremstiller, bestemmer dens interaktion med andre celler, og proteomet siger meget om, hvad cellen laver, hvad dens funktion i organismen er, hvilken virkning den har på andre celler osv. Og proteomet, i modsætning til genomet, er formbart: mange lægemidler fungerer nøjagtigt ved at undertrykke eller fremskynde oversættelsen af ​​specifikke proteiner. Antibiotika bekæmper for eksempel normalt bakterier ved at angribe deres RNA, undertrykke proteinsyntesen fuldstændigt og dermed dræbe cellen.

Genomik, transkriptomik og proteomik er underfelter i molekylærbiologi, der studerer genomet, transkriptomet og proteomet. De er samlet kendt som "omics". Den centrale dogme har været kendt længe, ​​men først for nylig har biologer udviklet nye værktøjer, der faktisk lod os kikke ind i transkriptomet og proteomet.

Og dette har ført til big data "omics revolution" inden for molekylærbiologi: med disse værktøjer kan vi i stedet for at teoretisere nu faktisk undersøge dit proteom og finde ud af, hvad der sker i dine celler - og måske hjælpe dig personligt, ikke bare udvikle en stof, der skal fungere på de fleste mennesker, men på en eller anden måde mislykkes for dig.

Metabolomics: ud over dogmen

Billedkilde

Molekylærbiologer begyndte at tale om "den omiske revolution" i forbindelse med genomik, transkriptomik og proteomik, men den centrale dogme er stadig ikke det fulde billede. Oversættelse af proteiner er kun begyndelsen på de processer, der forekommer i en celle; derefter interagerer disse proteiner faktisk med hinanden og andre molekyler i cellen. Disse reaktioner omfatter cellens stofskifte, og i sidste ende er det nøjagtigt den stofskifte, som vi er interesseret i, og som vi måske ønsker at ordne.

Moderne biologi er meget interesseret i processer, der går ud over det centrale dogme og involverer de såkaldte små molekyler: enzymer, lipider, glycose, ATP og så videre. Disse små molekyler syntetiseres enten inde i cellerne - i dette tilfælde kaldes de metabolitter, det vil sige produkter fra cellens stofskifte - eller kommer ud over det. For eksempel er vitaminer typiske små molekyler, som celler har brug for, men ikke kan syntetisere sig selv, og medikamenter er eksogene små molekyler, som vi designer til at passe sammen med en celles stofskifte.

Disse synteseprocesser styres af proteiner og følger de såkaldte metaboliske veje, kæder af reaktioner med en fælles biologisk funktion. Den centrale dogme er en meget vigtig vej, men i virkeligheden er der tusinder. En nyligt udviklet model for menneskelig metabolisme viser 5324 metabolitter, 7785 reaktioner og 1675 associerede gener, og dette er bestemt ikke den sidste version - moderne estimater når op til 19000 metabolitter, så stierne er ikke alle kortlagt endnu.

Den organiske metabolismeprofil bestemmes ikke fuldstændigt af dens genom, transkriptom eller endda proteom: metabolomet (sæt af metabolitter) dannes især under påvirkning af miljøet, der fx giver vitaminer. Metabolomics, der studerer sammensætningen og interaktionen mellem metabolitter i levende organismer, ligger i skæringspunktet mellem biologi, analytisk kemi og bioinformatik, med voksende anvendelser til medicin (og det er ikke den sidste af omics, men metabolomics vil være tilstrækkeligt for os nu) .

Når vi kender metabolomet, kan vi bedre karakterisere og diagnosticere forskellige sygdomme: De er alle nødt til at efterlade et spor i metabolomet, fordi hvis stofskiftet ikke har ændret sig, hvorfor er der overhovedet et problem? .. Ved at studere metaboliske profiler af celler, kan biologer opdage nye biomarkører til både diagnose og terapi, finde nye mål for lægemidlerne. Metabolomics er grundlaget for virkelig personlig medicin.

Det ultimative datasæt

Billedkilde

Indtil videre har jeg grundlæggende forklaret de seneste fremskridt inden for molekylærbiologi og medicin. Men hvad planlægger vi at gøre i dette projekt? Vi er ikke biologer, vi er dataforskere, AI-forskere; hvad er vores del i dette?

Nå, metabolomet er dybest set et kæmpe datasæt: hver celle har sin egen metaboliske profil (sæt molekyler, der vises i cellen). Forskelle i metabolske profiler bestemmer forskellige cellepopulationer, hvordan metabolske profiler ændrer sig i tid svarer til mønstre for celleudvikling osv. Osv. Desuden kommer de rumlige metabolomics, som vi planlægger at samarbejde om, i form af specielle billeder: resultater af billeddannelse massespektrometri anvendt i meget høj opløsning. Dette kræver igen en vis forklaring.

Massespektrometri er et værktøj, der lader os finde ud af masserne af alt, hvad der er indeholdt i en prøve. Bortset fra sjældne kollisioner er dette dybest set det samme som at finde ud af, hvilke specifikke molekyler der findes i prøven. For eksempel, hvis du lægger en diamant i massespektrometret, vil du se ... nej, ikke kun et enkelt carbonatom, vil du sandsynligvis se både 12C og 13C isotoper, og deres sammensætning vil sige meget om diamantens egenskaber.

Imaging massespektrometri er dybest set et billede, hvor hver pixel er et spektrum. Du tager et afsnit af noget væv, lægger det i et massespektrometer og får en tredimensionel "datakube": hver pixel indeholder en liste over molekyler (metabolitter), der findes i denne del af vævet. Denne proces vises på billedet ovenfor. Jeg ville vise nogle billeder her, men det ville være vildledende: Pointen er, at det ikke er et enkelt billede, det er en masse parallelle billeder, et for hver metabolit. Noget som dette (billede taget herfra):

Jakten på at skabe bedre billeddannelse af massespektrometri-værktøjer sigter mest til at øge opløsningen, dvs. gøre pixels mindre og øge følsomheden, dvs. detektere mindre mængder af metabolitter. På nuværende tidspunkt er afbildning af massespektrometri nået langt: opløsningen er så høj, at individuelle pixels på dette billede kan kortlægge til individuelle celler! Denne high-def massespektrometri, der bliver kendt som enkeltcelle massespektrometri, åbner døren for metabolomics: du kan nu få den metaboliske profil for en masse celler på én gang, komplet med deres rumlige placering i vævet .

Dette er det ultimative datasæt af liv, den mest dybdegående redegørelse for det faktiske væv, der findes lige nu. I projektet planlægger vi at studere dette ultimative datasæt. I den næste rate af denne miniserie vil vi se, hvordan.

Sergey Nikolenko Chief Research Officer, Neuromation