STATUSARTIKEL

Bioinformatiker Rehannah H.A. Borup, læge Claudio Csillag, overlæge Ole Haagen Nielsen & professor Finn Cilius Nielsen
H:S Rigshospitalet Klinisk Biokemisk afdeling, KB 3014, og Amtssygehuset i Herlev, Medicinsk Gastroenterologisk Afdeling C
Mange sygdomsbehandlinger har lidt under mangel på en præcis diagnostik og klassifikation, men flere resultater tyder på at DNA-
microarray
-analyser kan vende denne udvikling.
Microarray
-baseret klassifikation har f.eks. været anvendt ved mange tumorformer, og i næsten alle tilfælde er det vist, at den patologiske diagnose kan optimeres.
Microarrays
peger således frem mod en mere individuel patientdiagnostik.
Microarray
-baserede undersøgelser er forbundet med store datamængder, og dette har nødvendiggjort udviklingen af nye beregningsmetoder og matematiske værktøjer. Denne statusartikel giver en kort oversigt over de vigtigste beregningsprincipper.
Microarray-platforme
Der er overordnet to typer DNA-
microarrays
-
complementary DNA
(cDNA)
arrays
, også kaldet
spottet arrays
[1] og oligonukleotid-
arrays
[2]. cDNA-
arrays
er sammensat af polymerasekædereaktions-opformerede cDNA-sekvenser fra et cDNA-bibliotek, der kobles til et objektglas. Fordelene ved brug af cDNA-
arrays
er lave produktionsomkostninger og fleksibilitet i design. I modsætning til cDNA-
arrays
er højdensitetsoligonukleotid-
arrays
oftest præfabrikerede. Oligonukleotidprober kobles direkte til underlaget ved brug af
ink-jet
-teknologi eller laves de novo ved en fotolitografisk proces [2]. Fordelen ved oligonukleotid-
arrays
er, at det er let at rette de korte probesekvenser mod de mest specifikke dele af mRNA. Ydermere eliminerer in situ-syntese af probesekvenser håndtering af bakteriebiblioteker og opformering af sekvenser og dermed risikoen for krydskontaminering af prober. Den mest udbredte oligonukleotid-
array
-platform fremstilles af firmaet Affymetrix (Santa Clara, CA, USA). Probedensiteten forbedres løbende, og den nuværende generation af humane
microarrays
indeholder omkring 1.300.000 prober, som tilsammen detekterer ca. 48.000 forskellige mRNA. Næste generation af
arrays
, de humane exon-
arrays
, indeholder mere end dobbelt så mange prober og kan anvendes til en fuld transkript- og alternativ splicingsanalyse.
Microarrays
anvendes til at måle mængden af mRNA i celler og væv med. Ekspressionsværdien udtrykkes enten som en relativ værdi, der angiver mRNA-forholdet mellem to prøver - en kontrol og en test, som hybridiseres samtidig til
array
'et (
spotted arrays
), eller ved en absolut værdi for mængden af mRNA i en specifik prøve (oligonukleotid
arrays
). Mærkning af prøver til
spotted arrays
sker ved inkorporering af fluoroforekoblede nukleotider i cDNA. Almindeligvis mærkes kontrolmateriale med grøn (cyanin-3) og testmateriale, f.eks. tumorvæv med rød (cyanin-5).
Mærkning af prøver til Affymetrix oligonukleotid-
arrays
starter med, at total RNA revers transkriberes til dobbeltstrenget cDNA, som derefter in vitro-transkriberes til cRNA under indkobling af biotinylerede nukleotider, der kan binde en fluoreofor. Efter hybridisering af prøven til det enkelte
array
aflæses den bundne mængde med en laserskanner. Rådata fra en
microarray
-analyse er derfor en datafil med over en million felter indeholdende intensiteter, der reflekterer genernes ekspressionsniveau.
Microarray-dataanalyse
Microarray
-teknologien er almindeligvis meget reproducerbar. Selve proceduren er forbundet med en ganske lille usikkerhed - formentlig under 2%'s variation på de fleste kommercielle platforme. Som ved mange andre analysemetoder spiller den præanalytiske variation en væsentlig rolle, og i forskningssammenhænge er et godt eksperimentelt design en dyd. Det, der primært adskiller dataanalyse af
microarrays
fra andre teknologier, er mængden af data. Mange overrumples af de mange niveauer og metoder for præprocessering og matematisk normalisering (
low level
-analyse) af data før den egentlige dataanalyse kan begynde, samt de endnu mere omfattende statistiske og datalogiske modeller, der anvendes til at omsætte de mange tusinde datapunkter til biologisk eller klinisk relevant information (
high level
-analyse) (Figur 1
).
Præprocessering og signalekstraktion
I den følgende beskrivelse fokuseres der på metoder anvendt på Affymetrix GeneChip data.
Første trin i
microarray
-dataanalysen er præprocessering af rådata, dvs. den datafil, der indeholder aflæste fluorescensintensiteter for de enkelte prober. Først udføres billed- og kvalitetskontrol ved visualisering af
array
'et, og for den enkelte probe bestemmes en gennemsnitlig intensitet i form af gennemsnittet af pixel i det 11-18 micron store probefelt (billedanalyse, Figur 1). Dernæst justeres for baggrundsintensitet for at give forhøjet
signal to noise
-ratio. Gennemsnitsintensiteterne gemmes i en såkaldt cel-fil, som kan importeres i en række af
microarray
-dataanalyseprogrammer, som efterfølgende kan anvendes til at normalisere datafilerne med. Under normaliseringen korrigeres intensiteterne for systematisk variation, som er introduceret under prøvemærkning, hybridisering og skanning. Prøverne bliver dermed sammenlignelige, og den tilbageværende variation repræsenterer ideelt set den biologiske forskel imellem prøverne.
Normaliseringen foregår på probeniveau, men for at kunne udføre genekspressionsanalyse, skal de multiple probedata for hvert probesæt summeres til at give en ekspressionsværdi, der repræsenterer det enkelte mRNA. Denne probesummering er særegen for Affymetrix, da hvert mRNA er repræsenteret af op til 22 prober (probeanalyse, Figur 1).
Hovedanalyse
Formålet med
microarray
-analyser er ofte identifikation af gener, der er forskelligt udtrykt mellem forskellige grupper af prøver (komparativ analyse). Et relateret formål er anvendelse af
microarrays
til indentificering af molekylære markører eller ekspressionssignaturer (mønstre) til klassifikation eller opdeling af vævsprøver i henhold til sygdomskategori (klassifikationsanalyse).
Man anvender to overordnede analysemetoder - usuperviseret analyse, hvor man ikke anvender information om prædefinerede klasser i dataanalysen, og superviseret analyse, hvor man inddrager kendte kliniske parametre, såsom behandlingsrespons og overlevelsestid i dataanalysen (Figur 2
).
I den usuperviserede analyse bruges der ofte mønstersøgnings- og grupperingsalgoritmer såsom hierarkisk
cluster
-analyse og
self-organizing maps
(SOM). Hierarkisk
cluster
-analyse starter med, at to gener, der har et korreleret ekspressionsmønster, grupperes. Algoritmen køres iterativt, indtil alle gener er placeret i
clusters
. Ligheder mellem grupperede gener visualiseres med en træstruktur kaldet et dendrogram. Længden af grenene i dendrogrammet angiver ligheden mellem genernes ekspression, idet kortere grene angiver større similaritet. Til forskel fra den hierarkiske
cluster
-metode grupperer SOM-algoritmen gener i
clusters
, hvor antallet af
clusters
, der dannes, er angivet som inputparameter. Ved brug af
cluster
-analyse er det muligt i micro-
array
-data at visualisere og finde strukturer, der har relation til de biologiske tilstande som undersøges [3-5].
Den superviserede analyse har typisk to formål: at identificere gener, der er differentielt udtrykt mellem grupper af prøver, og at finde gener, vha. hvilke man kan forudsige prøvers klassetilhørsforhold.
En superviseret klassifikationsanalyse tager udgangspunkt i en prædefineret gruppeinddeling af prøver. Eksempelvis kan man indsamle prøver fra kræftpatienter, før man påbegynder behandling, og derefter opdele prøverne i henhold til, om patienterne efter behandling er gået i komplet remission eller ikke har responderet på kemoterapi. I dette tilfælde er målet med datanalysen at definere de gener, som man bedst kan bruge til at beskrive hhv. godt og dårligt behandlingsrespons med, og at anvende disse gener til at opstille en matematisk model, som kan anvendes, når man skal forudsige fremtidige patienters behandlingsrespons.
Eksempler på kræftstudier, hvor prognostiske metoder eller klassifikationsmetoder er anvendt, omfatter bl.a. studier af akut leukæmi [4], diffust storcellet B-celle-lymfom [6, 7] og blærekræft [8].
Microarrays
er også anvendt til diagnosticering af ukendte primærtumorer baseret på ligheder med kendte kræftformer.
Der er tre stadier i en klassifikationsanalyse; det første stadie er genselektion, det andet stadie er specifikation af den matematiske algoritme (prædiktor) og dens indgående parametre på basis af de udvalgte gener, og det tredje stadie i analysen er validering af modellen på uafhængige datasæt. Typisk opdeles prøverne i to grupper, et træningssæt og et testsæt. Genselektion og parameterspecifikation foregår på træningssættet, og validering af modellen udføres på testsættet.
Alfa og omega for en prædiktor er, at man vha. af den opnår at kunne give korrekte forudsigelser af nye kliniske prøver, hvis klassetilhørsforhold er ukendt. Disse forudsigelser udgør resultatet fra modellen.
En af de større faldgruber i forbindelse med træning af en klassifikationsmodel på
microarray
-data er
overfitting
eller
underfitting
.
Overfitting
kan forekomme, når antallet af parametre (gener) i modellen er meget større end antallet af prøver, og modellen bliver for kompleks. Ved
overfitting
opstilles der ud fra data i træningssættet en prædiktor, som er så »god«, at man vha. den ud over de generelle forskelle, f.eks. mellem to kræftsubtyper, også kan inddrage variationer i data, der er irrelevante med hensyn til klassifikation af subtyper. Dermed kan man vha. modellen bedre opdele prøverne i træningssættet i de »rigtige« grupper, men man kan ikke benytte den til generaliseret at virke på nye uafhængige data fra patienter med den samme sygdom. Ved
underfitting
opstilles en model, som enten er for simpel, når man skal indlære og beskrive de essentielle egenskaber i de data, der modelleres, eller hvor de indgående parametre ikke er tilstrækkelig optimerede [9].
En metode til at minimere
overfitting
på er at estimere og optimere en fejlfrekvens for alle de varianter af modellen, der opstilles under gentagne krydsvalideringer. I en krydsvalidering udelukkes prøverne i træningssættet på skift, og de bedste gruppediskriminerende gener udvælges i de tilbageværende prøver. Disse gener fødes ind i en række af klassifikationsmodeller, som hver især trænes, optimeres og testes på den eller de prøver, der er udelukket fra træningssættet. Denne proces gentages flere gange, og den gennemsnitlige succesrate for hver gennemkørsel anvendes til estimering af en overordnet fejlfrekvens for den enkelte klassifikationsmodel. Endelig bliver den optimale model, dvs. den som med et passende antal gener kan give en acceptabel prognostisk nøjagtighed (f.eks. 90% rigtige klassifikationer), udvalgt. Modellens prognostiske fejlrate på trænings- og testsætdata sammenlignes med den observerede fejlrate, som modellen giver, når den køres på tilfældigt permuterede datasæt (tilfældig gruppering af prøver), for at afgøre hvorvidt en lige så god klassificering kan opnås tilfældigt. Til sidst bestemmes den sande prognostiske succesrate ved afprøvning af modellens klassfikationsevne på nye uafhængige data.