Moderne high throughput biologie produceert meer gegevens die kunnen worden geanalyseerd, en de uitdagingen van de moderne biologie liggen in de statistische interpretatie en integratie van deze gegevens. De onderzoekers en ingenieurs van de groep Computationele Biologie ontwerpen nieuwe computationele technieken om hoog-dimensionale biologie te begrijpen en high throughput biomedisch onderzoek mogelijk te maken.
De laatste tien jaar hebben de biologie en biomedische wetenschappen een indrukwekkende toename gezien in de omvang van de gegevens die worden verzameld als onderdeel van routine onderzoeksprojecten. De toename in hoeveelheid en complexiteit van dergelijke gegevens leiden tot wat sommigen een gegevenszondvloed noemen. De enorme hoeveelheid gegevens die wordt geproduceerd overweldigt inderdaad het vermogen van individuele onderzoekers en onderzoeksgroepen om deze te beheren, te analyseren en zinvolle informatie eruit te extraheren. Deze revolutie verschuift het biomedisch onderzoek naar de kwantitatieve kant van de wetenschap, en is gedreven door technologische doorbraken die ons vandaag de dag in staat stellen om het hele genoom te sequensen, de bijna complete set van transcripten of eiwitten te kwantificeren, epigenetische modificaties over hele genomen te meten en post-translationele modificaties, interacties en lokalisatie van eiwitten te onderzoeken. Maar de vraag blijft: wat te doen met al die gegevens?
Laten we Legoblokjes als analogie gebruiken om te illustreren hoe grote hoeveelheden gegevens moeilijk te hanteren kunnen zijn. In een klassieke biologische experimentele opzet, zouden onderzoekers zich richten op een bepaald belangrijk gen of klein stel genen. Ze zouden experimenten ontwerpen om hun specifieke vraag te beantwoorden, deze uitvoeren en, na het verzamelen van de gegevens, deze (meestal) handmatig analyseren. Ze zouden conclusies trekken die hun werkmodel zouden ondersteunen of tegenspreken en de volgende reeks experimenten dienovereenkomstig ontwerpen. Vanuit een Lego-oogpunt zou dit overeenkomen met het verkrijgen van een Lego-box zoals we die kennen, d.w.z. met alle blokken die nodig zijn om het model te bouwen (en alleen die blokken) en een nauwkeurig bouwplan. Er is geen speciaal gereedschap nodig om de blokken te vinden en uit te zoeken hoe ze moeten worden samengesteld; zelfs voor relatief grote sets is het, als je voldoende tijd krijgt, eenvoudig genoeg om de instructies te volgen en het uiteindelijke product te produceren.
Stel je nu voor dat de blokken of de bouwkaart in de war zijn.
Stel je voor dat je box veel meer blokken bevat dan je eigenlijk nodig hebt, dat sommige blokken die nodig zijn voor je eindproduct ontbreken (en dat je niet weet of dat zo is of welke blokken ontbreken), en dat de blokken niet gesorteerd zijn in kleine zakjes, maar geleverd in een enkele grote zak, met mogelijk meerdere orden van grootte extra blokken. Stel je nu voor dat de instructies willekeurig stappen of pagina's missen, of dat de instructies volledig ontbreken, maar dat je een idee hebt van wat er moet worden gebouwd. In dergelijke situaties heb je algoritmen en hulpmiddelen nodig die de blokken automatisch sorteren en rangschikken op grootte, kleur, vorm, ... en algoritmen die je informeren welke stukken waarschijnlijk relevant zijn voor het model dat je wilt bouwen.
Dit klinkt als een hopeloze situatie, maar dat is het niet. Er zijn talloze mogelijkheden om veel gegevens te verzamelen, zelfs als de feitelijke bouwinstructies ontbreken. Inderdaad zijn de extra blokken niet willekeurig, ze maken deel uit van iets groters. Stel je voor dat je oorspronkelijk de Millennium Falcon uit de Star Wars-films wilde bouwen, en dat de reden dat je dat schip wilt bouwen is dat je geïnteresseerd bent in de technologie van de Rebel Alliance of zelfs in het hele Star Wars-universum. Zelfs als de extra blokken niet direct relevant zijn voor het bouwen van de Millennium Falcon, kunnen ze waardevolle informatie opleveren over de technologie die beschikbaar was toen het schip werd gebouwd. Met de juiste algoritmen kun je mogelijk je schip bouwen en aanvullende informatie over het Star Wars-universum verzamelen. Of, zelfs als het je niet lukt om het hele schip te bouwen, kan de aanvullende informatie eigenlijk veel meer onthullen over het Lego Star Wars-universum dan wanneer je alleen focust op het ene schip.
Methoden die alleen de Lego-blokken in overweging nemen, zonder enige aanvullende informatie (zoals of sommige blokken worden gebruikt om Rebellen- of Empire-schepen te bouwen, of delen van de handleiding) worden "unsupervised" genoemd. Zulke methoden kunnen worden gebruikt om alle blokken te groeperen en clusters van blokken met vergelijkbare kenmerken te identificeren. Als er aanvullende informatie beschikbaar is, zoals of een blok wordt gebruikt voor een type schip, en we willen een nieuw blok classificeren met betrekking tot welk type schip het behoorde, dan spreken we van een "supervised" analyse. Gezien het grote aantal blokken voorhanden, willen we ook onze verzameling samenvatten door de soorten blokken te tellen, hoeveel blokken van elk type we hebben en deze diversiteit visueel representeren.
In bioinformatica zouden de blokken typisch worden vervangen door kwantitatieve metingen van de overvloed aan biologische entiteiten, zoals transcripten of eiwitten. De annotatie voor de supervised analyse zou beschrijven of deze monsters wildtype cellijnen zijn, of gezonde donoren, of juist cellen die bloot zijn gesteld aan een bepaald geneesmiddel of met een ontbrekend gen, of patiënten die lijden aan een specifieke ziekte.
Een ander belangrijk kenmerk van de gegevens en de aard van moderne, high-throughput biologie, is dat de vragen die worden gesteld zijn verschoven van ondubbelzinnig en universeel naar contextspecifiek, probabilistischen definitieafhankelijk (zie Quincey Justman [2018] voor een inzichtelijke documentatie hiervan). De complexiteit van wat we meten en wat we vragen vereist dat we accepteren dat zekerheden en determinisme worden vervangen door kansen en onzekerheden die gekwantificeerd moeten worden om waardevolle kennis te verwerven.
Dit is de figuratieve situatie waarin de moderne biomedische wetenschap zich bevindt: enorme mogelijkheden om een veel breder beeld te krijgen van de hele cel, orgaan, lichaam, maar ten koste van een complexiteit in wat we meten, en de behoefte aan op maat gemaakte methoden voor het beheer van de verzamelde gegevens en voor het analyseren en begrijpen hiervan. Dat is de rol van bioinformatica en computationele biologie: manieren ontwikkelen om complexe biologische gegevens te begrijpen en zo meer inzicht te krijgen in complexe biologische processen.
Expert Rev Proteomics. 2021; pp1-9.
Nat Commun. 2021; 12(1):5773.
PLoS Comput Biol. 2020; 16(11):e1008288.
J Proteome Res. 2021; 20(1):1063-1069.
Biomolecules. 2020; 10(8):1120.
F1000Res. 2019; 8:446.
PLoS Comput Biol. 2018; 14(11):e1006516.
Nat Biotechnol. 2012; 30(10):918-20.
F1000Research 2021; 10:416.
COMPUTATIONELE BIOLOGIE EN BIOINFORMATICA