Laurent Gatto | Institut de Duve

Link to our page CBIO Lab

Moderne high throughput biologie produceert meer gegevens die kunnen worden geanalyseerd, en de uitdagingen van de moderne biologie liggen in de statistische interpretatie en integratie van deze gegevens. De onderzoekers en ingenieurs van de groep Computationele Biologie ontwerpen nieuwe computationele technieken om hoog-dimensionale biologie te begrijpen en high throughput biomedisch onderzoek mogelijk te maken.

De laatste tien jaar hebben de biologie en biomedische wetenschappen een indrukwekkende toename gezien in de omvang van de gegevens die worden verzameld als onderdeel van routine onderzoeksprojecten. De toename in hoeveelheid en complexiteit van dergelijke gegevens leiden tot wat sommigen een gegevenszondvloed noemen. De enorme hoeveelheid gegevens die wordt geproduceerd overweldigt inderdaad het vermogen van individuele onderzoekers en onderzoeksgroepen om deze te beheren, te analyseren en zinvolle informatie eruit te extraheren. Deze revolutie verschuift het biomedisch onderzoek naar de kwantitatieve kant van de wetenschap, en is gedreven door technologische doorbraken die ons vandaag de dag in staat stellen om het hele genoom te sequensen, de bijna complete set van transcripten of eiwitten te kwantificeren, epigenetische modificaties over hele genomen te meten en post-translationele modificaties, interacties en lokalisatie van eiwitten te onderzoeken. Maar de vraag blijft: wat te doen met al die gegevens?

Laten we Legoblokjes als analogie gebruiken om te illustreren hoe grote hoeveelheden gegevens moeilijk te hanteren kunnen zijn. In een klassieke biologische experimentele opzet, zouden onderzoekers zich richten op een bepaald belangrijk gen of klein stel genen. Ze zouden experimenten ontwerpen om hun specifieke vraag te beantwoorden, deze uitvoeren en, na het verzamelen van de gegevens, deze (meestal) handmatig analyseren. Ze zouden conclusies trekken die hun werkmodel zouden ondersteunen of tegenspreken en de volgende reeks experimenten dienovereenkomstig ontwerpen. Vanuit een Lego-oogpunt zou dit overeenkomen met het verkrijgen van een Lego-box zoals we die kennen, d.w.z. met alle blokken die nodig zijn om het model te bouwen (en alleen die blokken) en een nauwkeurig bouwplan. Er is geen speciaal gereedschap nodig om de blokken te vinden en uit te zoeken hoe ze moeten worden samengesteld; zelfs voor relatief grote sets is het, als je voldoende tijd krijgt, eenvoudig genoeg om de instructies te volgen en het uiteindelijke product te produceren.

Stel je nu voor dat de blokken of de bouwkaart in de war zijn.

Stel je voor dat je box veel meer blokken bevat dan je eigenlijk nodig hebt, dat sommige blokken die nodig zijn voor je eindproduct ontbreken (en dat je niet weet of dat zo is of welke blokken ontbreken), en dat de blokken niet gesorteerd zijn in kleine zakjes, maar geleverd in een enkele grote zak, met mogelijk meerdere orden van grootte extra blokken. Stel je nu voor dat de instructies willekeurig stappen of pagina's missen, of dat de instructies volledig ontbreken, maar dat je een idee hebt van wat er moet worden gebouwd. In dergelijke situaties heb je algoritmen en hulpmiddelen nodig die de blokken automatisch sorteren en rangschikken op grootte, kleur, vorm, ... en algoritmen die je informeren welke stukken waarschijnlijk relevant zijn voor het model dat je wilt bouwen.

Dit klinkt als een hopeloze situatie, maar dat is het niet. Er zijn talloze mogelijkheden om veel gegevens te verzamelen, zelfs als de feitelijke bouwinstructies ontbreken. Inderdaad zijn de extra blokken niet willekeurig, ze maken deel uit van iets groters. Stel je voor dat je oorspronkelijk de Millennium Falcon uit de Star Wars-films wilde bouwen, en dat de reden dat je dat schip wilt bouwen is dat je geïnteresseerd bent in de technologie van de Rebel Alliance of zelfs in het hele Star Wars-universum. Zelfs als de extra blokken niet direct relevant zijn voor het bouwen van de Millennium Falcon, kunnen ze waardevolle informatie opleveren over de technologie die beschikbaar was toen het schip werd gebouwd. Met de juiste algoritmen kun je mogelijk je schip bouwen en aanvullende informatie over het Star Wars-universum verzamelen. Of, zelfs als het je niet lukt om het hele schip te bouwen, kan de aanvullende informatie eigenlijk veel meer onthullen over het Lego Star Wars-universum dan wanneer je alleen focust op het ene schip.

Methoden die alleen de Lego-blokken in overweging nemen, zonder enige aanvullende informatie (zoals of sommige blokken worden gebruikt om Rebellen- of Empire-schepen te bouwen, of delen van de handleiding) worden "unsupervised" genoemd. Zulke methoden kunnen worden gebruikt om alle blokken te groeperen en clusters van blokken met vergelijkbare kenmerken te identificeren. Als er aanvullende informatie beschikbaar is, zoals of een blok wordt gebruikt voor een type schip, en we willen een nieuw blok classificeren met betrekking tot welk type schip het behoorde, dan spreken we van een "supervised" analyse. Gezien het grote aantal blokken voorhanden, willen we ook onze verzameling samenvatten door de soorten blokken te tellen, hoeveel blokken van elk type we hebben en deze diversiteit visueel representeren.

In bioinformatica zouden de blokken typisch worden vervangen door kwantitatieve metingen van de overvloed aan biologische entiteiten, zoals transcripten of eiwitten. De annotatie voor de supervised analyse zou beschrijven of deze monsters wildtype cellijnen zijn, of gezonde donoren, of juist cellen die bloot zijn gesteld aan een bepaald geneesmiddel of met een ontbrekend gen, of patiënten die lijden aan een specifieke ziekte.

Een ander belangrijk kenmerk van de gegevens en de aard van moderne, high-throughput biologie, is dat de vragen die worden gesteld zijn verschoven van ondubbelzinnig en universeel naar contextspecifiek, probabilistischen definitieafhankelijk (zie Quincey Justman [2018] voor een inzichtelijke documentatie hiervan). De complexiteit van wat we meten en wat we vragen vereist dat we accepteren dat zekerheden en determinisme worden vervangen door kansen en onzekerheden die gekwantificeerd moeten worden om waardevolle kennis te verwerven.
Dit is de figuratieve situatie waarin de moderne biomedische wetenschap zich bevindt: enorme mogelijkheden om een veel breder beeld te krijgen van de hele cel, orgaan, lichaam, maar ten koste van een complexiteit in wat we meten, en de behoefte aan op maat gemaakte methoden voor het beheer van de verzamelde gegevens en voor het analyseren en begrijpen hiervan. Dat is de rol van bioinformatica en computationele biologie: manieren ontwikkelen om complexe biologische gegevens te begrijpen en zo meer inzicht te krijgen in complexe biologische processen.

Page under construction

Complete list on PubMed

Replication of single-cell proteomics data reveals important computational challenges

Vanderaa C, Gatto L.

Expert Rev Proteomics. 2021; pp1-9.
Spatiotemporal proteomic profiling of the pro-inflammatory response to lipopolysaccharide in the THP-1 human leukaemia cell line

Mulvey CM, Breckels LM, Crook OM, Sanders DJ, Ribeiro ALR, Geladaki A, Christoforou A, Britovšek NK, Hurrell T, Deery MJ, Gatto L, Smith AM, Lilley KS.

Nat Commun. 2021; 12(1):5773.
A semi-supervised Bayesian approach for simultaneous protein sub-cellular localisation assignment and novelty detection

Crook OM, Geladaki A, Nightingale DJH, Vennard OL, Lilley KS, Gatto L, Kirk PDW.

PLoS Comput Biol. 2020; 16(11):e1008288.
MSnbase, Efficient and Elegant R-Based Processing and Visualization of Raw Mass Spectrometry Data

Gatto L, Gibb S, Rainer J.

J Proteome Res. 2021; 20(1):1063-1069.
Aberrant Membrane Composition and Biophysical Properties Impair Erythrocyte Morphology and Functionality in Elliptocytosis

Pollet H, Cloos AS, Stommen A, Vanderroost J, Conrard L, Paquot A, Ghodsi M, Carquin M, Léonard C, Guthmann M, Lingurski M, Vermylen C, Killian T, Gatto L, Rider M, Pyr Dit Ruys S, Vertommen D, Vikkula M, Brouillard P, Van Der Smissen P, Muccioli GG, Tyteca D.

Biomolecules. 2020; 10(8):1120.
Molecular networks in Network Medicine: Development and applications.

Silverman EK, Schmidt HHHW, Anastasiadou E, Altucci L, Angelini M, Badimon L, Balligand JL, Benincasa G, Capasso G, Conte F, Di Costanzo A, Farina L, Fiscon G, Gatto L, Gentili M, Loscalzo J, Marchese C, Napoli C, Paci P, Petti M, Quackenbush J, Tieri P, et al.

Wiley Interdiscip Rev Syst Biol Med. 2020: e1489.
Fast approximate inference for variable selection in Dirichlet process mixtures, with an application to pan-cancer proteomics.

Crook OM, Gatto L, Kirk PDW.

Stat Appl Genet Mol Biol. 2019; 18(6). pii: /j/sagmb.2019.18.issue-6/sagmb-2018-0065/sagmb-2018-0065.xml.
Proteome Mapping of a Cyanobacterium Reveals Distinct Compartment Organization and Cell-Dispersed Metabolism.

Baers LL, Breckels LM, Mills LA, Gatto L, Deery MJ, Stevens TJ, Howe CJ, Lilley KS, Lea-Smith DJ.

Plant Physiol. 2019; 181(4):1721-1738.
Reproducibility and Transparency by Design.

Petyuk VA, Gatto L, Payne SH.

Mol Cell Proteomics. 2019; 18(8 suppl 1):S202-S204.
A Bioconductor workflow for the Bayesian analysis of spatial proteomics.

Crook OM, Breckels LM, Lilley KS, Kirk PDW, Gatto L.

F1000Res. 2019; 8:446.
Combining LOPIT with differential ultracentrifugation for high-resolution spatial proteomics.

Geladaki A, Kočevar Britovšek N, Breckels LM, Smith TS, Vennard OL, Mulvey CM, Crook OM, Gatto L, Lilley KS.

Nat Commun. 2019; 10(1):331.
ensembldb: an R package to create and use Ensembl-based annotation resources.

Rainer J, Gatto L, Weichenberger CX.

Bioinformatics. 2019; 35(17):3151-3153.
Assessing sub-cellular resolution in spatial proteomics experiments.

Gatto L, Breckels LM, Lilley KS.

Curr Opin Chem Biol. 2018; 48:123-49.
A Bayesian mixture modelling approach for spatial proteomics.

Crook OM, Mulvey CM, Kirk PDW, Lilley KS, Gatto L.

PLoS Comput Biol. 2018; 14(11):e1006516.
A Bioconductor workflow for processing and analysing spatial proteomics data.

Breckels LM, Mulvey CM, Lilley KS, Gatto L.

Version 2. F1000Res. 2016 [revised 2018]; 5:2926.
Learning from Heterogeneous Data Sources: An Application in Spatial Proteomics.

Breckels LM, Holden SB, Wojnar D, Mulvey CM, Christoforou A, Groen A, Trotter MW, Kohlbacher O, Lilley KS, Gatto L.

PLoS Comput Biol. 2016; 12(5):e1004920.
A draft map of the mouse pluripotent stem cell spatial proteome.

Christoforou A, Mulvey CM, Breckels LM, Geladaki A, Hurrell T, Hayward PC, Naake T, Gatto L, Viner R, Martinez Arias A, Lilley KS.

Nat Commun. 2016; 7:8992.
Visualization of proteomics data using R and bioconductor.

Gatto L, Breckels LM, Naake T, Gibb S.

Proteomics. 2015; 15(8):1375-89.
Orchestrating high-throughput genomic analysis with Bioconductor.

Huber W, Carey VJ, Gentleman R, Anders S, Carlson M, Carvalho BS, Bravo HC, Davis S, Gatto L, Girke T, Gottardo R, Hahne F, Hansen KD, Irizarry RA, Lawrence M, Love MI, MacDonald J, Obenchain V, Oleś AK, Pagès H, Reyes A, Shannon P, et al.

Nat Methods. 2015; 12(2):115-21.
A foundation for reliable spatial proteomics data analysis.

Gatto L, Breckels LM, Burger T, Nightingale DJ, Groen AJ, Campbell C, Nikolovski N, Mulvey CM, Christoforou A, Ferro M, Lilley KS.

Mol Cell Proteomics. 2014; 13(8):1937-52.
ProteomeXchange provides globally coordinated proteomics data submission and dissemination.

Vizcaíno JA, Deutsch EW, Wang R, Csordas A, Reisinger F, Ríos D, Dianes JA, Sun Z, Farrah T, Bandeira N, Binz PA, Xenarios I, Eisenacher M, Mayer G, Gatto L, Campos A, Chalkley RJ, Kraus HJ, Albar JP, Martinez-Bartolomé S, Apweiler R, Omenn GS, et al.

Nat Biotechnol. 2014; 32(3):223-6.
Mass-spectrometry-based spatial proteomics data analysis using pRoloc and pRolocdata.

Gatto L, Breckels LM, Wieczorek S, Burger T, Lilley KS.

Bioinformatics. 2014; 30(9):1322-4.
Using R and Bioconductor for proteomics data analysis.

Gatto L, Christoforou A.

Biochim Biophys Acta. 2014; 1844(1 Pt A):42-51.
A cross-platform toolkit for mass spectrometry and proteomics.

Chambers MC, Maclean B, Burke R, Amodei D, Ruderman DL, Neumann S, Gatto L, Fischer B, Pratt B, Egertson J, Hoff K, Kessner D, Tasman N, Shulman N, Frewen B, Baker TA, Brusniak MY, Paulse C, Creasy D, Flashner L, Kani K, Moulding C, et al.

Nat Biotechnol. 2012; 30(10):918-20.
MSnbase-an R/Bioconductor package for isobaric tagged mass spectrometry data visualization, processing and quantitation.

Gatto L, Lilley KS.

Bioinformatics. 2012; 28(2):288-9.
Exploiting the DepMap cancer dependency data using the depmap R package.

Killian T, Gatto L.

F1000Research 2021; 10:416.