Revue TELECOM 193 - La génomique, un secteur dynamique en évolution constante
LA GENOMIQUE, UN SECTEUR DYNAMIQUE EN EVOLUTION CONSTANTE
Par Yannick Laurent dans la revue TELECOM n° 193
Biologie, informatique, statistiques, représentation de données …
La génomique est un vaste secteur d’activité au croisement de toutes ces disciplines. Découvrez ce secteur changeant qui traverse aujourd’hui le 3ème tournant de son histoire avec le big-data, le machine learning, et l’IA.
Le séquençage de l’ADN, une révolution
En 2003, le premier génome humain est décrypté. Pour lire les trois milliards de nucléotides d’un seul individu (les « briques » de l’ADN), il aura fallu 13 ans de travaux communs entre 20 centres de recherche et environ trois milliards de dollars. Les potentialités de cette réussite sont énormes, mais les coûts sont tels que les applications médicales et industrielles sont impensables à l’époque.
En 2007, les évolutions technologiques, notamment en optique, automatique et informatique ont permis de franchir un cap décisif. De la lecture des nucléotides un à un, cette nouvelle approche éclate le génome en de très nombreux petits fragments pour les lire simultanément, puis recomposer ce puzzle par informatique. Ce changement de paradigme permet de réduire les coûts de séquençage pour un million de nucléotides (Mb) de 5 000 $ en 2001, à 0.01$ en 2017. Une baisse des coûts encore plus drastique que la Loi de Moore qui permet à cette révolution d’impacter fortement la médecine et l’industrie.
L’analyse de donnée au cœur du séquençage moderne
Le séquençage de l’ADN permet de répondre à toutes sortes de questions : définir le sexe d’un animal avant sa naissance, identifier une bactérie, sélectionner les meilleurs animaux pour l’élevage, prédire des maladies génétiques, des antibiorésistances… Pour apporter ces réponses, la séquence de l’individu étudié seule ne suffit pas, il faut aussi lui donner du sens. L’analyse de ces données est réalisée par une branche particulière de l’informatique, la bioinformatique.
Cette branche exploite les outils informatiques (algorithmique, programmation en python, C, java…) et mathématiques (graphe de De Bruijn, chemins Euleriens, chaînes de Markov, matrices de substitutions et/ou de similarité). Ces outils sont appliqués dans des domaines différents de ceux pour lesquels ils ont été développés. Il est d’ailleurs essentiel de garder un œil critique afin d’en ressortir le véritable sens biologique.
De l’individu à la population, la nouvelle révolution
La complexité des projets augmente au fur et à mesure que le prix diminue. Quand séquencer le génome d’une bactérie représentait un défi il y a 10 ans, il est aujourd’hui possible de séquencer celui d’un environnement complet. On parle alors de microbiote (ex : du sol, de l’intestin, de la peau…).
La masse de données générée par le séquençage de tels échantillons est colossale, et l’analyse de celles-ci nécessite l’utilisation de nouveaux outils statistiques (alpha-raréfaction, alpha-diversité, normalisation, calcul de foldchange, beta-diversité, GWAS…) et de représentation de données (PCA [Principal ComponentAanalysis], PCoA [Principal Coordinate Analysis], MDS [Multidimensional scaling] …).
L’évolution des techniques et méthodes situées à l’interface Biologie-Informatique-Big Data crée un engouement fort pour des méthodes permettant d’analyser de plus en plus de données. L’augmentation du nombre de variables que les biologistes souhaitent étudier simultanément augmente encore la quantité de données à analyser et les connaissances des data-scientists (machine learning, réseaux neuronaux, IA) deviennent de plus en plus recherchées.
Ce nouveau métier, que l’on pourrait qualifier de « bio data-scientist » amènera à la bioinformatique des algorithmes d’analyse supérieurs rendu possible par une puissance de calcul en expansion constante. Comme les bioinformaticiens ont amené l’informatique dans les laboratoires, le data scientist leur apportera le machine learning.
À PROPOS DE GENOSCREEN
GenoScreen est une société française spécialisée en Génomique et en Bioinformatique. Elle développe des services et des solutions innovantes basées sur la caractérisation et l’exploitation de l’ADN et de l’ARN dans le but de maîtriser l’information génomique au service de la santé de l’Homme et de son environnement.
www.genoscreen.com @Genoscreen
Biographie de l'auteur
Yannick Laurent est ingénieur en Bioinformatique au sein de GenoScreen depuis 2013 après un Bachelor en biotechnique à finalité Bioinformatique et Imagerie de l’ISIMs, Mons (Belgique).
Retour au sommaire de la revue 193