Revue TELECOM 193 - Les technologies de séquençage Faire face au déluge de données génomiques
LES TECHNOLOGIES DE SEQUENCAGE
Faire face au déluge de données génomiques
Par Jean-François Gibrat dans la revue TELECOM n° 193
Au cours des 25 dernières années, les technologies de séquençage ont acquis une place centrale en biologie. Ces technologies produisent maintenant un déluge de données qu’il faut stocker et traiter. C’est le rôle de la bioinformatique qui est une discipline alliant les mathématiques et l’informatique et qui se consacre à l’analyse des données produites par les sciences du vivant.
Pourquoi séquencer ?
Dans un premier temps, le séquençage permet de déterminer l’information génétique d’un organisme (son ADN sous la forme d’un ou plusieurs chromosomes constituant son génome). Le génome de l’organisme d’intérêt est morcelé en un très grand nombre de fragments redondants dont une partie de la séquence est déterminée par les technologies de séquençage (la partie séquencée d’un fragment est appelée une « lecture »). Du fait de la redondance, ces lectures sont chevauchantes. On tire parti de ce chevauchement pour reconstituer le génome original (on parle d’assemblage du génome). La longue chaîne de nucléotides (nt) résultante est ensuite analysée par des techniques de bioinformatique pour en extraire de l’information biologique. On prédit ainsi in silico les gènes et les signaux associés, on déduit de la séquence des gènes la séquence des protéines correspondantes, on infère ensuite la fonction de ces protéines en comparant leur séquence à celles stockées dans de grandes collections de données internationales. À partir des fonctions, il est possible de reconstituer les différentes voies métaboliques de l’organisme étudié. Ce processus d’analyse in silico est appelé « annotation du génome ».
Cependant, même lorsque le génome d’un organisme est déjà connu, on peut être amené à le séquencer de nouveau pour étudier, par exemple, l’expression des gènes dans certaines conditions, la régulation de l’expression des gènes, les « variants » génomiques (mutations ponctuelles, réarrangements chromosomiques, etc.). C’est par exemple le cas en médecine génomique, où on va séquencer le génome d’un patient souffrant d’un cancer pour essayer de déterminer quelle en est la cause (mutation ponctuelle dans un gène ou un site de régulation, réarrangement chromosomique, variation du nombre de copies d’un gène). Ces différentes analyses se basent, en premier lieu, sur des algorithmes d’alignement de chaînes de caractères (les lectures et le génome) qui utilisent un alphabet de quatre lettres.
Les technologies de séquençage
Actuellement, nous en sommes à la 3ème génération de technologie de séquençage. Les progrès réalisés dans ce domaine ont permis de faire baisser les coûts d’une manière considérable tout en augmentant énormément le rendement (le nombre de nucléotides séquencés en une expérience ou « run »). On a comparé ces progrès à ceux de l’électronique (loi de Moore), sauf que la période de doublement est de 10 mois pour les technologies de séquençage alors qu’elle est de 18 mois pour l’électronique.
Les machines de 1ère génération qui utilisaient la méthode Sanger ont permis de séquencer le premier génome humain (publié en 2001). Elles étaient caractérisées par des lectures de longueur approximativement 800 nt et par un rendement minuscule (96 lectures seulement par run). Le séquençage du génome humain a été réalisé par un consortium international qui opérait des usines entières de telles machines. Le projet a coûté plus de trois milliards de dollars.
À partir de 2007 sont arrivées les technologies de 2ème génération (alors appelées NGS pour « Next Generation Sequencing ») qui ont enclenché le processus de baisse des coûts et d’accroissement concomitant des rendements. À l’heure actuelle, les plus grosses machines de séquençage, opérées par les grands centres de séquençage, peuvent produire en un run 20 milliards de lectures courtes (au plus 2 x 150 nt) pour un rendement de 6 000 milliards de nucléotides séquencés. Ces technologies ont également l’avantage d’avoir un taux d’erreur très faible (< 0.5%). En 2019, certaines sociétés proposent, à titre promotionnel, le séquençage d’un génome humain pour 300 $, dont le coût a ainsi été divisé par un facteur 10 millions en 20 ans. La faible longueur des lectures est le talon d’Achille de ces technologies. En effet, beaucoup de génomes d’organismes supérieurs, entre autres ceux des plantes, sont caractérisés par des répétitions de régions génomiques. Les lectures courtes ne permettent pas « d’enjamber » ces régions causant des difficultés rédhibitoires aux algorithmes d’assemblage (résultant en un morcellement du génome et des connexions incorrectes entre certaines parties du génome).
Les technologies de 3ème génération sont apparues en 2016. Ces technologies se caractérisent par une distribution de longueurs de lecture dont la médiane est autour de 20 000 nt et dont les plus longues lectures dans la queue de distribution peuvent atteindre 100 000 nt. De telles tailles de lectures permettent de résoudre le problème des répétitions dans les génomes. Malheureusement, le taux d’erreur de ces technologies est d’environ 15% (en moyenne, un nucléotide séquencé sur sept est erroné). Ces technologies ont également des rendements moyens (entre 1 et 10 milliards de nucléotides par run), mais qui croissent rapidement.
Les défis posés par les technologies de séquençage
Contrairement à d’autres disciplines, comme la physique nucléaire ou l’astronomie, les sciences de la vie n’avaient pas l’habitude de gérer et d’analyser de tels déluges de données. À partir de 2010, il a donc fallu s’adapter rapidement, ce qui a été une des tâches de la communauté en bioinformatique. Il a fallu résoudre des problèmes de stockage de l’information. L’EBI (European Bioinformatics Institute) conserve ainsi dans son archive ENA (European Nucleotide Archive) 1016 nucléotides correspondant à 1014 lectures issues d’expériences publiées. De même, le traitement des données est très consommateur de ressources de calcul. La communauté bioinformatique s’est donc organisée pour offrir des ressources informatiques : stockage, calcul, mémoire vive, éventuellement sous forme de machines virtuelles dans un Cloud national dédié ou grâce à des plates-formes de bioinformatique disséminées sur l’ensemble du territoire (cf. Institut Français de Bioinformatique https://www.france-bioinformatique. fr). Ces plates-formes permettent également l’utilisation des très nombreux logiciels de bioinformatique nécessaires à l’analyse des données ainsi que l’accès aux collections de données majeures (telles ENA) qui répertorient l’ensemble des connaissances et données accumulées à ce jour par les sciences de la vie.
Outre son implication dans ces aspects d’infrastructure informatique, la bioinformatique joue un rôle déterminant dans le développement des algorithmes d’analyse des données brutes. Ainsi, chaque nouvelle génération de technologie de séquençage a nécessité la refonte complète des algorithmes fondamentaux d’analyse (assemblage de lectures et alignement de lectures). De même, les biologistes inventent constamment de nouvelles utilisations des technologies de séquençage leur permettant de s’intéresser à de nouvelles questions biologiques qui leur étaient, jusqu’à présent, inaccessibles. Ces nouveaux usages entraînent également le développement de nouveaux algorithmes d’analyse.
Glossaire
ADN : l’acide désoxyribonuclique, est une macromolécule constituée de quatre types de monomère, Adénine (A), Cytosine (C), Guanine (G), Thymine (T) qui s’apparient 2 à 2 (A avec T et G avec C) quand deux brins s’assemblent pour former une double hélice. L’ADN contient l’information génétique d’un organisme.
Annotation : processus informatique intégrant de nombreuses méthodes bioinformatiques et collections de données / bases de connaissances dans lequel on infère des connaissances biologiques à partir des données brutes.
Assemblage : processus par lequel on reconstitue le génome d’un organisme à partir des lectures.
Bioinformatique : discipline alliant les mathématiques et l’informatique pour analyser in silico les données produites par les sciences du vivant.
Expression des gènes : processus moléculaire d’activation d’un gène qui est d’abord transcrit en ARN messager puis cet ARN traduit en séquence de protéine laquelle adopte ensuite une conformation 3D propre dans l’espace pour donner une protéine fonctionnelle.
Gène : portion du génome qui (en général) code la séquence d’une protéine.
Génome : ensemble de l’information génétique (sous forme d’ADN) permettant le développement, le fonctionnement et la reproduction des êtres vivants.
Lecture : la partie d’un fragment d’ADN séquencée par une technologie de séquençage.
Nucléotide : un des quatre types de monomères de l’ADN (abréviation nt)
Protéine : macromolécule constituée de 20 types de monomères (les acides aminés). Les protéines remplissent de très nombreuses fonctions dans les cellules. Ce sont les « machines » moléculaires qui font fonctionner la cellule.
Régulation de l’expression des gènes : l’expression des gènes est finement régulée par différents processus biologiques où interviennent, entre autres, différentes protéines.
Rendement : nombre de nucléotides séquencés en un run d’une machine.
Run : terme anglais faisant référence à une expérience de séquençage avec une machine particulière.
Sanger : Frederick Sanger était un biochimiste britannique qui a obtenu deux prix Nobel, l’un pour le développement d’une méthode de séquençage des protéines et l’autre pour le développement d’une méthode de séquençage de l’ADN.
Site de régulation : petite région de l’ADN, en général en amont d’un gène, où viennent se fixer spécifiquement des protéines qui régulent l’expression du gène (ou des gènes) en aval.
Voies métaboliques : ensemble de réactions biochimiques catalysées par des protéines qui produisent un composé nécessaire à la cellule.
Variants génomiques : les différents types de modifications que peut subir l’ADN, mutation ponctuelle d’un nucléotide, délétion d’une partie de la séquence d’ADN, duplication d’une région de la séquence, réarrangements de morceaux d’ADN, etc.
À retenir • Les technologies de séquençage modernes produisent une avalanche de données qu’il faut stocker et traiter (jusqu’à 6 1012 nucléotides séquencés en une seule expérience). • La bioinformatique est une discipline alliant mathématiques et informatique dédiée au traitement des données des sciences du vivant. • Au cours des 10 dernières années, la communauté en bioinformatique s’est organisée pour fournir les ressources informatiques requises pour stocker et explorer ces grandes masses de données. • La bioinformatique se consacre également au développement d’algorithmes performants adaptés à l’analyse des différents types de données produites par les sciences de la vie. |
Biographie de l'auteur
Jean-François Gibrat est directeur de recherche à l’INRA et travaille dans l’unité Mathématiques et Informatique Appliquées du Génome à l’Environnement (MaIAGE) du centre de recherche INRA de Jouy-en-Josas. Il a été coordinateur du projet PIA qui a permis de créer l’Institut Français de Bioinformatique et en a assuré la direction de 2013 à 2017. Il se consacre maintenant au développement de méthodes permettant de corriger et d’assembler les données de séquençage produites par les technologies de 3e génération.