Conceptualisation et exploitation d’un graphe de pangénome partitionné comme représentation compacte de la diversité du répertoire génique des espèces procaryotes
Introduites en microbiologie en 2005, les approches pangénomiques visent à compiler l'ensemble de la diversité génomique d'une espèce. Dans ces études, on distingue généralement à l'intérieur du pangénome, le génome coeur, c'est-à-dire l'ensemble des familles de gènes où les...
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Dissertation |
Sprache: | fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Introduites en microbiologie en 2005, les approches pangénomiques visent à compiler l'ensemble de la diversité génomique d'une espèce. Dans ces études, on distingue généralement à l'intérieur du pangénome, le génome coeur, c'est-à-dire l'ensemble des familles de gènes où les représentants géniques sont présents dans tous les organismes; et d'autre part, le génome accessoire qui correspond aux gènes spécifiques à certains organismes seulement. Cependant, on constate que le concept de génome coeur est limitant avec un nombre important d'organismes car des gènes bien que fonctionnellement indispensables peuvent être absents de certains génomes. Pour limiter ce phénomène la quasi-totalité des études utilisent un seuil arbitraire de présence (généralement 95%) pour définir un génome coeur assoupli. De plus, cette dichotomie entre le génome coeur et accessoire ne rend pas compte des nombreuses gammes de fréquence d'apparition des gènes dans un pangénome. Ce travail de thèse a pour objectif de proposer une approche statistique basé sur un modèle mixé multivarié de Bernoulli couplé à un champ de Markov caché pour partitionner le pangénome afin d'être résilient aux absences de gènes et de mieux distinguer les différents schémas de présence/absence des gènes. En parallèle, plusieurs structures de données basées sur des graphes de pangénomes ont été développées ces dernières années. En effet, exploiter la totalité des informations disponibles dans un génome et non plus seulement la présence de gènes isolés est désormais crucial pour correctement rendre compte de l'organisation des génomes et notamment des régions de plasticité génomique dans les espèces. Cette approche se veut le chaînon manquant entre ces nouvelles approches graphiques à l'échelle de la séquence et les approches originelles en familles de gènes isolés. Pour y parvenir, ce travail de thèse s'intéresse donc à la définition, au partitionnement statistique et à l'exploitation d'un graphe d'un pangénome comme représentation compacte de la diversité du répertoire génomique des espèces procaryotes. Enfin, ce graphe est ensuite employé pour analyser la diversité pangénomique de 439 espèces procaryotes.
Introduced in microbiology in 2005, pangenome approaches aim to compile the entire genomic diversity of a species. In these studies, we generally distinguish within the pangenome, the core genome, i.e. the set of gene families where gene representatives are present in all organisms; and on the other hand, the |
---|