Conceptualisation et exploitation d’un graphe de pangénome partitionné comme représentation compacte de la diversité du répertoire génique des espèces procaryotes

Introduites en microbiologie en 2005, les approches pangénomiques visent à compiler l'ensemble de la diversité génomique d'une espèce. Dans ces études, on distingue généralement à l'intérieur du pangénome, le génome coeur, c'est-à-dire l'ensemble des familles de gènes où les...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: Gautreau, Guillaume
Format: Dissertation
Sprache:fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
container_end_page
container_issue
container_start_page
container_title
container_volume
creator Gautreau, Guillaume
description Introduites en microbiologie en 2005, les approches pangénomiques visent à compiler l'ensemble de la diversité génomique d'une espèce. Dans ces études, on distingue généralement à l'intérieur du pangénome, le génome coeur, c'est-à-dire l'ensemble des familles de gènes où les représentants géniques sont présents dans tous les organismes; et d'autre part, le génome accessoire qui correspond aux gènes spécifiques à certains organismes seulement. Cependant, on constate que le concept de génome coeur est limitant avec un nombre important d'organismes car des gènes bien que fonctionnellement indispensables peuvent être absents de certains génomes. Pour limiter ce phénomène la quasi-totalité des études utilisent un seuil arbitraire de présence (généralement 95%) pour définir un génome coeur assoupli. De plus, cette dichotomie entre le génome coeur et accessoire ne rend pas compte des nombreuses gammes de fréquence d'apparition des gènes dans un pangénome. Ce travail de thèse a pour objectif de proposer une approche statistique basé sur un modèle mixé multivarié de Bernoulli couplé à un champ de Markov caché pour partitionner le pangénome afin d'être résilient aux absences de gènes et de mieux distinguer les différents schémas de présence/absence des gènes. En parallèle, plusieurs structures de données basées sur des graphes de pangénomes ont été développées ces dernières années. En effet, exploiter la totalité des informations disponibles dans un génome et non plus seulement la présence de gènes isolés est désormais crucial pour correctement rendre compte de l'organisation des génomes et notamment des régions de plasticité génomique dans les espèces. Cette approche se veut le chaînon manquant entre ces nouvelles approches graphiques à l'échelle de la séquence et les approches originelles en familles de gènes isolés. Pour y parvenir, ce travail de thèse s'intéresse donc à la définition, au partitionnement statistique et à l'exploitation d'un graphe d'un pangénome comme représentation compacte de la diversité du répertoire génomique des espèces procaryotes. Enfin, ce graphe est ensuite employé pour analyser la diversité pangénomique de 439 espèces procaryotes. Introduced in microbiology in 2005, pangenome approaches aim to compile the entire genomic diversity of a species. In these studies, we generally distinguish within the pangenome, the core genome, i.e. the set of gene families where gene representatives are present in all organisms; and on the other hand, the
format Dissertation
fullrecord <record><control><sourceid>abes_RS3</sourceid><recordid>TN_cdi_abes_theses_2020UPASE001</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>2020UPASE001</sourcerecordid><originalsourceid>FETCH-abes_theses_2020UPASE0013</originalsourceid><addsrcrecordid>eNqFjM1twkAQhX3JIUqoIdNAJMdUECEjjkgh52hYT8xK9u4wM47IjTboIFbKcCdUwhp85_R-9L33mP0vYnDE1mHjFc3HAGRAB26it1uuzsdTF6AW5B1BRcAY6qEPsR2tmB-pMPTgYpsqIZahVwrTPLWMzq7LBqHyPyTqLfFVB4lkEoteCMZPv-9GUIGUhz-XDEt0KL_RSJ-zh29slGaTPmUvy3KzWL3ilvTLdqRJirzIP9fvH2Wev83vExeGt19Z</addsrcrecordid><sourcetype>Open Access Repository</sourcetype><iscdi>true</iscdi><recordtype>dissertation</recordtype></control><display><type>dissertation</type><title>Conceptualisation et exploitation d’un graphe de pangénome partitionné comme représentation compacte de la diversité du répertoire génique des espèces procaryotes</title><source>Theses.fr</source><creator>Gautreau, Guillaume</creator><creatorcontrib>Gautreau, Guillaume</creatorcontrib><description>Introduites en microbiologie en 2005, les approches pangénomiques visent à compiler l'ensemble de la diversité génomique d'une espèce. Dans ces études, on distingue généralement à l'intérieur du pangénome, le génome coeur, c'est-à-dire l'ensemble des familles de gènes où les représentants géniques sont présents dans tous les organismes; et d'autre part, le génome accessoire qui correspond aux gènes spécifiques à certains organismes seulement. Cependant, on constate que le concept de génome coeur est limitant avec un nombre important d'organismes car des gènes bien que fonctionnellement indispensables peuvent être absents de certains génomes. Pour limiter ce phénomène la quasi-totalité des études utilisent un seuil arbitraire de présence (généralement 95%) pour définir un génome coeur assoupli. De plus, cette dichotomie entre le génome coeur et accessoire ne rend pas compte des nombreuses gammes de fréquence d'apparition des gènes dans un pangénome. Ce travail de thèse a pour objectif de proposer une approche statistique basé sur un modèle mixé multivarié de Bernoulli couplé à un champ de Markov caché pour partitionner le pangénome afin d'être résilient aux absences de gènes et de mieux distinguer les différents schémas de présence/absence des gènes. En parallèle, plusieurs structures de données basées sur des graphes de pangénomes ont été développées ces dernières années. En effet, exploiter la totalité des informations disponibles dans un génome et non plus seulement la présence de gènes isolés est désormais crucial pour correctement rendre compte de l'organisation des génomes et notamment des régions de plasticité génomique dans les espèces. Cette approche se veut le chaînon manquant entre ces nouvelles approches graphiques à l'échelle de la séquence et les approches originelles en familles de gènes isolés. Pour y parvenir, ce travail de thèse s'intéresse donc à la définition, au partitionnement statistique et à l'exploitation d'un graphe d'un pangénome comme représentation compacte de la diversité du répertoire génomique des espèces procaryotes. Enfin, ce graphe est ensuite employé pour analyser la diversité pangénomique de 439 espèces procaryotes. Introduced in microbiology in 2005, pangenome approaches aim to compile the entire genomic diversity of a species. In these studies, we generally distinguish within the pangenome, the core genome, i.e. the set of gene families where gene representatives are present in all organisms; and on the other hand, the accessory genome which corresponds to genes specific to certain organisms only. However, we noticed that the concept of the core genome is limiting with a large number of organisms because genes, although functionally essentials, may be absent from some genomes. To deal with this issue, almost all studies use an arbitrary threshold of presence (generally 95%) to define a soft core genome. Moreover, this dichotomy between the core and accessory genome does not account for the many ranges of frequencies at which genes appear in a pangenome. The main goal of this thesis work is to introduce a statistical approach based on a multivariate Bernoulli mixture model coupled with a hidden Markov random field to partition the pangenome in order to be resilient to gene absences and to better distinguish the gene presence/absence patterns. In parallel, several data structures based on pangenome graphs have been developed in recent years. Indeed, exploiting all the information available in genomes and not just the presence of isolated genes is crucial to highlight genomic organization and particularly the regions of genomic plasticity in species. This approach is intended to be the missing link between these new graphic approaches at the sequence scale and the original approaches in isolated gene families. To achieve this, this thesis work therefore focuses on the definition, statistical partitioning and exploitation of a graph of a pangenome as a compact representation of the diversity of the genomic repertoire of prokaryotic species. Finally, this graph is then used to analyze the pangenomic diversity of 439 prokaryotic species.</description><language>fre</language><subject>Graphe de pangénome ; Pangenome ; Pangenome graph ; Pangénome</subject><creationdate>2020</creationdate><oa>free_for_read</oa><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><link.rule.ids>230,312,782,887,26990</link.rule.ids><linktorsrc>$$Uhttps://www.theses.fr/2020UPASE001/document$$EView_record_in_ABES$$FView_record_in_$$GABES$$Hfree_for_read</linktorsrc></links><search><creatorcontrib>Gautreau, Guillaume</creatorcontrib><title>Conceptualisation et exploitation d’un graphe de pangénome partitionné comme représentation compacte de la diversité du répertoire génique des espèces procaryotes</title><description>Introduites en microbiologie en 2005, les approches pangénomiques visent à compiler l'ensemble de la diversité génomique d'une espèce. Dans ces études, on distingue généralement à l'intérieur du pangénome, le génome coeur, c'est-à-dire l'ensemble des familles de gènes où les représentants géniques sont présents dans tous les organismes; et d'autre part, le génome accessoire qui correspond aux gènes spécifiques à certains organismes seulement. Cependant, on constate que le concept de génome coeur est limitant avec un nombre important d'organismes car des gènes bien que fonctionnellement indispensables peuvent être absents de certains génomes. Pour limiter ce phénomène la quasi-totalité des études utilisent un seuil arbitraire de présence (généralement 95%) pour définir un génome coeur assoupli. De plus, cette dichotomie entre le génome coeur et accessoire ne rend pas compte des nombreuses gammes de fréquence d'apparition des gènes dans un pangénome. Ce travail de thèse a pour objectif de proposer une approche statistique basé sur un modèle mixé multivarié de Bernoulli couplé à un champ de Markov caché pour partitionner le pangénome afin d'être résilient aux absences de gènes et de mieux distinguer les différents schémas de présence/absence des gènes. En parallèle, plusieurs structures de données basées sur des graphes de pangénomes ont été développées ces dernières années. En effet, exploiter la totalité des informations disponibles dans un génome et non plus seulement la présence de gènes isolés est désormais crucial pour correctement rendre compte de l'organisation des génomes et notamment des régions de plasticité génomique dans les espèces. Cette approche se veut le chaînon manquant entre ces nouvelles approches graphiques à l'échelle de la séquence et les approches originelles en familles de gènes isolés. Pour y parvenir, ce travail de thèse s'intéresse donc à la définition, au partitionnement statistique et à l'exploitation d'un graphe d'un pangénome comme représentation compacte de la diversité du répertoire génomique des espèces procaryotes. Enfin, ce graphe est ensuite employé pour analyser la diversité pangénomique de 439 espèces procaryotes. Introduced in microbiology in 2005, pangenome approaches aim to compile the entire genomic diversity of a species. In these studies, we generally distinguish within the pangenome, the core genome, i.e. the set of gene families where gene representatives are present in all organisms; and on the other hand, the accessory genome which corresponds to genes specific to certain organisms only. However, we noticed that the concept of the core genome is limiting with a large number of organisms because genes, although functionally essentials, may be absent from some genomes. To deal with this issue, almost all studies use an arbitrary threshold of presence (generally 95%) to define a soft core genome. Moreover, this dichotomy between the core and accessory genome does not account for the many ranges of frequencies at which genes appear in a pangenome. The main goal of this thesis work is to introduce a statistical approach based on a multivariate Bernoulli mixture model coupled with a hidden Markov random field to partition the pangenome in order to be resilient to gene absences and to better distinguish the gene presence/absence patterns. In parallel, several data structures based on pangenome graphs have been developed in recent years. Indeed, exploiting all the information available in genomes and not just the presence of isolated genes is crucial to highlight genomic organization and particularly the regions of genomic plasticity in species. This approach is intended to be the missing link between these new graphic approaches at the sequence scale and the original approaches in isolated gene families. To achieve this, this thesis work therefore focuses on the definition, statistical partitioning and exploitation of a graph of a pangenome as a compact representation of the diversity of the genomic repertoire of prokaryotic species. Finally, this graph is then used to analyze the pangenomic diversity of 439 prokaryotic species.</description><subject>Graphe de pangénome</subject><subject>Pangenome</subject><subject>Pangenome graph</subject><subject>Pangénome</subject><fulltext>true</fulltext><rsrctype>dissertation</rsrctype><creationdate>2020</creationdate><recordtype>dissertation</recordtype><sourceid>RS3</sourceid><recordid>eNqFjM1twkAQhX3JIUqoIdNAJMdUECEjjkgh52hYT8xK9u4wM47IjTboIFbKcCdUwhp85_R-9L33mP0vYnDE1mHjFc3HAGRAB26it1uuzsdTF6AW5B1BRcAY6qEPsR2tmB-pMPTgYpsqIZahVwrTPLWMzq7LBqHyPyTqLfFVB4lkEoteCMZPv-9GUIGUhz-XDEt0KL_RSJ-zh29slGaTPmUvy3KzWL3ilvTLdqRJirzIP9fvH2Wev83vExeGt19Z</recordid><startdate>20200227</startdate><enddate>20200227</enddate><creator>Gautreau, Guillaume</creator><scope>AOWWY</scope><scope>RS3</scope><scope>~IT</scope></search><sort><creationdate>20200227</creationdate><title>Conceptualisation et exploitation d’un graphe de pangénome partitionné comme représentation compacte de la diversité du répertoire génique des espèces procaryotes</title><author>Gautreau, Guillaume</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-abes_theses_2020UPASE0013</frbrgroupid><rsrctype>dissertations</rsrctype><prefilter>dissertations</prefilter><language>fre</language><creationdate>2020</creationdate><topic>Graphe de pangénome</topic><topic>Pangenome</topic><topic>Pangenome graph</topic><topic>Pangénome</topic><toplevel>online_resources</toplevel><creatorcontrib>Gautreau, Guillaume</creatorcontrib><collection>Theses.fr (Open Access)</collection><collection>Theses.fr</collection><collection>Thèses.fr</collection></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext_linktorsrc</fulltext></delivery><addata><au>Gautreau, Guillaume</au><format>dissertation</format><genre>dissertation</genre><ristype>THES</ristype><btitle>Conceptualisation et exploitation d’un graphe de pangénome partitionné comme représentation compacte de la diversité du répertoire génique des espèces procaryotes</btitle><date>2020-02-27</date><risdate>2020</risdate><abstract>Introduites en microbiologie en 2005, les approches pangénomiques visent à compiler l'ensemble de la diversité génomique d'une espèce. Dans ces études, on distingue généralement à l'intérieur du pangénome, le génome coeur, c'est-à-dire l'ensemble des familles de gènes où les représentants géniques sont présents dans tous les organismes; et d'autre part, le génome accessoire qui correspond aux gènes spécifiques à certains organismes seulement. Cependant, on constate que le concept de génome coeur est limitant avec un nombre important d'organismes car des gènes bien que fonctionnellement indispensables peuvent être absents de certains génomes. Pour limiter ce phénomène la quasi-totalité des études utilisent un seuil arbitraire de présence (généralement 95%) pour définir un génome coeur assoupli. De plus, cette dichotomie entre le génome coeur et accessoire ne rend pas compte des nombreuses gammes de fréquence d'apparition des gènes dans un pangénome. Ce travail de thèse a pour objectif de proposer une approche statistique basé sur un modèle mixé multivarié de Bernoulli couplé à un champ de Markov caché pour partitionner le pangénome afin d'être résilient aux absences de gènes et de mieux distinguer les différents schémas de présence/absence des gènes. En parallèle, plusieurs structures de données basées sur des graphes de pangénomes ont été développées ces dernières années. En effet, exploiter la totalité des informations disponibles dans un génome et non plus seulement la présence de gènes isolés est désormais crucial pour correctement rendre compte de l'organisation des génomes et notamment des régions de plasticité génomique dans les espèces. Cette approche se veut le chaînon manquant entre ces nouvelles approches graphiques à l'échelle de la séquence et les approches originelles en familles de gènes isolés. Pour y parvenir, ce travail de thèse s'intéresse donc à la définition, au partitionnement statistique et à l'exploitation d'un graphe d'un pangénome comme représentation compacte de la diversité du répertoire génomique des espèces procaryotes. Enfin, ce graphe est ensuite employé pour analyser la diversité pangénomique de 439 espèces procaryotes. Introduced in microbiology in 2005, pangenome approaches aim to compile the entire genomic diversity of a species. In these studies, we generally distinguish within the pangenome, the core genome, i.e. the set of gene families where gene representatives are present in all organisms; and on the other hand, the accessory genome which corresponds to genes specific to certain organisms only. However, we noticed that the concept of the core genome is limiting with a large number of organisms because genes, although functionally essentials, may be absent from some genomes. To deal with this issue, almost all studies use an arbitrary threshold of presence (generally 95%) to define a soft core genome. Moreover, this dichotomy between the core and accessory genome does not account for the many ranges of frequencies at which genes appear in a pangenome. The main goal of this thesis work is to introduce a statistical approach based on a multivariate Bernoulli mixture model coupled with a hidden Markov random field to partition the pangenome in order to be resilient to gene absences and to better distinguish the gene presence/absence patterns. In parallel, several data structures based on pangenome graphs have been developed in recent years. Indeed, exploiting all the information available in genomes and not just the presence of isolated genes is crucial to highlight genomic organization and particularly the regions of genomic plasticity in species. This approach is intended to be the missing link between these new graphic approaches at the sequence scale and the original approaches in isolated gene families. To achieve this, this thesis work therefore focuses on the definition, statistical partitioning and exploitation of a graph of a pangenome as a compact representation of the diversity of the genomic repertoire of prokaryotic species. Finally, this graph is then used to analyze the pangenomic diversity of 439 prokaryotic species.</abstract><oa>free_for_read</oa></addata></record>
fulltext fulltext_linktorsrc
identifier
ispartof
issn
language fre
recordid cdi_abes_theses_2020UPASE001
source Theses.fr
subjects Graphe de pangénome
Pangenome
Pangenome graph
Pangénome
title Conceptualisation et exploitation d’un graphe de pangénome partitionné comme représentation compacte de la diversité du répertoire génique des espèces procaryotes
url https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2024-11-29T19%3A37%3A24IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-abes_RS3&rft_val_fmt=info:ofi/fmt:kev:mtx:dissertation&rft.genre=dissertation&rft.btitle=Conceptualisation%20et%20exploitation%20d%E2%80%99un%20graphe%20de%20pang%C3%A9nome%20partitionn%C3%A9%20comme%20repr%C3%A9sentation%20compacte%20de%20la%20diversit%C3%A9%20du%20r%C3%A9pertoire%20g%C3%A9nique%20des%20esp%C3%A8ces%20procaryotes&rft.au=Gautreau,%20Guillaume&rft.date=2020-02-27&rft_id=info:doi/&rft_dat=%3Cabes_RS3%3E2020UPASE001%3C/abes_RS3%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rfr_iscdi=true