Exploration multimodale du séquençage de génome humain pour résoudre l'impasse diagnostique de maladies rares

Les maladies rares sont individuellement rares mais collectivement fréquentes. Plus de 7% des adultes sont affectés dans le monde par l'une des 6000 maladies actuellement décrites. 72 % des maladies rares sont d'origine génétique. Depuis l’apparition du séquençage de nouvelle génération, l...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
1. Verfasser: Yauy, Kévin
Format: Dissertation
Sprache:eng
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
container_end_page
container_issue
container_start_page
container_title
container_volume
creator Yauy, Kévin
description Les maladies rares sont individuellement rares mais collectivement fréquentes. Plus de 7% des adultes sont affectés dans le monde par l'une des 6000 maladies actuellement décrites. 72 % des maladies rares sont d'origine génétique. Depuis l’apparition du séquençage de nouvelle génération, le diagnostic des maladies rares n'est plus limité par le séquençage en lui-même mais l'analyse des données générées par le séquençage. Malgré l'accessibilité en routine clinique du séquençage du génome, la majorité des patients souffrant de maladies rares restent sans diagnostic. Mon projet de thèse visait à résoudre des défis actuels dans l'analyse du séquençage pour améliorer le diagnostic des maladies rares. Ce manuscrit est axé sur deux principaux projets que j'ai menés au cours de ce doctorat avec l'équipe de SeqOne Genomics et le CHU Grenoble Alpes.Premièrement, je me suis attaqué au problème de la réinterprétation des données de séquençage de patients restés sans diagnostic. Cette étape de réinterprétation est manuelle, et le manque de ressources humaines la rend difficile à réaliser en routine. Nous avons développé Genome Alert!, une méthode automatisée et libre qui monitore les changements dans la base de données de partage d'interprétation des variants ClinVar. Ce monitoring permet de réévaluer mensuellement et automatiquement la pathogénicité des variants et les gènes impliqués en maladies humaines. La réinterprétation de 4 929 analyses avec cette méthode a révélé 45 changements ayant un impact clinique potentiel et a conduit à quatre diagnostics supplémentaires. Ce travail représente la première validation à grande échelle d'un système automatisé de réinterprétation des données de séquençage qui pourrait devenir un standard en médecine génomique.En seconde partie, j'ai exploré le défi de la numérisation des données cliniques, avec pour objectif d’améliorer l’utilisation du phénotypage (ou codage médical) des cliniciens dans l'analyse génomique. Nous rapportons la première étude axée sur les pratiques de phénotypage, en analysant 1 686 descriptions de patients provenant de quatre groupes internationaux. Malgré l'adoption d'une norme commune appelée Human Phenotype Ontology, nous avons constaté une approche très hétérogène du phénotypage en ce qui concerne le nombre et le choix des symptômes, et ce même pour les mêmes patients. Cette description fluctuante est un défi majeur qui doit être surmonté pour nous permettre d'exploiter les données cliniques des dossier
format Dissertation
fullrecord <record><control><sourceid>abes_RS3</sourceid><recordid>TN_cdi_abes_theses_2022GRALV058</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><sourcerecordid>2022GRALV058</sourcerecordid><originalsourceid>FETCH-abes_theses_2022GRALV0583</originalsourceid><addsrcrecordid>eNqFi7EKwjAQQLs4iPoN3uYklIrgWqTq4CTiKic520CSa3MJ-EfS78iPGcHd6fHgvWkxNK_esMeg2YGNJmjLCg2BiiBpHCK59MY2O0GbRseWoIsWtYOeowefRuGoPIFZadujSE41to4l6Hx_P4sGlSYBj55kXkyeaIQWP86K5aG57k9rfJDcQ0eSUZVVdbzU51u53W3-Fx-BnEW5</addsrcrecordid><sourcetype>Open Access Repository</sourcetype><iscdi>true</iscdi><recordtype>dissertation</recordtype></control><display><type>dissertation</type><title>Exploration multimodale du séquençage de génome humain pour résoudre l'impasse diagnostique de maladies rares</title><source>Theses.fr</source><creator>Yauy, Kévin</creator><creatorcontrib>Yauy, Kévin</creatorcontrib><description>Les maladies rares sont individuellement rares mais collectivement fréquentes. Plus de 7% des adultes sont affectés dans le monde par l'une des 6000 maladies actuellement décrites. 72 % des maladies rares sont d'origine génétique. Depuis l’apparition du séquençage de nouvelle génération, le diagnostic des maladies rares n'est plus limité par le séquençage en lui-même mais l'analyse des données générées par le séquençage. Malgré l'accessibilité en routine clinique du séquençage du génome, la majorité des patients souffrant de maladies rares restent sans diagnostic. Mon projet de thèse visait à résoudre des défis actuels dans l'analyse du séquençage pour améliorer le diagnostic des maladies rares. Ce manuscrit est axé sur deux principaux projets que j'ai menés au cours de ce doctorat avec l'équipe de SeqOne Genomics et le CHU Grenoble Alpes.Premièrement, je me suis attaqué au problème de la réinterprétation des données de séquençage de patients restés sans diagnostic. Cette étape de réinterprétation est manuelle, et le manque de ressources humaines la rend difficile à réaliser en routine. Nous avons développé Genome Alert!, une méthode automatisée et libre qui monitore les changements dans la base de données de partage d'interprétation des variants ClinVar. Ce monitoring permet de réévaluer mensuellement et automatiquement la pathogénicité des variants et les gènes impliqués en maladies humaines. La réinterprétation de 4 929 analyses avec cette méthode a révélé 45 changements ayant un impact clinique potentiel et a conduit à quatre diagnostics supplémentaires. Ce travail représente la première validation à grande échelle d'un système automatisé de réinterprétation des données de séquençage qui pourrait devenir un standard en médecine génomique.En seconde partie, j'ai exploré le défi de la numérisation des données cliniques, avec pour objectif d’améliorer l’utilisation du phénotypage (ou codage médical) des cliniciens dans l'analyse génomique. Nous rapportons la première étude axée sur les pratiques de phénotypage, en analysant 1 686 descriptions de patients provenant de quatre groupes internationaux. Malgré l'adoption d'une norme commune appelée Human Phenotype Ontology, nous avons constaté une approche très hétérogène du phénotypage en ce qui concerne le nombre et le choix des symptômes, et ce même pour les mêmes patients. Cette description fluctuante est un défi majeur qui doit être surmonté pour nous permettre d'exploiter les données cliniques des dossiers médicaux. En effet, moins de la moitié (43%) des associations symptôme-gène déclarées dans la cohorte étaient retrouvées dans les bases de données publiques. Dans le but de modéliser ce raisonnement médical inductif qui pourrait expliquer l'hétérogénéité du phénotypage entre les observations cliniques, nous avons développé des méthodes basées sur l'association conjointe de symptômes au sein des maladies génétiques.À l'aide d'algorithmes graphes, nous avons entraîné un modèle d'interaction des symptômes en maladies génétiques qui projette les descriptions cliniques en format HPO (16,600 symptômes) dans la dimension des symptômes en interaction contenant 390 groupes et 1 131 886 paires de symptômes. Pour évaluer la pertinence clinique de ce modèle, nous l’avons utilisé comme système de priorisation de gènes en fonction du phénotype et avons amélioré les performances de priorisation de 42 % par rapport au meilleur concurrent actuel. Ce modèle devrait permettre de nouvelles découvertes en médecine de précision par sa capacité à exploiter des descriptions cliniques hétérogènes.Au travers ce travail de thèse, j'espère avoir réussi à apporter ma pierre à l'édifice pour sensibiliser à la médecine génomique dans la communauté médicale et fournir des solutions techniques pour améliorer la prise en charge des patients atteints de maladies rares. Rare diseases are individually rare but collectively frequent, with more than 7% of living adults affected by one of the 6000 currently described diseases. An estimated 72% of rare diseases are genetic in origin. Since the next generation sequencing (NGS) technology revolution, the rare diseases diagnosis bottleneck is no longer the sequencing but the analysis of the massive amount of data produced. Despite genome sequencing accessibility in clinical routine, the majority of patients suffering from rare diseases are still undiagnosed. Using bioinformatics and data science, my thesis project aimed to manage current bottlenecks of genomic medicine to improve rare disease diagnoses. This manuscript is focused on two main projects I led during this Ph.D. with SeqOne Genomics and CHU Grenoble Alpes.First, I tackled the reinterpretation challenge of previous sequencing analysis that remained unsolved. This reinterpretation was reported manually, and the lack of human resources and automated methods made it difficult to apply in routine diagnosis. Taking advantage of the collaborative and dynamic database ClinVar of shared variant interpretation, we developed Genome Alert!, an open-source automated method that monitors ClinVar and monthly reassesses variant pathogenicity and symptom-gene associations. The re-interpretation of 4,929 analyses revealed 45 changes with potential clinical impact, leading to four additional diagnoses. This work represents a first large validation study of an automated sequencing data re-interpretation system that could become a standard in genomic medicine.Lastly, I explored the clinical data computation challenge, aiming to improve the medical coding or physician’s phenotyping use in genomic analysis. We report the first study focusing on phenotyping practices in clinical sequencing analysis, analyzing the records of 1,686 patients from four international groups. Despite the adoption of a common standard called Human Phenotype Ontology, we found a highly heterogeneous approach to phenotyping as regards the number and choice of symptoms, even for the same patients. This fluctuating description is a major challenge that has to be overcome to enable us to exploit the clinical data in medical records. As an illustration, less than half (43%) of declared symptom-gene associations in the cohort were covered in public databases.Aiming to model the medical inductive reasoning that could explain the heterogeneity of phenotyping across clinical observations, we developed methods based on the association of symptoms with the same genetic disorder. Using graph algorithms and collaborative filtering, we trained a symptom interaction model that projects clinical descriptions in HPO format including 16,600 symptoms into the dimension of interacting symptoms containing 390 groups and 1,131,886 pairs of associated symptoms in diseases. This model uncovered the missing pieces of the incomplete clinical descriptions puzzle, achieving 99.8% coverage of the medical observations with knowledge in the medical literature. To evaluate its clinical relevance, we applied this symptom interaction model to phenotype-driven gene prioritization in the cohort and improved the diagnostic performance by 42 % compared to the best current competitor. This method should enable discoveries in precision medicine by standardizing clinical descriptions.With the work described in this manuscript, I hope I succeeded in making my contribution to spreading genomic medicine awareness in the community and providing technical solutions to improve rare diseases’ patient care.</description><language>eng</language><subject>Apprentissage machine ; Bioinformatics ; Bioinformatique ; Corrélation génotype-Phénotype ; Exploitation des données cliniques ; Genotype-Phenotype correlation ; Machine learning ; Maladies rares ; Rare diseases ; Structural variations ; Variations de structure</subject><creationdate>2022</creationdate><oa>free_for_read</oa><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Tsyndetics_thumb_exl</thumbnail><link.rule.ids>230,311,780,885,26981</link.rule.ids><linktorsrc>$$Uhttps://www.theses.fr/2022GRALV058/document$$EView_record_in_ABES$$FView_record_in_$$GABES$$Hfree_for_read</linktorsrc></links><search><creatorcontrib>Yauy, Kévin</creatorcontrib><title>Exploration multimodale du séquençage de génome humain pour résoudre l'impasse diagnostique de maladies rares</title><description>Les maladies rares sont individuellement rares mais collectivement fréquentes. Plus de 7% des adultes sont affectés dans le monde par l'une des 6000 maladies actuellement décrites. 72 % des maladies rares sont d'origine génétique. Depuis l’apparition du séquençage de nouvelle génération, le diagnostic des maladies rares n'est plus limité par le séquençage en lui-même mais l'analyse des données générées par le séquençage. Malgré l'accessibilité en routine clinique du séquençage du génome, la majorité des patients souffrant de maladies rares restent sans diagnostic. Mon projet de thèse visait à résoudre des défis actuels dans l'analyse du séquençage pour améliorer le diagnostic des maladies rares. Ce manuscrit est axé sur deux principaux projets que j'ai menés au cours de ce doctorat avec l'équipe de SeqOne Genomics et le CHU Grenoble Alpes.Premièrement, je me suis attaqué au problème de la réinterprétation des données de séquençage de patients restés sans diagnostic. Cette étape de réinterprétation est manuelle, et le manque de ressources humaines la rend difficile à réaliser en routine. Nous avons développé Genome Alert!, une méthode automatisée et libre qui monitore les changements dans la base de données de partage d'interprétation des variants ClinVar. Ce monitoring permet de réévaluer mensuellement et automatiquement la pathogénicité des variants et les gènes impliqués en maladies humaines. La réinterprétation de 4 929 analyses avec cette méthode a révélé 45 changements ayant un impact clinique potentiel et a conduit à quatre diagnostics supplémentaires. Ce travail représente la première validation à grande échelle d'un système automatisé de réinterprétation des données de séquençage qui pourrait devenir un standard en médecine génomique.En seconde partie, j'ai exploré le défi de la numérisation des données cliniques, avec pour objectif d’améliorer l’utilisation du phénotypage (ou codage médical) des cliniciens dans l'analyse génomique. Nous rapportons la première étude axée sur les pratiques de phénotypage, en analysant 1 686 descriptions de patients provenant de quatre groupes internationaux. Malgré l'adoption d'une norme commune appelée Human Phenotype Ontology, nous avons constaté une approche très hétérogène du phénotypage en ce qui concerne le nombre et le choix des symptômes, et ce même pour les mêmes patients. Cette description fluctuante est un défi majeur qui doit être surmonté pour nous permettre d'exploiter les données cliniques des dossiers médicaux. En effet, moins de la moitié (43%) des associations symptôme-gène déclarées dans la cohorte étaient retrouvées dans les bases de données publiques. Dans le but de modéliser ce raisonnement médical inductif qui pourrait expliquer l'hétérogénéité du phénotypage entre les observations cliniques, nous avons développé des méthodes basées sur l'association conjointe de symptômes au sein des maladies génétiques.À l'aide d'algorithmes graphes, nous avons entraîné un modèle d'interaction des symptômes en maladies génétiques qui projette les descriptions cliniques en format HPO (16,600 symptômes) dans la dimension des symptômes en interaction contenant 390 groupes et 1 131 886 paires de symptômes. Pour évaluer la pertinence clinique de ce modèle, nous l’avons utilisé comme système de priorisation de gènes en fonction du phénotype et avons amélioré les performances de priorisation de 42 % par rapport au meilleur concurrent actuel. Ce modèle devrait permettre de nouvelles découvertes en médecine de précision par sa capacité à exploiter des descriptions cliniques hétérogènes.Au travers ce travail de thèse, j'espère avoir réussi à apporter ma pierre à l'édifice pour sensibiliser à la médecine génomique dans la communauté médicale et fournir des solutions techniques pour améliorer la prise en charge des patients atteints de maladies rares. Rare diseases are individually rare but collectively frequent, with more than 7% of living adults affected by one of the 6000 currently described diseases. An estimated 72% of rare diseases are genetic in origin. Since the next generation sequencing (NGS) technology revolution, the rare diseases diagnosis bottleneck is no longer the sequencing but the analysis of the massive amount of data produced. Despite genome sequencing accessibility in clinical routine, the majority of patients suffering from rare diseases are still undiagnosed. Using bioinformatics and data science, my thesis project aimed to manage current bottlenecks of genomic medicine to improve rare disease diagnoses. This manuscript is focused on two main projects I led during this Ph.D. with SeqOne Genomics and CHU Grenoble Alpes.First, I tackled the reinterpretation challenge of previous sequencing analysis that remained unsolved. This reinterpretation was reported manually, and the lack of human resources and automated methods made it difficult to apply in routine diagnosis. Taking advantage of the collaborative and dynamic database ClinVar of shared variant interpretation, we developed Genome Alert!, an open-source automated method that monitors ClinVar and monthly reassesses variant pathogenicity and symptom-gene associations. The re-interpretation of 4,929 analyses revealed 45 changes with potential clinical impact, leading to four additional diagnoses. This work represents a first large validation study of an automated sequencing data re-interpretation system that could become a standard in genomic medicine.Lastly, I explored the clinical data computation challenge, aiming to improve the medical coding or physician’s phenotyping use in genomic analysis. We report the first study focusing on phenotyping practices in clinical sequencing analysis, analyzing the records of 1,686 patients from four international groups. Despite the adoption of a common standard called Human Phenotype Ontology, we found a highly heterogeneous approach to phenotyping as regards the number and choice of symptoms, even for the same patients. This fluctuating description is a major challenge that has to be overcome to enable us to exploit the clinical data in medical records. As an illustration, less than half (43%) of declared symptom-gene associations in the cohort were covered in public databases.Aiming to model the medical inductive reasoning that could explain the heterogeneity of phenotyping across clinical observations, we developed methods based on the association of symptoms with the same genetic disorder. Using graph algorithms and collaborative filtering, we trained a symptom interaction model that projects clinical descriptions in HPO format including 16,600 symptoms into the dimension of interacting symptoms containing 390 groups and 1,131,886 pairs of associated symptoms in diseases. This model uncovered the missing pieces of the incomplete clinical descriptions puzzle, achieving 99.8% coverage of the medical observations with knowledge in the medical literature. To evaluate its clinical relevance, we applied this symptom interaction model to phenotype-driven gene prioritization in the cohort and improved the diagnostic performance by 42 % compared to the best current competitor. This method should enable discoveries in precision medicine by standardizing clinical descriptions.With the work described in this manuscript, I hope I succeeded in making my contribution to spreading genomic medicine awareness in the community and providing technical solutions to improve rare diseases’ patient care.</description><subject>Apprentissage machine</subject><subject>Bioinformatics</subject><subject>Bioinformatique</subject><subject>Corrélation génotype-Phénotype</subject><subject>Exploitation des données cliniques</subject><subject>Genotype-Phenotype correlation</subject><subject>Machine learning</subject><subject>Maladies rares</subject><subject>Rare diseases</subject><subject>Structural variations</subject><subject>Variations de structure</subject><fulltext>true</fulltext><rsrctype>dissertation</rsrctype><creationdate>2022</creationdate><recordtype>dissertation</recordtype><sourceid>RS3</sourceid><recordid>eNqFi7EKwjAQQLs4iPoN3uYklIrgWqTq4CTiKic520CSa3MJ-EfS78iPGcHd6fHgvWkxNK_esMeg2YGNJmjLCg2BiiBpHCK59MY2O0GbRseWoIsWtYOeowefRuGoPIFZadujSE41to4l6Hx_P4sGlSYBj55kXkyeaIQWP86K5aG57k9rfJDcQ0eSUZVVdbzU51u53W3-Fx-BnEW5</recordid><startdate>20220929</startdate><enddate>20220929</enddate><creator>Yauy, Kévin</creator><scope>AOWWY</scope><scope>RS3</scope><scope>~IT</scope></search><sort><creationdate>20220929</creationdate><title>Exploration multimodale du séquençage de génome humain pour résoudre l'impasse diagnostique de maladies rares</title><author>Yauy, Kévin</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-abes_theses_2022GRALV0583</frbrgroupid><rsrctype>dissertations</rsrctype><prefilter>dissertations</prefilter><language>eng</language><creationdate>2022</creationdate><topic>Apprentissage machine</topic><topic>Bioinformatics</topic><topic>Bioinformatique</topic><topic>Corrélation génotype-Phénotype</topic><topic>Exploitation des données cliniques</topic><topic>Genotype-Phenotype correlation</topic><topic>Machine learning</topic><topic>Maladies rares</topic><topic>Rare diseases</topic><topic>Structural variations</topic><topic>Variations de structure</topic><toplevel>online_resources</toplevel><creatorcontrib>Yauy, Kévin</creatorcontrib><collection>Theses.fr (Open Access)</collection><collection>Theses.fr</collection><collection>Thèses.fr</collection></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext_linktorsrc</fulltext></delivery><addata><au>Yauy, Kévin</au><format>dissertation</format><genre>dissertation</genre><ristype>THES</ristype><btitle>Exploration multimodale du séquençage de génome humain pour résoudre l'impasse diagnostique de maladies rares</btitle><date>2022-09-29</date><risdate>2022</risdate><abstract>Les maladies rares sont individuellement rares mais collectivement fréquentes. Plus de 7% des adultes sont affectés dans le monde par l'une des 6000 maladies actuellement décrites. 72 % des maladies rares sont d'origine génétique. Depuis l’apparition du séquençage de nouvelle génération, le diagnostic des maladies rares n'est plus limité par le séquençage en lui-même mais l'analyse des données générées par le séquençage. Malgré l'accessibilité en routine clinique du séquençage du génome, la majorité des patients souffrant de maladies rares restent sans diagnostic. Mon projet de thèse visait à résoudre des défis actuels dans l'analyse du séquençage pour améliorer le diagnostic des maladies rares. Ce manuscrit est axé sur deux principaux projets que j'ai menés au cours de ce doctorat avec l'équipe de SeqOne Genomics et le CHU Grenoble Alpes.Premièrement, je me suis attaqué au problème de la réinterprétation des données de séquençage de patients restés sans diagnostic. Cette étape de réinterprétation est manuelle, et le manque de ressources humaines la rend difficile à réaliser en routine. Nous avons développé Genome Alert!, une méthode automatisée et libre qui monitore les changements dans la base de données de partage d'interprétation des variants ClinVar. Ce monitoring permet de réévaluer mensuellement et automatiquement la pathogénicité des variants et les gènes impliqués en maladies humaines. La réinterprétation de 4 929 analyses avec cette méthode a révélé 45 changements ayant un impact clinique potentiel et a conduit à quatre diagnostics supplémentaires. Ce travail représente la première validation à grande échelle d'un système automatisé de réinterprétation des données de séquençage qui pourrait devenir un standard en médecine génomique.En seconde partie, j'ai exploré le défi de la numérisation des données cliniques, avec pour objectif d’améliorer l’utilisation du phénotypage (ou codage médical) des cliniciens dans l'analyse génomique. Nous rapportons la première étude axée sur les pratiques de phénotypage, en analysant 1 686 descriptions de patients provenant de quatre groupes internationaux. Malgré l'adoption d'une norme commune appelée Human Phenotype Ontology, nous avons constaté une approche très hétérogène du phénotypage en ce qui concerne le nombre et le choix des symptômes, et ce même pour les mêmes patients. Cette description fluctuante est un défi majeur qui doit être surmonté pour nous permettre d'exploiter les données cliniques des dossiers médicaux. En effet, moins de la moitié (43%) des associations symptôme-gène déclarées dans la cohorte étaient retrouvées dans les bases de données publiques. Dans le but de modéliser ce raisonnement médical inductif qui pourrait expliquer l'hétérogénéité du phénotypage entre les observations cliniques, nous avons développé des méthodes basées sur l'association conjointe de symptômes au sein des maladies génétiques.À l'aide d'algorithmes graphes, nous avons entraîné un modèle d'interaction des symptômes en maladies génétiques qui projette les descriptions cliniques en format HPO (16,600 symptômes) dans la dimension des symptômes en interaction contenant 390 groupes et 1 131 886 paires de symptômes. Pour évaluer la pertinence clinique de ce modèle, nous l’avons utilisé comme système de priorisation de gènes en fonction du phénotype et avons amélioré les performances de priorisation de 42 % par rapport au meilleur concurrent actuel. Ce modèle devrait permettre de nouvelles découvertes en médecine de précision par sa capacité à exploiter des descriptions cliniques hétérogènes.Au travers ce travail de thèse, j'espère avoir réussi à apporter ma pierre à l'édifice pour sensibiliser à la médecine génomique dans la communauté médicale et fournir des solutions techniques pour améliorer la prise en charge des patients atteints de maladies rares. Rare diseases are individually rare but collectively frequent, with more than 7% of living adults affected by one of the 6000 currently described diseases. An estimated 72% of rare diseases are genetic in origin. Since the next generation sequencing (NGS) technology revolution, the rare diseases diagnosis bottleneck is no longer the sequencing but the analysis of the massive amount of data produced. Despite genome sequencing accessibility in clinical routine, the majority of patients suffering from rare diseases are still undiagnosed. Using bioinformatics and data science, my thesis project aimed to manage current bottlenecks of genomic medicine to improve rare disease diagnoses. This manuscript is focused on two main projects I led during this Ph.D. with SeqOne Genomics and CHU Grenoble Alpes.First, I tackled the reinterpretation challenge of previous sequencing analysis that remained unsolved. This reinterpretation was reported manually, and the lack of human resources and automated methods made it difficult to apply in routine diagnosis. Taking advantage of the collaborative and dynamic database ClinVar of shared variant interpretation, we developed Genome Alert!, an open-source automated method that monitors ClinVar and monthly reassesses variant pathogenicity and symptom-gene associations. The re-interpretation of 4,929 analyses revealed 45 changes with potential clinical impact, leading to four additional diagnoses. This work represents a first large validation study of an automated sequencing data re-interpretation system that could become a standard in genomic medicine.Lastly, I explored the clinical data computation challenge, aiming to improve the medical coding or physician’s phenotyping use in genomic analysis. We report the first study focusing on phenotyping practices in clinical sequencing analysis, analyzing the records of 1,686 patients from four international groups. Despite the adoption of a common standard called Human Phenotype Ontology, we found a highly heterogeneous approach to phenotyping as regards the number and choice of symptoms, even for the same patients. This fluctuating description is a major challenge that has to be overcome to enable us to exploit the clinical data in medical records. As an illustration, less than half (43%) of declared symptom-gene associations in the cohort were covered in public databases.Aiming to model the medical inductive reasoning that could explain the heterogeneity of phenotyping across clinical observations, we developed methods based on the association of symptoms with the same genetic disorder. Using graph algorithms and collaborative filtering, we trained a symptom interaction model that projects clinical descriptions in HPO format including 16,600 symptoms into the dimension of interacting symptoms containing 390 groups and 1,131,886 pairs of associated symptoms in diseases. This model uncovered the missing pieces of the incomplete clinical descriptions puzzle, achieving 99.8% coverage of the medical observations with knowledge in the medical literature. To evaluate its clinical relevance, we applied this symptom interaction model to phenotype-driven gene prioritization in the cohort and improved the diagnostic performance by 42 % compared to the best current competitor. This method should enable discoveries in precision medicine by standardizing clinical descriptions.With the work described in this manuscript, I hope I succeeded in making my contribution to spreading genomic medicine awareness in the community and providing technical solutions to improve rare diseases’ patient care.</abstract><oa>free_for_read</oa></addata></record>
fulltext fulltext_linktorsrc
identifier
ispartof
issn
language eng
recordid cdi_abes_theses_2022GRALV058
source Theses.fr
subjects Apprentissage machine
Bioinformatics
Bioinformatique
Corrélation génotype-Phénotype
Exploitation des données cliniques
Genotype-Phenotype correlation
Machine learning
Maladies rares
Rare diseases
Structural variations
Variations de structure
title Exploration multimodale du séquençage de génome humain pour résoudre l'impasse diagnostique de maladies rares
url https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-03T01%3A38%3A58IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-abes_RS3&rft_val_fmt=info:ofi/fmt:kev:mtx:dissertation&rft.genre=dissertation&rft.btitle=Exploration%20multimodale%20du%20s%C3%A9quen%C3%A7age%20de%20g%C3%A9nome%20humain%20pour%20r%C3%A9soudre%20l'impasse%20diagnostique%20de%20maladies%20rares&rft.au=Yauy,%20Ke%CC%81vin&rft.date=2022-09-29&rft_id=info:doi/&rft_dat=%3Cabes_RS3%3E2022GRALV058%3C/abes_RS3%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rfr_iscdi=true