MACHINE LEARNING MODEL FOR RECALIBRATING GENOTYPE CALLS FROM EXISTING SEQUENCING DATA FILES
This disclosure describes methods, non-transitory computer readable media, and systems that can utilize a machine learning model to recalibrate genotype calls (e.g., variant calls) of existing sequencing data files. For instance, the disclosed systems the disclosed systems can access one or more exi...
Gespeichert in:
Hauptverfasser: | , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | This disclosure describes methods, non-transitory computer readable media, and systems that can utilize a machine learning model to recalibrate genotype calls (e.g., variant calls) of existing sequencing data files. For instance, the disclosed systems the disclosed systems can access one or more existing sequencing data files for a genomic sample, where the files include nucleotide-read data and genotype calls at particular genomic coordinate. From the one or more existing sequencing data files, the disclosed system extracts sequencing metrics for nucleotide reads or a particular genotype call at a particular genomic coordinate. By processing the extracted sequencing metrics, the systems further utilize a call-recalibration-machine-learning model to generate variant-call classifications indicating an accuracy of the particular genotype call. In some cases, the systems update or recalibrate the genotype call or quality-measuring sequencing metrics for the genotype call based on the variant-call classifications.
La présente divulgation concerne des procédés, des supports non transitoire lisibles par ordinateur et des systèmes qui peuvent utiliser un modèle d'apprentissage automatique pour réétalonner des appels de génotype (par exemple, des appels de variant) de fichiers de données de séquençage existants. Par exemple, les systèmes divulgués peuvent avoir accès à un ou plusieurs fichiers de données de séquençage existants pour un échantillon génomique, les fichiers comprenant des données de lecture de nucléotides et des appels de génotype à une coordonnée génomique particulière. À partir du ou des fichiers de données de séquençage existants, le système divulgué extrait des métriques de séquençage pour des lectures de nucléotides ou un appel de génotype particulier à une coordonnée génomique particulière. En traitant les métriques de séquençage extraites, les systèmes utilisent en outre un modèle d'apprentissage automatique de réétalonnage d'appel pour générer des classifications d'appels de variant indiquant une précision de l'appel de génotype particulier. Dans certains cas, les systèmes mettent à jour ou réétalonnent l'appel de génotype ou des métriques de séquençage de mesure de qualité pour l'appel de génotype sur la base des classifications d'appel de variant. |
---|