COMPONENT MIXTURE MODEL FOR TISSUE IDENTIFICATION IN DNA SAMPLES

Methods and systems are disclosed for component deconvolution by a mixture model based on methylation information. A mixture model may be trained agnostic of labels or known component contributions. A system generates a methylation signature for each of a plurality of training samples. The methylati...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: MELTON, Collin, MARCUS, Joseph, BREDNO, Joerg, VENN, Oliver, STERN, Aaron
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Methods and systems are disclosed for component deconvolution by a mixture model based on methylation information. A mixture model may be trained agnostic of labels or known component contributions. A system generates a methylation signature for each of a plurality of training samples. The methylation signature may be based on a count or a percentage of a methylation variant(s) expressed in the methylation sequence reads of a training sample at each genomic region of a plurality of genomic regions. The system may train the mixture model using maximum likelihood estimation to deconvolve the component contributions. The mixture model may comprise component submodels and a deconvolution submodel. The component submodels predict a component likelihood based on the methylation signature. The deconvolution submodel predicts the component contributions based on the component likelihoods. La divulgation concerne des procédés et des systèmes de déconvolution de constituants par un modèle de mélange basé sur des informations de méthylation. Un modèle de mélange peut être entraîné sans connaître d'étiquettes ou de contributions de constituants connus. Un système génère une signature de méthylation pour chaque échantillon d'une pluralité d'échantillons d'entraînement. La signature de méthylation peut être basée sur un comptage ou un pourcentage d'un ou plusieurs variants de méthylation exprimés dans les lectures de séquence de méthylation d'un échantillon d'entraînement au niveau de chaque région génomique d'une pluralité de régions génomiques. Le système peut entraîner le modèle de mélange à l'aide d'une estimation de probabilité maximale pour déconvoluer les contributions de composés. Le modèle de mélange peut comprendre des sous-modèles de composés et un sous-modèle de déconvolution. Les sous-modèles de composés prédisent une probabilité de constituants sur la base de la signature de méthylation. Le sous-modèle de déconvolution prédit les contributions de constituants sur la base des probabilités de constituants.