REPRESENTATION LEARNING MODELS FOR IMPROVED GENOMICS

Improved methods for determining full-genome associations with phenotype data represented by medical images, ECG traces, spirometry- traces, or other high-dimensional phenotype-representing physiosignals are provided. These methods include training an encoder, as part of an autoencoder, to project i...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: COSENTINO, Justin, BEHSAZ, Babak, HORMOZDIARI, Farhad, CARROLL, Andrew, YUN, Taedong, MCLEAN, Cory
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Improved methods for determining full-genome associations with phenotype data represented by medical images, ECG traces, spirometry- traces, or other high-dimensional phenotype-representing physiosignals are provided. These methods include training an encoder, as part of an autoencoder, to project input physiosignals into a phenotypically representative set of lower-dimensional latent variables. In some examples, the latent variables are augmented by clinical correlates of the input physiosignals (e.g., a. force vital capacity-determined from a spirometry trace), The latent variables and/or clinical correlates are then used to determine genetic loci that are associated with each of the latent variables. These associations can then be used to focus drug development and/or to predict polygenic scores tor rare diseases for which sufficient, data, may- not be available for a full genome-wide association study or other genomic data-to-phenotype association. L'invention concerne des procédés améliorés pour déterminer des associations de génome complet avec des données de phénotype représentées par des images médicales, des traces d'ECG, des traces de spirométrie ou d'autres signaux physiologiques représentant un phénotype de grande dimension. Ces procédés comprennent l'entraînement d'un codeur, en tant que partie d'un autocodeur, pour projeter des signaux physiologiques d'entrée dans un ensemble phénotypiquement représentatif de variables latentes de dimension inférieure. Dans certains exemples, les variables latentes sont augmentées par des corrélations cliniques des signaux physiologiques d'entrée (par exemple, une capacité vitale de force déterminée à partir d'une trace de spirométrie). Les variables latentes et/ou les corrélations cliniques sont ensuite utilisées pour déterminer des loci génétiques qui sont associés à chacune des variables latentes. Ces associations peuvent ensuite être utilisées pour développer des médicaments et/ou pour prédire des scores polygéniques de maladies rares pour lesquelles des données suffisantes peuvent ne pas être disponibles pour une étude d'association à l'échelle du génome complet ou une autre association de données génomiques à un phénotype.