GENERATIVE TNA SEQUENCE DESIGN WITH EXPERIMENT-IN-THE-LOOP TRAINING
A latent space is defined to represent sequences using training data and a machine-learning model. The training data identifies sequences of molecules and binding-approximation metrics that characterizes whether the molecules bind to a particular target and/or that approximate an extent to which the...
Gespeichert in:
Hauptverfasser: | , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | A latent space is defined to represent sequences using training data and a machine-learning model. The training data identifies sequences of molecules and binding-approximation metrics that characterizes whether the molecules bind to a particular target and/or that approximate an extent to which the molecule is more likely to bind to the particular target than some other molecules. Supplemental training data is accessed that identifies other sequences of other molecules and binding affinity scores quantifying binding strengths between the molecules and the particular target. Projections of representations of the other sequences in the supplemental training data are projected in the latent space using the binding affinity scores. An area or position of interest within the latent space is identified based on the projections. A particular sequence represented within or at the area or position of interest or at the position of interest is identified for downstream processing.
Selon la présente invention, un espace latent est défini pour représenter des séquences à l'aide de données d'apprentissage et d'un modèle d'apprentissage machine. Les données d'apprentissage identifient des séquences de molécules et des mesures d'approximation de liaison qui caractérisent si les molécules se lient à une cible particulière et/ou qui s'approchent d'une mesure à laquelle il est plus probable que la molécule se lie à la cible particulière que certaines autres molécules. On a accès à des données d'apprentissage supplémentaires qui identifient d'autres séquences d'autres molécules et des scores d'affinité de liaison quantifiant des forces de liaison entre les molécules et la cible particulière. Des projections de représentations des autres séquences dans les données d'apprentissage supplémentaires sont projetées dans l'espace latent à l'aide des scores d'affinité de liaison. Une zone, ou une position, digne d'intérêt à l'intérieur de l'espace latent est identifiée sur la base des projections. Une séquence particulière représentée à l'intérieur, ou au niveau, de la zone ou de la position digne d'intérêt ou à la position digne d'intérêt est identifiée pour un traitement en aval. |
---|