MACHINE LEARNING SOLUTION TO PREDICT PROTEIN CHARACTERISTICS
This disclosure provides a machine learning technique to predict a protein characteristic. A first training set is created that includes, for multiple proteins, a target feature, protein sequences, and other information about the proteins. A first machine learning model is trained and then used to i...
Gespeichert in:
Hauptverfasser: | , , , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | This disclosure provides a machine learning technique to predict a protein characteristic. A first training set is created that includes, for multiple proteins, a target feature, protein sequences, and other information about the proteins. A first machine learning model is trained and then used to identify which of the features are relevant as determined by feature importance or causal relationships to the target feature. A second training set is created with only the relevant features. Embeddings generated from the protein sequences are also added to the second training set. The second training set is used to train a second machine learning model. The first and second machine learning models may be any type of regressors. Once trained, the second machine learning model is used to predict a value for the target feature for an uncharacterized protein. The model of this disclosure provides 91% accuracy in predicting an ileal digestibility score.
La présente divulgation concerne une technique d'apprentissage automatique pour prédire une caractéristique de protéine. Un premier ensemble d'entraînement est créé qui comprend, pour de multiples protéines, une caractéristique cible, des séquences de protéines et d'autres informations concernant les protéines. Un premier modèle d'apprentissage automatique est entraîné et ensuite utilisé pour identifier laquelle des caractéristiques est pertinente telle que déterminée par une importance de caractéristique ou des relations causales avec la caractéristique cible. Un second ensemble d'entraînement est créé uniquement avec les caractéristiques pertinentes. Des intégrations générées à partir des séquences de protéines sont également ajoutées au second ensemble d'entraînement. Le second ensemble d'entraînement est utilisé pour entraîner un second modèle d'apprentissage automatique. Les premier et second modèles d'apprentissage automatique peuvent être n'importe quel type de régresseurs. Une fois entraîné, le second modèle d'apprentissage automatique est utilisé pour prédire une valeur pour la caractéristique cible pour une protéine non caractérisée. Le modèle de la présente divulgation fournit une précision de 91 % dans la prédiction d'un score de digestibilité iléale. |
---|