FUNCTIONAL PROTEIN CLASSIFICATION FOR PANDEMIC RESEARCH
A protein searcher includes a pre-trained CNN, a feature extractor, a database and a KNN searcher. The pre-trained CNN, trained on a previously classified amino acid database, receives an unidentified amino acid sequence. The feature extractor extracts a feature vector of the unidentified amino acid...
Gespeichert in:
1. Verfasser: | |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | A protein searcher includes a pre-trained CNN, a feature extractor, a database and a KNN searcher. The pre-trained CNN, trained on a previously classified amino acid database, receives an unidentified amino acid sequence. The feature extractor extracts a feature vector of the unidentified amino acid sequence as a query feature vector. The database stores feature vectors of trained amino acid sequences and of at least one untrained amino acid sequence and stores associated classes of the trained amino acid sequences and associated tags of the at least one untrained amino acid sequence. The KNN searcher finds K feature vectors of the database which are close to the query feature vector and outputs the associated class or tag of each of the K feature vectors.
La présente invention concerne un dispositif de recherche de protéines qui comprend un réseau neuronal convolutif (CNN) pré-entraîné, un extracteur de caractéristiques, une base de données et un dispositif de recherche des K plus proches voisins (KNN). Le CNN pré-entraîné, entraîné à partir d'une base de données d'acides aminés précédemment classée, reçoit une séquence d'acides aminés non identifiée. L'extracteur de caractéristiques extrait un vecteur de caractéristiques de la séquence d'acides aminés non identifiée en tant que vecteur de caractéristiques d'interrogation. La base de données stocke des vecteurs de caractéristiques de séquences d'acides aminés entraînées et d'au moins une séquence d'acides aminés non entraînée et stocke des classes associées des séquences d'acides aminés entraînées et des marqueurs associés de la ou des séquences d'acides aminés non entraînées. Le dispositif de recherche des KNN trouve K vecteurs de caractéristiques de la base de données qui sont proches du vecteur de caractéristiques d'interrogation et renvoie la classe ou le marqueur associés de chacun des K vecteurs de caractéristiques. |
---|