CONTEXT-DEPENDENT BASE CALLING

The technology disclosed is directed to context-dependent base calling. The technology disclosed describes a system including memory storing k-mer-specific centroids for k-mers. The k-mer-specific centroids are learned by training a base calling pipeline to represent base calls of an already base ca...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: KARUNAKARAN, Aathavan, BRACHER, David Olmstead, VESSERE, Gery
Format: Patent
Sprache:eng ; fre
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:The technology disclosed is directed to context-dependent base calling. The technology disclosed describes a system including memory storing k-mer-specific centroids for k-mers. The k-mer-specific centroids are learned by training a base calling pipeline to represent base calls of an already base called sequence in k-mer-specific time series, transform the k-mer-specific time series into predicted k-mer-specific centroids, merge the predicted k-mer-specific centroids on a sequencing cycle-by-sequencing cycle basis to generate predicted per-sequencing cycle intensity values, determine a training loss (e.g., a transformation loss) based on comparing the predicted per-sequencing cycle intensity values against known intensity values of the base calls, update the predicted k-mer-specific centroids based on the determined training loss, and store the updated centroids as the k-mer-specific centroids. The system also includes runtime logic that uses the k-mer-specific centroids to base call bases in a yet-to-be base called sequence in dependence upon k-mer context. La technologie divulguée concerne un appel de base dépendant du contexte. La technologie divulguée concerne un système comprenant une mémoire stockant des centroïdes spécifiques aux k-mères pour k-mères. Les centroïdes spécifiques aux k-mères sont appris par entraînement d'un pipeline d'appel de base pour représenter des appels de base d'une séquence déjà appelée de base dans une série chronologique spécifique aux k-mères, transformer la série chronologique spécifique aux k-mères en centroïdes spécifiques aux k-mères prédits sur une base de cycle de séquençage par cycle de séquençage pour générer des valeurs d'intensité par cycle de séquençage prédites, déterminer une perte d'entraînement (par exemple, une perte de transformation) sur la base de la comparaison des valeurs d'intensité par cycle de séquençage prédites à des valeurs d'intensité connues des appels de base, mettre à jour les centroïdes spécifiques aux k-mères prédits sur la base de la perte d'entraînement déterminée et stocker les centroïdes mis à jour en tant que centroïdes spécifiques aux k-mères. Le système comprend également une logique d'exécution qui utilise les centroïdes spécifiques aux k-mères pour des bases d'appels de base dans une séquence pas encore appelée de base en fonction du contexte de k-mère.