METHOD FOR DETECTING INSERTION-DELETION MUTATIONS IN GENOMIC SEQUENCES
Poor quality reads are removed based on base mismatches in the primer region, and on undetermined bases in the barcode region. Good quality reads are clustered into merged per read pair, each pair of forward and reverse reads being merged. Merged reads are clustered into groups of identical reads, a...
Gespeichert in:
Hauptverfasser: | , , , , , , , , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Poor quality reads are removed based on base mismatches in the primer region, and on undetermined bases in the barcode region. Good quality reads are clustered into merged per read pair, each pair of forward and reverse reads being merged. Merged reads are clustered into groups of identical reads, accounting for sequencing errors defined by positions where the forward and reverse read differ. For each merged reads cluster a consensus sequence is defined based on Phred base quality of the reads it contains. The consensus sequence of each cluster is aligned to the amplicon of origin of the reads it contains using an alignment algorithm, with all optimal alignments recorded. Variants are identified from the alignments for each amplicon and aggregated into a single record for variants in regions belonging to overlapping amplicons. Indels are called using a set of thresholds applied to features of the alignments, reads and merged read clusters supporting a call, presence of the indel in the NF sample.
Les lectures de mauvaise qualité sont éliminées sur la base des mésappariements de bases dans la région d'amorce, et des bases indéterminées dans la région de code-barres. Les lectures de bonne qualité sont regroupées dans des paires de lectures fusionnées, chaque paire de lectures sens et anti-sens étant fusionnée. Les lectures fusionnées sont regroupées en groupes de lectures identiques, en tenant compte des erreurs de séquençage définies par les positions où les lectures sens et anti-sens diffèrent. Pour chaque groupe de lectures fusionnées, une séquence consensus est définie sur la base de la qualité de base Phred des lectures qu'elle contient. La séquence consensus de chaque groupe est alignée sur l'amplicon d'origine des lectures qu'il contient à l'aide d'un algorithme d'alignement, avec tous les alignements optimaux enregistrés. Des variantes sont identifiées à partir des alignements pour chaque amplicon et regroupées en un seul enregistrement pour les variantes dans les régions appartenant à des amplicons qui se chevauchent. Des indels sont appelés à l'aide d'un ensemble de seuils appliqués à des caractéristiques des alignements, des lectures et des groupes de lectures fusionnés soutenant un appel, la présence de l'indel dans l'échantillon NF. |
---|