SYSTEMS AND METHODS FOR DETERMINING STRUCTURAL VARIATION AND PHASING USING VARIANT CALL DATA

Systems and methods for determining structural variation and phasing using variant call data obtained from nucleic acid of a biological sample are provided. Sequence reads are obtained, each comprising a portion corresponding to a subset of the test nucleic acid and a portion encoding a barcode inde...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Hauptverfasser: Patrick MARKS, Kristina GIORDA, Heather ORDONEZ, Jessica TERRY, William HAYNES EATON, Michael SCHNALL- LEVIN, Serge SAXONOV, Mirna JAROSZ, Sofia KYRIAZOPOULOU-PANAGIOTOPOULOU, Xinying ZHENG, Patrice MUDIVARTI
Format: Patent
Sprache:eng ; spa
Schlagworte:
Online-Zugang:Volltext bestellen
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Systems and methods for determining structural variation and phasing using variant call data obtained from nucleic acid of a biological sample are provided. Sequence reads are obtained, each comprising a portion corresponding to a subset of the test nucleic acid and a portion encoding a barcode independent of the sequencing data. Bin information is obtained. Each bin represents a different portion of the sample nucleic acid. Each bin corresponds to a set of sequence reads in a plurality of sets of sequence reads formed from the sequence reads such that each sequence read in a respective set of sequence reads corresponds to a subset of the nucleic acid represented by the bin corresponding to the respective set. Binomial tests identify bin pairs having more sequence reads with the same barcode in common than expected by chance. Probabilistic models determine structural variation likelihood from the sequence reads of these bin pairs. Se proveen sistemas y métodos para determinar la variación estructural y el ajuste de fases mediante datos de recuperación de variantes obtenidos a partir de ácido nucleico de una muestra biológica. Se obtienen lecturas de secuencia, de las que cada una comprende una parte correspondiente a un subconjunto del ácido nucleico de ensayo y una parte que codifica un código de barras independiente de los datos de secuenciación. Se obtiene información de tramos. Cada tramo representa una parte diferente del ácido nucleico de muestra. Cada tramo corresponde a un conjunto de lecturas de secuencia en múltiples conjuntos de lecturas de secuencia formado a partir de las lecturas de secuencia, de forma que cada lectura de secuencia en un conjunto respectivo de lecturas de secuencia corresponda a un subconjunto del ácido nucleico representado por el tramo correspondiente al conjunto respectivo. Los ensayos binomiales identifican pares de tramos con más lecturas de secuencia con el mismo código de barras en común que lo esperado al azar. Los modelos probabilísticos determina la probabilidad de variación estructural a partir de las lecturas de secuencia de los pares de tramos.