COMPUTER FILES AND METHODS SUPPORTING FORENSIC ANALYSIS OF NUCLEOTIDE SEQUENCE DATA

In one illustrative embodiment, a method may comprise receiving a first text-based computer file including one or more records, each of the one or more records comprising nucleotide sequence data generated by a read of a massively parallel sequencing instrument, determining whether a portion of the...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Hauptverfasser:	MINARD-SMITH, ANGELA, T, YOUNG, BRIAN, A, HEIZER, ESLEY, M., JR, YANG, BOYU, BORNMAN, DANIEL, M, HESTER, MARK, E
Format:	Patent
Sprache:	eng ; fre
Schlagworte:	INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTEDFOR SPECIFIC APPLICATION FIELDS PHYSICS
Online-Zugang:	Volltext bestellen
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	In one illustrative embodiment, a method may comprise receiving a first text-based computer file including one or more records, each of the one or more records comprising nucleotide sequence data generated by a read of a massively parallel sequencing instrument, determining whether a portion of the nucleotide sequence data of each record represents a short tandem repeat (STR) associated with a locus, placing each portion of the nucleotide sequence data determined to represent an STR associated with a locus into one of a number of locus- specific lists, determining a number of occurrences within each locus-specific list of identical nucleotide sequence data representing a unique STR, and generating a second text-based computer file including one or more records, each of the one or more records corresponding to a unique STR for which the number of occurrences of identical nucleotide sequence data representing the unique STR exceeded an abundance threshold. L'invention concerne, dans un mode de réalisation fourni à titre d'illustration, un procédé qui peut comprendre les opérations consistant à recevoir un premier fichier informatique à base de texte comprenant un ou plusieurs enregistrements, chacun du ou des enregistrements comprenant des données de séquence de nucléotides créées par une lecture d'un instrument de séquençage massivement parallèle, déterminer si une partie des données de séquence de nucléotides de chaque enregistrement représente une brève séquence répétée en tandem (SRT) associées à un locus, placer chaque partie des données de séquence de nucléotides identifiée comme représentant une SRT associée à un locus dans une liste parmi un certain nombre de listes spécifiques à un locus, déterminer à l'intérieur de chaque liste spécifique à un locus un certain nombre d'occurrences de données identiques de séquence de nucléotides représentant une SRT unique et créer un second fichier informatique à base de texte comprenant un ou plusieurs enregistrements, chacun du ou des enregistrements correspondant à une STR unique pour laquelle le nombre d'occurrences de données identiques de séquence de nucléotides représentant la SRT unique a dépassé un seuil d'abondance.