CLUSTERING METHODS USING A GRAND CANONICAL ENSEMBLE
Methods are disclosed for clustering biological samples and other objects using a grand canonical ensemble. A biological sample is characterized by data attributes from varying sources (e.g. NGS, other types of high-dimensional cytometric data, observed disease state) and of varying data types (e.g....
Gespeichert in:
Hauptverfasser: | , , |
---|---|
Format: | Patent |
Sprache: | eng ; fre |
Schlagworte: | |
Online-Zugang: | Volltext bestellen |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | Methods are disclosed for clustering biological samples and other objects using a grand canonical ensemble. A biological sample is characterized by data attributes from varying sources (e.g. NGS, other types of high-dimensional cytometric data, observed disease state) and of varying data types (e.g. Boolean, continuous, or coded sets) organized as vectors (as many as 109) having as many as 106, 109, or more components. The biological samples or observational data are modeled as particles of a grand canonical ensemble which can be variably distributed among partitions. A pseudo-energy is defined as a measure of inverse similarity between the particles. Minimization of grand canonical ensemble pseudo-energy corresponds to clustering maximally similar particles in each partition, thereby determining clusters of the biological samples. The sample clusters can be used for feature discovery, gene and pathway identification, and development of cell based therapeutics, or for other purposes. Variations and additional applications are disclosed.
L'invention concerne des procédés de regroupement d'échantillons biologiques et d'autres objets au moyen d'un ensemble grand canonique. Un échantillon biologique est caractérisé par des attributs de données provenant de diverses sources (par exemple NGS, d'autres types de données cytométriques de grandes dimensions, un état de maladie observé) et de divers types de données (par exemple des ensembles booléens, continus ou codés) organisés sous forme de vecteurs (jusqu'à 109) comportant au moins jusqu'à 106, 109 composantes. Les échantillons biologiques ou les données d'observation sont modélisés sous forme de particules d'un ensemble grand canonique qui peut être distribué de manière variable parmi des partitions. Une pseudo-énergie est définie comme une mesure de similarité inverse entre les particules. La réduction à un minimum de la pseudo-énergie de l'ensemble grand canonique correspond à un regroupement de particules similaires de manière maximale dans chaque partition, ce qui détermine des groupes des échantillons biologiques. Les groupes d'échantillons peuvent être utilisés pour une découverte d'élément, une identification de gène et de voie et un développement d'agents thérapeutiques à base de cellules, ou à d'autres fins. L'invention concerne également des variantes et d'autres applications. |
---|