Statistical Analysis of Unlabeled Point Sets: Comparing Molecules in Chemoinformatics

We consider Bayesian methodology for comparing two or more unlabeled point sets. Application of the technique to a set of steroid molecules illustrates its potential utility involving the comparison of molecules in chemoinformatics and bioinformatics. We initially match a pair of molecules, where on...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Biometrics 2007-03, Vol.63 (1), p.237-251
Hauptverfasser: Dryden, Ian L., Hirst, Jonathan D., Melville, James L.
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:We consider Bayesian methodology for comparing two or more unlabeled point sets. Application of the technique to a set of steroid molecules illustrates its potential utility involving the comparison of molecules in chemoinformatics and bioinformatics. We initially match a pair of molecules, where one molecule is regarded as random and the other fixed. A type of mixture model is proposed for the point set coordinates, and the parameters of the distribution are a labeling matrix (indicating which pairs of points match) and a concentration parameter. An important property of the likelihood is that it is invariant under rotations and translations of the data. Bayesian inference for the parameters is carried out using Markov chain Monte Carlo simulation, and it is demonstrated that the procedure works well on the steroid data. The posterior distribution is difficult to simulate from, due to multiple local modes, and we also use additional data (partial charges on atoms) to help with this task. An approximation is considered for speeding up the simulation algorithm, and the approximating fast algorithm leads to essentially identical inference to that under the exact method for our data. Extensions to multiple molecule alignment are also introduced, and an algorithm is described which also works well on the steroid data set. After all the steroid molecules have been matched, exploratory data analysis is carried out to examine which molecules are similar. Also, further Bayesian inference for the multiple alignment problem is considered. /// Nous envisageons une méthodologie bayesienne pour comparer deux ou plus de deux ensembles de points non identifiés. L'application de la technique à un ensembles de molecules stéroïdes illustre son utilité potentielle, qui inclut la comparaison de molécules en chimio- informatique et en bioinformatique. Nous commençons par constituer une paire de molécules, l'une étant vue comme aléatoire, et l'autre comme fixe. Nous proposons un type de modèle de mélange pour les coordonnées de l'ensemble de points, et les paramètres de la distribution constituent une matrice identifiée (où sont indiqués les points en correspondance) et un paramètre de concentration. Une propriété importante de la vraisemblance est qu'elle est invariante par translation et rotation des données. Une inférence bayesienne est obtenue pour les paramètres au moyen de simulations de Monte Carlo par chaînes de Markov, et l'on montre que cette procédure marche bien sur
ISSN:0006-341X
1541-0420
DOI:10.1111/j.1541-0420.2006.00622.x