FAIR_Bioinfo: a turnkey training course and protocol for reproducible computational biology

Reproducibility plays an essential part in the success of a bioinformatics project. Indeed, Reproducibility makes it possible to guarantee the validity of scientific results and to simplify the dissemination of projects. To help disseminate Reproducibility principles among bioinformatics students, e...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:JOSE - Journal of Open Source Education 2021-08, Vol.4 (42), p.68
Hauptverfasser: Denecker, Thomas, Toffano-Nioche, Claire
Format: Artikel
Sprache:eng
Schlagworte:
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Beschreibung
Zusammenfassung:Reproducibility plays an essential part in the success of a bioinformatics project. Indeed, Reproducibility makes it possible to guarantee the validity of scientific results and to simplify the dissemination of projects. To help disseminate Reproducibility principles among bioinformatics students, engineers and scientists, we created the FAIR_Bioinfo course, which presents a set of features we consider necessary to make a complete bioinformatics analysis reproducible. To illustrate the theoretical concepts of reproducibility, we use as an example a classic bioinformatics analysis (differential gene expression analysis from RNA-seq data). In short, we retrieve the data from public databases (ENA/SRA), we perform a reproducible analysis using a workflow management system (snakemake) in a virtual environment (Docker). The entire versioned (git) code is open source (Github https://github.com/thomasdenecker/FAIR_Bioinfo and dockerhub https://hub.docker.com/r/tdenecker/fair_bioinfo). The course book is available in English on GitBook (https://fair-bioinfo.gitbook.io/fair-bioinfo/) and the slides in French on Github. The visualization of the results is dynamic (Shiny app) and the PDF or HTML report (Rmarkdown) provides the results of the analysis and lists all user-selected parameters. La reproductibilité joue un rôle essentiel dans la réussite d'un projet de bioinformatique. En effet, la reproductibilité permet de garantir la validité des résultats scientifiques et de simplifier la diffusion des projets. Pour aider à diffuser les principes de de la reproductibilité auprès des étudiants en bioinformatique, des ingénieurs et des scientifiques, nous avons créé le cours FAIR_Bioinfo, qui présente un ensemble de fonctionnalités que nous considérons comme nécessaires pour rendre reproductible une analyse bioinformatique. Pour illustrer les concepts théoriques de la reproductibilité, nous utilisons comme exemple une analyse bioinformatique classique (analyse de l'expression différentielle des gènes à partir de données de séquences d'ARN). En bref, nous récupérons les données dans des bases de données publiques (ENA/SRA), nous effectuons une analyse reproductible en utilisant un système de gestion de workflows (snakemake) dans un environnement virtuel (Docker). L'ensemble du code versionné (git) est open source (GitHub https://github.com/thomasdenecker/FAIR_Bioinfo et dockerhub https://hub.docker.com/r/tdenecker/fair_bioinfo). Le manuel de cours est disponible en anglai
ISSN:2577-3569
2577-3569
DOI:10.21105/jose.00068