Dassault Systèmes, l'entreprise de la 3DEXPERIENCE, est un « accélérateur de progrès humain ». Elle propose aux entreprises et aux particuliers des environnements virtuels collaboratifs qui leur permettent d'imaginer des innovations plus durables. En développant un jumeau virtuel du monde réel, grâce à la plateforme 3DEXPERIENCE et à ses applications, Dassault Systèmes donne à ses clients les moyens de repousser les limites de l'innovation, de l'apprentissage et de la production.
Les 20 000 collaborateurs de Dassault Systèmes travaillent à créer de la valeur pour nos 270 000 clients de toutes tailles, dans toutes les industries, dans plus de 140 pays. Pour plus d'informations, visitez notre site
www.3ds.com/frL'organisation "Virtual Twin of Human Technology" de Dassault Systèmes est une équipe pluridisciplinaire dans des domaines technologiques, biologiques et biomédicaux de l'entreprise. Elle réalise une veille scientifique et technologique permanente ainsi que des prototypes logiciels pour évaluer l'applicabilité des nouvelles technologies et/ou des connaissances scientifiques pour une nouvelle dimension de la santé humaine.
Par exemple, dans un but de prévention, la modélisation virtuelle et sa simulation vont devenir un élément clé pour les médecins qui peuvent transformer des informations très complexes en actes médiaux pratiques.
Les pratiques cliniques actuelles reposent de plus en plus sur des données « omiques », telles que les données de séquençage, provenant de l'hôte et parfois du microbiote. La variabilité entre cohortes, en plus de l'hétérogénéité des patients, rend la compréhension toute structure cachée dans ces données difficile à interpréter. Pour permettre la stratification des patients et leur diagnostic, il est alors essentiel de développer de nouvelles méthodes d'apprentissage statistique robustes face à l'hétérogénéité des données, efficaces sur le plan computationnel, et compréhensibles par des experts humains.
Dans cette optique, l'implémentation de pipelines bio-informatiques standardisés joue un rôle clé, permettant l'automatisation, la traçabilité et la reproductibilité des traitements appliqués aux données brutes (post-séquençage par exemple). En harmonisant les étapes d'analyse, du prétraitement à l'extraction de caractéristiques, ils permettent de comparer les études, d'intégrer les données de différentes cohortes et de fournir une base fiable pour l'application de modèles d'Intelligence Artificielle.
Vos missions
Dans ce contexte, vos principaux objectifs de stage seront les suivants :
* Etat de l'art : Identifier et analyser des pipelines bioinformatiques décrits dans la littérature [1,2] en lien avec le traitement de données omiques (ex. : données de séquençage, métagénomique, transcriptomique, etc.)
* Implémenter et adapter ces pipelines à partir des protocoles publiés.
* Automatiser les différentes étapes d'analyse, du prétraitement à l'extraction de caractéristiques, en utilisant des outils et langages adaptés (ex. : Nextflow, Snakemake, Python, R). [3]
* Synthétiser vos travaux et les présenter aux autres membres de l'équipe.
[1] MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph (DOI:
https://doi.org/10.1093/bioinformatics/btv033)
[2] CD-HIT: accelerated for clustering the next-generation sequencing data (DOI:
https://doi.org/10.1093/bioinformatics/bts565)
[3] Nextflow enables reproducible computational workflows (DOI:
https://doi.org/10.1038/nbt.3820)