L'EPGV assure une traçabilité complète et rigoureuse de toutes les données de séquençage produites, conformément à son PGD de structure (en construction). Cette traçabilité s'étend depuis la réception initiale des échantillons biologiques jusqu'à l'archivage final des séquences et leur mise à disposition. Le système repose sur NGL (Next Generation LIMS), une plateforme développée par le Genoscope, spécifiquement conçue pour la gestion des technologies de séquençage haut débit.
Tel qu'illustré dans le schéma ci-dessous, ce processus garantit la qualité, la reproductibilité et la pérennité de l'ensemble des données génomiques produites, en respectant les standards internationaux de gestion des données scientifiques.
NGL (Next Generation LIMS) est un système de gestion de laboratoire intégré qui constitue le cœur de notre dispositif de traçabilité. Développé par l'équipe de bio-informatique du Genoscope pour tracer l'ensemble des expériences du Genoscope, ce système assure :
Le suivi en temps réel de chaque échantillon et de l'ensemble de ses transformations
La traçabilité complète des protocoles expérimentaux et des conditions opératoires
L'intégration directe avec les équipements de laboratoire et les pipelines d'analyse bioinformatique
La gestion automatisée des contrôles qualité à chaque étape critique
L'archivage sécurisé et la mise à disposition contrôlée des données
Le système NGL se décompose en deux modules principaux :
NGL-SEQ : Gestion des échantillons, des extractions et de la préparation des librairies
NGL-BI : Traçabilité des données de séquençage et interface avec les pipelines bioinformatiques
Chaque projet mené par l'EPGV suit le processus général suivant :
Mise en Place du Partenariat et Initialisation du Projet
Chaque projet débute par l'établissement d'un partenariat scientifique ou d'une prestation de service. Cette phase initiale définit les modalités de collaboration, les objectifs scientifiques précis et les livrables attendus.
Le projet reçoit un identifiant NGL unique (code 3 lettres) permanent dans le système. L'ensemble des métadonnées associées (partenaires, objectifs, contraintes temporelles, exigences spécifiques) sont documentées et conservées tout au long du processus.
Réception et Gestion des Échantillons
L'EPGV traite une grande diversité d'échantillons biologiques reflétant la variété des projets de recherche en phylogénomique :
Acides nucléiques purifiés : ADN génomique, ARN total
Chaque échantillon fait l'objet à réception d'un enregistrement détaillé incluant ses conditions de prélèvement, de conservation et de transport. Un code unique (code échantillon) est créer, ainsi qu'un "passeport" numérique permanent incluant toutes les métadonnées associées (origine géographique, conditions de prélèvement, date de réception, responsable scientifique, etc ).
Extraction des Acides Nucléiques et Contrôle Qualité Primaire
L'extraction d'ADN ou d'ARN est réalisée selon des protocoles standardisés adaptés au type d'échantillon et aux objectifs du projet. Par exemple, les protocoles utilisés pour l'extraction d'ADN de haut poids moléculaire incluent des étapes de purification avec des pipettages lents et des centrifugation douces, permettant d'obtenir des acides nucléiques de grandes longueurs. Chaque extraction fait l'objet d'un contrôle qualité :
Évaluation de la qualité :
Tapestation (Agilent) : Analyse électrophorétique automatisée de l'intégrité de l'ADN/ARN
Femtopulse (Agilent) : Caractérisation haute résolution des profils de taille
Nanodrop : Évaluation spectro-photométrique de la pureté (ratios A260/A280 et A260/A230)
Quantification :
Qubit (Thermo Fisher) : Dosage fluorimétrique spécifique de l'ADN ou ARN
Fluoroskan : Lecteur de plaques pour dosages en série
L'ensemble des résultats de contrôle qualité, associé avec les fichiers de données sont tracés et validés pour chaque échantillon selon des critères prédéfinis.
Préparation des Librairies de Séquençage
L'EPGV utilise l'ensemble des protocoles de préparation de librairies validés et intégrés dans NGL, couvrant les principales applications de séquençage (génomes entiers, transcriptomes, séquençage ciblé). Pour répondre aux besoins spécifiques de l'EPGV, nous développons et intégrons les protocoles nécessaires (par exemple pour le Genotypage ciblé par séquençage - tGBS). Chaque librairie produite fait l'objet de contrôles qualité spécifiques :
Analyse de la qualité :
Bioanalyzer (Agilent) : Profil électrophorétique des fragments de librairie courtes lectures (Illumina ADN et ARN)
Tapestation (Agilent) : Validation des profils de taille et détection d'artefacts (ONT Nanopore)
Femtopulse (Agilent) : Caractérisation haute résolution pour les librairies longues lectures (PacBio Hifi)
Quantification pour séquençage :
Qubit : Dosage fluorimétrique des librairies (longues lectures PacBio Hifi et ONT Nanopore)
qPCR : Quantification par PCR quantitative pour détermination précise de la molarité (Illumina ADN et ARN)
Chaque protocole utilisé, lot de réactifs, condition opératoire et l'ensemble des résultats de contrôle qualité sont documentés dans NGL. Chaque librairie conserve la traçabilité complète vers l'échantillon d'origine, permettant la reconstitution de l'historique complet du traitement.
Séquençage Haut Débit
L'EPGV bénéficie de l'accès à l'ensemble des plateformes de séquençage de pointe du Genoscope :
Illumina NovaSeq 6000 : Séquençage haut débit, lectures courtes (50-300 pb), adapté au séquençage de génomes métabarcoding (particulièrement en PE250), rendement de 200Gb à 3Tb (PE150).
PacBio Revio : Séquençage longues lectures haute fidélité (HiFi), lectures longues (10-20 kb), idéal pour l'assemblage de novo de génomes complexes et la détection de variants structuraux (efficacité variable selon le type d'organisme, nous contacter pour en discuter)
Oxford Nanopore GridION et PromethION : Séquençage ultra-long en temps réel, lectures pouvant atteindre plusieurs centaines de kilobases (20-200kb en routine), particulièrement adapté aux génomes complexes et répétitifs (efficacité variable selon le type d'organisme, nous contacter pour en discuter)
Gestion des Runs de Séquençage
Chaque run de séquençage fait l'objet d'un suivi en temps réel intégré à NGL, avec une association automatique des données de séquençage brutes aux échantillons d'origine, l'enregistrement de l'ensemble des paramètres de run (chimie utilisée, version du logiciel d'acquisition, conditions de température et de flow rate), et un suivi en temps réel des métriques de qualité.
Contrôle Qualité Post-Séquençage et Validation
Analyses Automatisées de Qualité
Dès la fin de chaque run de séquençage, un contrôle qualité automatique est enclenché :
Évaluation de la qualité moyenne des bases (Q-score) et distribution des qualités
Vérification du rendement de séquençage par échantillon et détection des déséquilibres
Analyse de la composition nucléotidique et détection de biais de séquençage
Identification d'éventuelles contaminations croisées entre échantillons par assignation taxonomique des lectures
Validation du démultiplexage et vérification de l'attribution correcte des lectures
Sur la base de ce contrôle qualité, les fichiers de séquences sont validés pour les analyses bioinformatiques réalisées à l'EPGVS ou pour être mise à disposition du partenaire.
NGL génère automatique les rapports de QC détaillés, lance l'archivage des lectures brutes et permet la validation formelle des datasets pour les étapes d'analyse ultérieures.
Analyses Bioinformatiques Intégrées
L'EPGV bénéficie des pipelines bioinformatiques automatisés du Genoscope et de ses propres développements :
Analyses primaires :
Contrôle qualité approfondi des données de séquençage (FastQC, MultiQC)
Filtrage et nettoyage des données (suppression des adaptateurs, filtrage qualité)
Alignement sur génomes de référence ou assemblage de novo
Analyses secondaires :
Assemblage automatisé de génomes complets avec évaluation de qualité (BUSCO, assemblathon metrics)
Détection et annotation de polymorphismes (SNP, indels, variants structuraux)
Aide à la valorisation :
Préparation automatisée des métadonnées pour soumission en bases de données publiques (ENA, NCBI)
Génération de rapports standardisés pour publications scientifiques
L'ensemble des analyses bioinformatiques fait l'objet d'une traçabilité complète via NGL, avec un suivi automatique de l'exécution des pipelines, un versioning des outils bioinformatiques et des paramètres utilisés. L'ensemble des logs d'exécution complets sont conservés, et les résultats intermédiaires et finaux (avec métadonnées associées) sont archivés.
Archivage Pérenne et Mise à Disposition
Les données validées sont mises à disposition et archivées selon plusieurs approches, en concertation avec le partenaire :
Site de partage sécurisé (NDA - Non-Disclosure Agreement) :
Mise à disposition temporaire des données récemment produites
Accès sécurisé et contrôlé pour les partenaires du projet
Interface web intuitive pour téléchargement et consultation
Archivage sur bandes magnétiques :
Conservation long terme sur support pérenne (durée de vie > 30 ans)
Système redondant avec copies multiples
Protocoles de vérification d'intégrité réguliers
Soumission en bases de données publiques :
Dépôt selon les exigences du projet et les standards de la communauté scientifique
Support pour les principales bases (ENA, NCBI SRA, DDBJ)
Génération automatique des métadonnées requises
Documentation et Rapports :
Rapports détaillés de bioinformatique incluant méthodes et résultats
Documentation complète des protocoles expérimentaux utilisés
Synthèses scientifiques adaptées aux partenaires
NGL Maintient la traçabilité complète depuis l'échantillon initial jusqu'aux données finales archivées. Le système permet de reconstituer à tout moment l'historique complet du traitement d'un échantillon, incluant l'ensemble des étapes, protocoles, versions d'outils et paramètres utilisés.
Garanties de Qualité et Conformité
Identifiants Uniques et Métadonnées
Chaque échantillon, librairie et dataset possède un identifiant unique permanent généré automatiquement
Enregistrement exhaustif et structuré de toutes les métadonnées expérimentales
Système de codes-barres bidimensionnels pour suivi physique des échantillons
Versioning et Audit Trail
Suivi systématique des versions des protocoles, outils bioinformatiques et paramètres
Journal d'audit complet de toutes les opérations effectuées avec horodatage
Système de sauvegarde incrémentale permettant la reconstitution d'états antérieurs
Conformité et Standards
Respect des standards internationaux de gestion des données génomiques (FAIR principles)
Conformité aux exigences de traçabilité des organismes de recherche publics français
Intégration des recommandations de l'Infrastructure France Génomique
Sécurité et Pérennité
Chiffrement des données sensibles et contrôle d'accès granulaire
Stratégie de sauvegarde multi-sites avec réplication géographique
Politique de conservation long terme alignée sur les exigences réglementaires
La traçabilité mise en œuvre par l'EPGV, s'appuyant sur le système NGL du Genoscope, garantit l'intégrité, la qualité et la reproductibilité de l'ensemble des données de séquençage produites. Ce dispositif permet non seulement de répondre aux exigences scientifiques les plus strictes, mais aussi d'assurer la valorisation optimale des investissements en recherche et la pérennité des données pour les générations futures de chercheurs. L'intégration complète des processus expérimentaux et bioinformatiques dans un système de traçabilité unifié constitue un atout majeur pour les partenaires de l'EPGV, leur assurant un accès à des données de la plus haute qualité, parfaitement documentées et immédiatement exploitables pour leurs recherches.
Ce site utilise des cookies afin de vous proposer des vidéos, des boutons de partage, des remontées de contenus de plateformes sociales et des contenus animés et interactifs.
En savoir plus
A propos des cookies
Qu’est-ce qu’un « cookie » ?
Un "cookie" est une suite d'informations, généralement de petite taille et identifié par un nom, qui peut être transmis à votre navigateur par un site web sur lequel vous vous connectez. Votre navigateur web le conservera pendant une certaine durée, et le renverra au serveur web chaque fois que vous vous y re-connecterez.
Différents types de cookies sont déposés sur les sites :
Cookies strictement nécessaires au bon fonctionnement du site
Cookies déposés par des sites tiers pour améliorer l’interactivité du site, pour collecter des statistiques
Les différents types de cookies déposés sur ce site
Cookies strictement nécessaires au site pour fonctionner
Ces cookies permettent aux services principaux du site de fonctionner de manière optimale. Vous pouvez techniquement les bloquer en utilisant les paramètres de votre navigateur mais votre expérience sur le site risque d’être dégradée.
Par ailleurs, vous avez la possibilité de vous opposer à l’utilisation des traceurs de mesure d’audience strictement nécessaires au fonctionnement et aux opérations d’administration courante du site web dans la fenêtre de gestion des cookies accessible via le lien situé dans le pied de page du site.
Cookies techniques
Nom du cookie
Finalité
Durée de conservation
Cookies de sessions CAS et PHP
Identifiants de connexion, sécurisation de session
Session
Tarteaucitron
Sauvegarde vos choix en matière de consentement des cookies
12 mois
Cookies de mesure d’audience (AT Internet)
Nom du cookie
Finalité
Durée de conservation
atid
Tracer le parcours du visiteur afin d’établir les statistiques de visites.
13 mois
atuserid
Stocker l'ID anonyme du visiteur qui se lance dès la première visite du site
13 mois
atidvisitor
Recenser les numsites (identifiants unique d'un site) vus par le visiteur et stockage des identifiants du visiteur.
13 mois
À propos de l’outil de mesure d’audience AT Internet :
L’outil de mesure d’audience Analytics d’AT Internet est déployé sur ce site afin d’obtenir des informations sur la navigation des visiteurs et d’en améliorer l’usage.
L‘autorité française de protection des données (CNIL) a accordé une exemption au cookie Web Analytics d’AT Internet. Cet outil est ainsi dispensé du recueil du consentement de l’internaute en ce qui concerne le dépôt des cookies analytics. Cependant vous pouvez refuser le dépôt de ces cookies via le panneau de gestion des cookies.
À savoir :
Les données collectées ne sont pas recoupées avec d’autres traitements
Le cookie déposé sert uniquement à la production de statistiques anonymes
Le cookie ne permet pas de suivre la navigation de l’internaute sur d’autres sites.
Cookies tiers destinés à améliorer l’interactivité du site
Ce site s’appuie sur certains services fournis par des tiers qui permettent :
de proposer des contenus interactifs ;
d’améliorer la convivialité et de faciliter le partage de contenu sur les réseaux sociaux ;
de visionner directement sur notre site des vidéos et présentations animées ;
de protéger les entrées des formulaires contre les robots ;
de surveiller les performances du site.
Ces tiers collecteront et utiliseront vos données de navigation pour des finalités qui leur sont propres.
Accepter ou refuser les cookies : comment faire ?
Lorsque vous débutez votre navigation sur un site eZpublish, l’apparition du bandeau « cookies » vous permet d’accepter ou de refuser tous les cookies que nous utilisons. Ce bandeau s’affichera tant que vous n’aurez pas effectué de choix même si vous naviguez sur une autre page du site.
Vous pouvez modifier vos choix à tout moment en cliquant sur le lien « Gestion des cookies ».
Vous pouvez gérer ces cookies au niveau de votre navigateur. Voici les procédures à suivre :
Pour obtenir plus d’informations concernant les cookies que nous utilisons, vous pouvez vous adresser au Déléguée Informatique et Libertés de INRAE par email à cil-dpo@inrae.fr ou par courrier à :
INRAE 24, chemin de Borde Rouge –Auzeville – CS52627 31326 Castanet Tolosan cedex - France