Traçabilité des données

Traçabilité des Données de Séquençage à l'EPGV

L'EPGV assure une traçabilité complète et rigoureuse de toutes les données de séquençage produites, conformément à son PGD de structure (en construction). Cette traçabilité s'étend depuis la réception initiale des échantillons biologiques jusqu'à l'archivage final des séquences et leur mise à disposition. Le système repose sur NGL (Next Generation LIMS), une plateforme développée par le Genoscope, spécifiquement conçue pour la gestion des technologies de séquençage haut débit.

Tel qu'illustré dans le schéma ci-dessous, ce processus garantit la qualité, la reproductibilité et la pérennité de l'ensemble des données génomiques produites, en respectant les standards internationaux de gestion des données scientifiques.

Suivi projet EPGV

 

NGL (Next Generation LIMS) est un système de gestion de laboratoire intégré qui constitue le cœur de notre dispositif de traçabilité. Développé par l'équipe de bio-informatique du Genoscope pour tracer l'ensemble des expériences du Genoscope, ce système assure :

  • Le suivi en temps réel de chaque échantillon et de l'ensemble de ses transformations
  • La traçabilité complète des protocoles expérimentaux et des conditions opératoires
  • L'intégration directe avec les équipements de laboratoire et les pipelines d'analyse bioinformatique
  • La gestion automatisée des contrôles qualité à chaque étape critique
  • L'archivage sécurisé et la mise à disposition contrôlée des données

 

Le système NGL se décompose en deux modules principaux :

  • NGL-SEQ : Gestion des échantillons, des extractions et de la préparation des librairies
  • NGL-BI : Traçabilité des données de séquençage et interface avec les pipelines bioinformatiques

 

Chaque projet mené par l'EPGV suit le processus général suivant :

 

Mise en Place du Partenariat et Initialisation du Projet

Chaque projet débute par l'établissement d'un partenariat scientifique ou d'une prestation de service. Cette phase initiale définit les modalités de collaboration, les objectifs scientifiques précis et les livrables attendus.

Le projet reçoit un identifiant NGL unique (code 3 lettres) permanent dans le système. L'ensemble des métadonnées associées (partenaires, objectifs, contraintes temporelles, exigences spécifiques) sont documentées et conservées tout au long du processus.

Réception et Gestion des Échantillons

L'EPGV traite une grande diversité d'échantillons biologiques reflétant la variété des projets de recherche en phylogénomique :

  • Échantillons végétaux : Tissus foliaires frais ou lyophilisés, échantillons racinaires, graines, pollen
  • Échantillons animaux : Tissus musculaires, échantillons sanguins, cellules isolées
  • Acides nucléiques purifiés : ADN génomique, ARN total

Chaque échantillon fait l'objet à réception d'un enregistrement détaillé incluant ses conditions de prélèvement, de conservation et de transport. Un code unique (code échantillon) est créer, ainsi qu'un "passeport" numérique permanent incluant toutes les métadonnées associées (origine géographique, conditions de prélèvement, date de réception, responsable scientifique, etc ).

Extraction des Acides Nucléiques et Contrôle Qualité Primaire

L'extraction d'ADN ou d'ARN est réalisée selon des protocoles standardisés adaptés au type d'échantillon et aux objectifs du projet. Par exemple, les protocoles utilisés pour l'extraction d'ADN de haut poids moléculaire incluent des étapes de purification avec des pipettages lents et des centrifugation douces, permettant d'obtenir des acides nucléiques de grandes longueurs. Chaque extraction fait l'objet d'un contrôle qualité :

Évaluation de la qualité :

  • Tapestation (Agilent) : Analyse électrophorétique automatisée de l'intégrité de l'ADN/ARN
  • Femtopulse (Agilent) : Caractérisation haute résolution des profils de taille
  • Nanodrop : Évaluation spectro-photométrique de la pureté (ratios A260/A280 et A260/A230)

Quantification :

  • Qubit (Thermo Fisher) : Dosage fluorimétrique spécifique de l'ADN ou ARN
  • Fluoroskan : Lecteur de plaques pour dosages en série

L'ensemble des résultats de contrôle qualité, associé avec les fichiers de données sont tracés et validés pour chaque échantillon selon des critères prédéfinis.

Préparation des Librairies de Séquençage

L'EPGV utilise l'ensemble des protocoles de préparation de librairies validés et intégrés dans NGL, couvrant les principales applications de séquençage (génomes entiers, transcriptomes, séquençage ciblé). Pour répondre aux besoins spécifiques de l'EPGV, nous développons et intégrons les protocoles nécessaires (par exemple pour le Genotypage ciblé par séquençage - tGBS). Chaque librairie produite fait l'objet de contrôles qualité spécifiques :

Analyse de la qualité :

  • Bioanalyzer (Agilent) : Profil électrophorétique des fragments de librairie courtes lectures (Illumina ADN et ARN)
  • Tapestation (Agilent) : Validation des profils de taille et détection d'artefacts (ONT Nanopore)
  • Femtopulse (Agilent) : Caractérisation haute résolution pour les librairies longues lectures (PacBio Hifi)

Quantification pour séquençage :

  • Qubit : Dosage fluorimétrique des librairies (longues lectures PacBio Hifi et ONT Nanopore)
  • qPCR : Quantification par PCR quantitative pour détermination précise de la molarité (Illumina ADN et ARN)

Chaque protocole utilisé, lot de réactifs, condition opératoire et l'ensemble des résultats de contrôle qualité sont documentés dans NGL. Chaque librairie conserve la traçabilité complète vers l'échantillon d'origine, permettant la reconstitution de l'historique complet du traitement.

Séquençage Haut Débit

L'EPGV bénéficie de l'accès à l'ensemble des plateformes de séquençage de pointe du Genoscope :

NovaseqX
© Illumina

 Illumina NovaSeq X+ : Séquençage très haut débit, lectures courtes (50-300 pb), rendement de 500Gb à 8Tb (PE150)

Novaseq6000
© Illumina

Illumina NovaSeq 6000 : Séquençage haut débit, lectures courtes (50-300 pb), adapté au séquençage de génomes métabarcoding (particulièrement en PE250), rendement de 200Gb à 3Tb (PE150).

REVIO
© Pacific Bioscience

PacBio Revio : Séquençage longues lectures haute fidélité (HiFi), lectures longues (10-20 kb), idéal pour l'assemblage de novo de génomes complexes et la détection de variants structuraux (efficacité variable selon le type d'organisme, nous contacter pour en discuter)

gamme_ONT
© Oxford Nanopore Technology

Oxford Nanopore GridION et PromethION : Séquençage ultra-long en temps réel, lectures pouvant atteindre plusieurs centaines de kilobases (20-200kb en routine), particulièrement adapté aux génomes complexes et répétitifs (efficacité variable selon le type d'organisme, nous contacter pour en discuter)

 

Gestion des Runs de Séquençage

Chaque run de séquençage fait l'objet d'un suivi en temps réel intégré à NGL, avec une association automatique des données de séquençage brutes aux échantillons d'origine, l'enregistrement de l'ensemble des paramètres de run (chimie utilisée, version du logiciel d'acquisition, conditions de température et de flow rate), et un suivi en temps réel des métriques de qualité.

Contrôle Qualité Post-Séquençage et Validation

Analyses Automatisées de Qualité

Dès la fin de chaque run de séquençage, un contrôle qualité automatique est enclenché :

  • Évaluation de la qualité moyenne des bases (Q-score) et distribution des qualités
  • Vérification du rendement de séquençage par échantillon et détection des déséquilibres
  • Analyse de la composition nucléotidique et détection de biais de séquençage
  • Identification d'éventuelles contaminations croisées entre échantillons par assignation taxonomique des lectures
  • Validation du démultiplexage et vérification de l'attribution correcte des lectures

Sur la base de ce contrôle qualité, les fichiers de séquences sont validés pour les analyses bioinformatiques réalisées à l'EPGVS ou pour être mise à disposition du partenaire.

NGL génère automatique les rapports de QC détaillés, lance l'archivage des lectures brutes et permet la validation formelle des datasets pour les étapes d'analyse ultérieures.

Analyses Bioinformatiques Intégrées

L'EPGV bénéficie des pipelines bioinformatiques automatisés du Genoscope et de ses propres développements :

Analyses primaires :

  • Contrôle qualité approfondi des données de séquençage (FastQC, MultiQC)
  • Filtrage et nettoyage des données (suppression des adaptateurs, filtrage qualité)
  • Alignement sur génomes de référence ou assemblage de novo

Analyses secondaires :

  • Assemblage automatisé de génomes complets avec évaluation de qualité (BUSCO, assemblathon metrics)
  • Détection et annotation de polymorphismes (SNP, indels, variants structuraux)

Aide à la valorisation :

  • Préparation automatisée des métadonnées pour soumission en bases de données publiques (ENA, NCBI)
  • Génération de rapports standardisés pour publications scientifiques

L'ensemble des analyses bioinformatiques fait l'objet d'une traçabilité complète via NGL, avec un suivi automatique de l'exécution des pipelines, un versioning des outils bioinformatiques et des paramètres utilisés. L'ensemble des logs d'exécution complets sont conservés, et les résultats intermédiaires et finaux (avec métadonnées associées) sont archivés. 

Archivage Pérenne et Mise à Disposition

Les données validées sont mises à disposition et archivées selon plusieurs approches, en concertation avec le partenaire :

Site de partage sécurisé (NDA - Non-Disclosure Agreement) :

  • Mise à disposition temporaire des données récemment produites
  • Accès sécurisé et contrôlé pour les partenaires du projet
  • Interface web intuitive pour téléchargement et consultation

Archivage sur bandes magnétiques :

  • Conservation long terme sur support pérenne (durée de vie > 30 ans)
  • Système redondant avec copies multiples
  • Protocoles de vérification d'intégrité réguliers

Soumission en bases de données publiques :

  • Dépôt selon les exigences du projet et les standards de la communauté scientifique
  • Support pour les principales bases (ENA, NCBI SRA, DDBJ)
  • Génération automatique des métadonnées requises

Documentation et Rapports :

  • Rapports détaillés de bioinformatique incluant méthodes et résultats
  • Documentation complète des protocoles expérimentaux utilisés
  • Synthèses scientifiques adaptées aux partenaires

NGL Maintient la traçabilité complète depuis l'échantillon initial jusqu'aux données finales archivées. Le système permet de reconstituer à tout moment l'historique complet du traitement d'un échantillon, incluant l'ensemble des étapes, protocoles, versions d'outils et paramètres utilisés.

Garanties de Qualité et Conformité

Identifiants Uniques et Métadonnées

  • Chaque échantillon, librairie et dataset possède un identifiant unique permanent généré automatiquement
  • Enregistrement exhaustif et structuré de toutes les métadonnées expérimentales
  • Système de codes-barres bidimensionnels pour suivi physique des échantillons

Versioning et Audit Trail

  • Suivi systématique des versions des protocoles, outils bioinformatiques et paramètres
  • Journal d'audit complet de toutes les opérations effectuées avec horodatage
  • Système de sauvegarde incrémentale permettant la reconstitution d'états antérieurs

Conformité et Standards

  • Respect des standards internationaux de gestion des données génomiques (FAIR principles)
  • Conformité aux exigences de traçabilité des organismes de recherche publics français
  • Intégration des recommandations de l'Infrastructure France Génomique

Sécurité et Pérennité

  • Chiffrement des données sensibles et contrôle d'accès granulaire
  • Stratégie de sauvegarde multi-sites avec réplication géographique
  • Politique de conservation long terme alignée sur les exigences réglementaires

 

 

La traçabilité mise en œuvre par l'EPGV, s'appuyant sur le système NGL du Genoscope, garantit l'intégrité, la qualité et la reproductibilité de l'ensemble des données de séquençage produites. Ce dispositif permet non seulement de répondre aux exigences scientifiques les plus strictes, mais aussi d'assurer la valorisation optimale des investissements en recherche et la pérennité des données pour les générations futures de chercheurs. L'intégration complète des processus expérimentaux et bioinformatiques dans un système de traçabilité unifié constitue un atout majeur pour les partenaires de l'EPGV, leur assurant un accès à des données de la plus haute qualité, parfaitement documentées et immédiatement exploitables pour leurs recherches.

 

Contact

Patricia Faivre Rampant : patricia.faivre-rampant@inrae.fr