Assemblage de génome

Assemblage de génome

L'assemblage de génomes eucaryotes a connu une révolution majeure ces dernières années avec l'avènement des technologies de séquençage à lectures longues et des méthodes de scaffolding avancées. Les standards actuels exigent une contiguité supérieure à 1 Mb pour les contigs et 10 Mb pour les scaffolds, avec plus de 90% du génome assigné aux scaffolds chromosomiques et un taux d'erreur inférieur à 1 pour 10 000 bases. L'EPGV s'est positionnée à la pointe de cette révolution technologique, développant une expertise reconnue dans l'assemblage de génomes de référence de haute qualité répondant aux exigences les plus strictes de la communauté scientifique internationale.

Dans un contexte où l'assemblage Télomère-à-télomère (T2T) devient la norme pour l'intégration des séquences de génomes dans les pangénomes (étude de la diversité structurale) ou pour l'intégration multi-omiques, l'EPGV dispose d'un parc technologique complet et à la pointe, permettant d'adresser l'ensemble des défis de l'assemblage de génomes eucaryotes modernes :

Technologies de Séquençage Long-Reads

  • PacBio Revio : Plateforme de dernière génération pour la production de lectures HiFi (High Fidelity) de 10-25 kb avec une précision supérieure à 99,9%, idéale pour résoudre les régions répétitives complexes et obtenir une contiguité optimale
  • Oxford Nanopore (MinION, GridION, PromethION P24) : Gamme complète permettant des lectures ultra-longues (>100 kb) essentielles pour franchir les éléments transposables étendus et les régions hautement répétitives caractéristiques des génomes végétaux

Séquençage Court-Reads Haute Performance

  • Illumina NovaSeq X Plus : Technologie de dernière génération offrant un débit exceptionnel pour le polissage d'assemblages et la validation de variants structuraux
  • Illumina NovaSeq 6000 : Plateforme éprouvée pour les approches hybrides et la génération de données complémentaires haute qualité

Technologies de Scaffolding Chromosomique

  • Hi-C : Développement en cours de l'expertise Hi-C, permettant l'organisation chromosomique des assemblages avec une résolution exceptionnelle et l'identification des territoires chromatiniens

 

Cette combinaison technologique unique permet à l'EPGV de proposer des stratégies d'assemblage entièrement adaptées aux spécificités de chaque projet, depuis les génomes compacts jusqu'aux poly-génomes les plus complexes :

  • Assemblage Hybride Optimisé : L'intégration synergique des technologies PacBio HiFi et Oxford Nanopore permet de tirer parti des avantages respectifs : précision exceptionnelle des lectures HiFi pour minimiser les erreurs d'assemblage, et longueur extrême des lectures ONT pour maximiser la contiguité et résoudre les structures les plus complexes. Cette approche hybride optimisée permet d'atteindre régulièrement des assemblages avec des contigs N50 supérieurs à plusieurs mégabases.
  • Scaffolding Chromosomique Hi-C : La technologie Hi-C combine la ligation basée sur la proximité avec le séquençage massivement parallèle, permettant l'identification non biaisée des interactions chromatiniennes à l'échelle du génome entier. L'implémentation en cours de cette technologie à l'EPGV permet le groupement, l'ordonnancement et l'orientation des contigs basés sur l'organisation chromatinienne naturelle, aboutissant à des assemblages pseudomolécules de qualité chromosome.
  • Approches Spécialisées pour Génomes Complexes : Pour les espèces polyploïdes ou présentant une forte charge en éléments transposables, l'EPGV développe des stratégies spécialisées incluant la séparation des haplotypes, la résolution des régions centromériques, et l'assemblage des organelles (chloroplastes et mitochondries) avec une attention particulière à la détection et élimination des contaminants.

Quelques génomes assemblés à l'EPGV :

L'EPGV a démontré sa maîtrise de l'assemblage de génomes à travers une diversité remarquable de projets, illustrant sa capacité à s'adapter aux défis spécifiques de chaque organisme :

 

Intégration des 4 génomes du projet dans un pangénome

Les travaux sur le lin (Linum usitatissimum) témoignent de l'expertise de l'EPGV dans l'assemblage de génomes pour faciliter la sélection génomique et la connaissance des collections dans une culture en expension. L'assemblage de quatre génomes de lin révèle la capacité à gérer la diversité génétique intra-spécifique et à produire des ressources génomiques comparatives de haute qualité, essentielles pour la sélection variétale et l'amélioration des plantes. Après une extraction de haute qualité permettant d'obtenir des fragments d'ADN de haut poids moléculaire, un séquençage Nanopore a été réalisé pour l'assemblage des contigs, et une carte optique construite pour le scaffolding primaire. Le scaffolding secondaire au niveau chromosomique a été finalisé par comparaison avec les génomes publiés.

 

L'expertise sur melon (Cucumis melo) illustre parfaitement la maîtrise des approches multi-technologiques. Les assemblages de référence produits (cultivars Anso77 et Doublon) présentent des métriques d'excellence : contiguité chromosomique complète, résolution précise des clusters de gènes de résistance complexes, et validation fonctionnelle par approches de génomique comparative (Belinchon-Moreno et al. 2025). Ces travaux ont notamment permis l'implémentation pionnière du Nanopore Adaptive Sampling pour la caractérisation ciblée de régions génomiques complexes.

 

Les projets sur peuplier noir et peuplier deltoïdes (Populus nigra et  P. deltoides) démontrent la capacité de l'EPGV à assembler des génomes hautement hétérozygotes, caractéristiques des espèces forestières, en tirant parti des données générées dans les projets (PacBio Hifi et ONT Nanopore, Illumina) et/ou déjà disponibles (cartes génétiques, assemblages de génotypes proches, etc).

Au cours d'un projet international, l'EPGV a participé à l'amélioration et au scaffolding du génome du peuplier noir (Populus nigra).

Par une approche de trio-binning, l'EPGV a également assemblé un génome de haute qualité pour P. deltoides 'Dellinois'. Le trio-binning permet d'utiliser les kmer spécifiques de chaque parents (identifiés par un séquençage courtes-lectures) pour distinguer les séquences provenant de l'un ou l'autre des parents, simplifiant ainsi grandement l'assemblage de génomes hétérozygotes.

Pdelto_trio
Trio-binning chez P. deltoides

 

circos_lavender
Représentation graphique du génome de la lavande

L'assemblage du génome de la lavande (Lavandula angustifolia) illustre l'adaptabilité aux espèces aromatiques et médicinales, secteur en pleine expansion nécessitant des ressources génomiques de référence pour l'amélioration des propriétés organoleptiques et thérapeutiques.

Par une approche combinant des données Nanopore, Hifi et une carte génétique générée dans le projet par tGBS, l'EPGV a assemblé un génome de haute qualité pour la variété 'Maillette' et pu ainsi élucider l'origine de la différence de caryotype par rapport au génome de référence, issu d'une variété asiatique.

 

L'assemblage du génome de Gammarus fossarum témoigne de la diversification de l'expertise vers les organismes aquatiques, élargissant le champ d'application aux études d'écologie évolutive et de toxicologie environnementale. Le principal défi pour la réalisation de ce séquençage a été l'obtention d'une profondeur de séquençage suffisante (taille de génome estimée : 6.3 Gb) par rapport à la quantité d'ADN disponible (travail sur l'extraction d'un individu unique). Cela a été réalisé par un séquençage PacBio Hifi d'une combinaison d'ADN natif et de librairies amplifiées. Après un assemblage préliminaire réalisée par l'EPGV, une analyse fine est en cours par le collaborateur.

 

Gfossarum
G. fossarum © https://en.wikipedia.org/wiki/Gammarus_fossarum

Respect des standards de Qualité et Métriques internationales

Les assemblages produits par l'EPGV respectent systématiquement les standards internationaux les plus exigeants

metriques_assemblage

Pour une annotation de qualité, L'EPGV propose deux pipelines d'annotation complémentaires :

  • Helixer : Approche de deep learning particulièrement efficace pour la prédiction de structure génique dans les génomes complexes
  • Gmove : Pipeline intégratif combinant prédictions ab initio, homologie et données transcriptomiques pour une annotation exhaustive (pipeline développé par le CNS)

 

Une offre de service complète pour l'assemblage

L'offre de l'EPGV couvre l'ensemble du spectre des besoins en assemblage de génomes :

  • Assemblage de novo : Assemblage complet depuis les données brutes jusqu'aux pseudomolécules chromosomiques, incluant la stratégie de séquençage, la production des données, l'assemblage, le scaffolding et la validation qualité.
  • Amélioration d'assemblages existants Upgrade d'assemblages fragmentés par intégration de données long-reads et/ou Hi-C, permettant de transformer des assemblages contig en assemblages pseudomolécules de qualité référence.
  • Ré-assemblage et correction Correction d'erreurs d'assemblage, résolution de gaps, et amélioration de la représentation des régions complexes dans les assemblages existants.

L'expertise de l'EPGV en assemblage de génomes s'inscrit dans l'écosystème INRAE, notamment avec le CNRGV pour les technologies complémentaires spécialisées (BioNano). Cette position permet d'offrir des solutions complètes adaptées à la diversité des projets de recherche et d'application en génomique végétale.