Amélioration du positionnement de fragments ADN pour réalisation de séquences consensus dans le contexte de l’assemblage de novo de longues lectures

Victor Epain

Mémoire D'étudiant Année : 2020

DNA fragments positioning improvement to realise consensus sequences in the de novo long reads assembly context

Amélioration du positionnement de fragments ADN pour réalisation de séquences consensus dans le contexte de l’assemblage de novo de longues lectures

(1)

Victor Epain

Fonction : Auteur
PersonId : 753386
IdHAL : victor-epain
ORCID : 0000-0003-0049-0954

Scalable, Optimized and Parallel Algorithms for Genomics

Résumé

DNA molecular in silico analysis requires sequencing it in fragments called reads, and then assembling them. Today’s, long reads sequencing technologies offer the possibility to overcome genome’s repeated regions issues with being entirely covered, but product high errors rate data with sequencing errors, like nucleotides insertions or deletions, called indels. De novo assembly is an assembly without using a reference. Although some assemblers already exist according to several methods - as using De Bruijn graphs or by correcting iteratively the reads for example, we propose a two steps strategy : first, we attribute to the maximum of reads a position on a same positions axis and then we product a consensus sequence thanks to the positioning. At these aims, we propose a modelling for the positioning issue with the mixed integer linear programming (MILP), and we present first ideas for the consensus sequences production with MILP too and multiple sequences alignment from the positioning. As the final aim of this strategy is to formalize the genome assembly issue, we structured it according the mathematical method, that permits to target methodological choices precisely, and then reducing the heuristic uses. Finally, we tested the strategy with bacteria genomes. Despite the fact that positioning results show positive ones, the consensus results are less positive but don’t remove the potentiality of the associated methods.

L’analyse in silico d’une molécule d’ADN requiert son séquençage en fragments appelés lectures puis leur assemblage. Les technologies de séquençage produisant de longues lectures offrent l’avantage de surpasser les problèmes de régions répétées dans les génomes qui sont alors plus facilement couvertes dans leur entièreté, mais produisent des lectures avec un fort taux d’erreurs qui se réfèrent davantage à des insertions ou des suppressions de nucléotides, nommées indels. L’assemblage de novo est un assemblage qui ne s’aide d’aucune référence. Bien que des méthodes d’assemblage de longues lectures ont déjà été proposés, par l’usage de graphes de De Bruijn ou par correction successives des lectures par exemple, nous proposons une stratégie qui s’opère en deux étapes : positionner le maximum de lectures sur un axe de positions, puis produire une séquence consensus en s’aidant des positions déterminées. À ces fins, nous proposons une modélisation du problème du positionnement avec la programmation mathématique linéaire mixte en nombres entiers (PLMNE), et présentons de premières idées pour la production de séquences consensus avec la PLMNE et l’alignement multiples de séquences à partir de ce positionnement. La finalité de cette stratégie étant de formaliser la problématique d’assemblage de génome, nous l’avons structurée selon la méthode mathématique, ce qui permet de cibler les choix méthodologiques précisément afin de réduire l’usage d’heuristiques. Enfin nous avons testé cette stratégie sur des génomes bactériens. Bien que les résultats de positionnements soient globalement très positifs, ceux pour le consensus le sont moins mais n’enlèvent pas aux méthodes leur potentialités.

Mots clés

overlaps graph heaviest path problem mathematical programming kmers shifting graph multiple alignment

graphe de chevauchements problème du plus lourd chemin programmation mathématique graphe de décalage de kmers alignement multiple

Domaines

Bio-informatique [q-bio.QM] Recherche opérationnelle [math.OC]

Fichier principal

rapport_EPAIN_M2_2020.pdf (14.45 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Victor Epain : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-03119772

Soumis le : lundi 25 janvier 2021-15:07:10

Dernière modification le : vendredi 24 mars 2023-14:53:20

Archivage à long terme le : lundi 26 avril 2021-18:35:52

Dates et versions

hal-03119772 , version 1 (25-01-2021)

Identifiants

HAL Id : hal-03119772 , version 1

Citer

Victor Epain. Amélioration du positionnement de fragments ADN pour réalisation de séquences consensus dans le contexte de l’assemblage de novo de longues lectures. Bio-informatique [q-bio.QM]. 2020. ⟨hal-03119772⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA INSA-RENNES IRISA CENTRALESUPELEC INRIA2 UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES UR1-MATH-NUM

50 Consultations

67 Téléchargements

DNA fragments positioning improvement to realise consensus sequences in the de novo long reads assembly context

Amélioration du positionnement de fragments ADN pour réalisation de séquences consensus dans le contexte de l’assemblage de novo de longues lectures

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager