note
| - My work can be divided into two main parts. First, I have designed tools dedicated to the differential analysis of the transcriptome. Second, I have developed and applied multiple changepoint detection methods for genomic datasets. The remarkable diversity of RNA isoforms, besides alternative transcription initiation sites, is primarily attributable to post-transcriptional modifications. These alterations span an array of events that can occur along RNA molecules including splicing, processing, alternative polyadenylation, editing, and base modification. The advent of high-throughput transcriptomics has catalyzed an unprecedented understanding of this diversity. However, the analysis of such data presents substantial statistical, computational, technical, and biological challenges. I actively contributed to the development of two methods, DiffSegR and comaturationTrackeR, dedicated to the differential analysis of transcriptomes. These methods are built to alleviate the complications arising from studying, often unannotated, individual isoforms, focusing instead on event-by-event or pairwise analyses. DiffSegR empowers the identification of transcriptome-wide expression differences across two biological conditions using RNA-Seq data. With the integration of a multiple changepoint detection algorithm, it precisely delineates the boundaries of differentially expressed regions, eliminating the necessity for prior annotations. On the other hand, comaturationTrackeR, utilizing long-read RNA-seq data, is tailored for the detection of transcriptome-wide co-maturations—dependencies between pairs of maturation events such as editing and splicing. Crucially, both methods are integrated with the DESeq2 statistical framework. This inclusion allows for rigorous testing of expression differences and co-maturations. Furthermore, these methods have been intuitively encapsulated into R packages, ensuring user-friendliness for both biologists and bioinformaticians. These approaches have proven their effectiveness through practical applications on the transcriptomes of chloroplasts, mitochondria, and bacteria. Importantly, many of the findings have been validated molecularly. Another facet of my thesis involves the development and application of multiple changepoint detection methodologies on genomic datasets. The popularity of these models in genomics stems from their inherent capability to reveal unannotated biological events along the genome, such as expression differences resulting from splicing variations. Various dynamic programming algorithms aimed at maximizing a penalized likelihood have been proposed over the years. These algorithms and the contrasts they optimize display remarkable computational and statistical properties, with their speed performance being a rationale for their use with genomic data. Building upon this line of research, I have designed and implemented an exact and efficient dynamic programming algorithm, Ms.FPOP. This algorithm optimizes a least squares criterion and incorporates a multiscale penalty, which has been demonstrated to possess superior statistical properties compared to the standard least squares criterion with a bayesian information criterion. Ms.FPOP employs functional pruning techniques to accelerate the computation time from quadratic to on average log-linear relative to the length of the signal. Ms.FPOP is implemented in C++ and is interfaced with R for user-friendly access. I have conducted extensive testing of Ms.FPOP across a wide variety of simulated scenarios, and the results have been promising. Concurrently, I have applied multiple changepoint detection algorithms to genomic datasets, and observed that these methods improve the current state-of-the-art methods for detecting differentially expressed regions in RNA-Seq data and peaks in ChIP-Seq data.
- Mon travail peut être divisé en deux parties principales. Premièrement, j'ai conçu des outils dédiés à l'analyse différentielle du transcriptome. Deuxièmement, j'ai développé et appliqué des méthodes de détection de ruptures sur des ensembles de données génomiques. La diversité remarquable des isoformes d'ARN est principalement attribuable à des modifications post-transcriptionnelles, en plus des sites alternatifs d'initiation de la transcription. Ces modifications couvrent un ensemble d'événements qui peuvent se produire le long des molécules d'ARN, comprenant l'épissage, la maturation des extrémités, la polyadénylation alternative, l'édition, et la modification de base azotée. L'avènement de la transcriptomique à haut débit a catalysé une compréhension sans précédent de cette diversité. Cependant, l'analyse de ces données présente des défis statistiques, informatiques, techniques et biologiques considérables. J'ai activement contribué au développment de deux méthodes, DiffSegR et comaturationTrackeR, dédiées à l'analyse différentielle du transcriptome. Ces méthodes sont conçues pour atténuer les difficultés liées à l'étude des isoformes individuelles, souvent non annotées, en se concentrant plutôt sur des analyses événement par événement ou par paire d'événements. DiffSegR permet d'identifier les différences d'expression à l'échelle du transcriptome entre deux conditions biologiques à partir de données RNA-Seq. Grâce à l'intégration d'un algorithme de détection de ruptures multiples, il délimite avec précision les frontières des régions différentiellement exprimés, éliminant ainsi la nécessité d'annotations préalables. D'autre part, comaturationTrackeR, qui utilise des données RNA-seq à lectures longues, est conçu pour détecter les co-maturations à l'échelle du transcriptome, c'est-à-dire les dépendances entre les paires d'événements de maturation tels que l'édition et l'épissage. Les deux méthodes sont intégrées au cadre statistique DESeq2. Cette intégration permet de tester rigoureusement les différences d'expression et les co-maturations. De plus, ces méthodes ont été intuitivement encapsulées dans des packages R, ce qui garantit leur convivialité tant pour les biologistes que pour les bioinformaticiens. Ces approches ont été appliquées et ont prouvé leur efficacité sur le transcriptome du chloroplaste, de la mitochondrie et d'une bactérie. En outre, il est important de noter que de nombreux résultats ont été validés au niveau moléculaire. Une autre facette de ma thèse concerne le développement et l'application de méthodologies de détection de ruptures multiples sur des ensembles de données génomiques. Divers algorithmes de programmation dynamique visant à maximiser une vraisemblance pénalisée ont été proposés. Ces algorithmes et les contrastes qu'ils optimisent présentent des propriétés informatiques et statistiques remarquables, leur rapidité justifiant leur utilisation avec des données génomiques. Dans cette lignée, j'ai conçu et mis en œuvre un algorithme de programmation dynamique exact et efficace, Ms.FPOP. Cet algorithme optimise un critère des moindres carrés et incorpore une pénalité multi-échelle qui possède des propriétés statistiques supérieures au critère des moindres carrés pénalisé avec un critère d'information bayésien. Ms.FPOP utilise des techniques d'élagage fonctionnel pour accélérer le temps de calcul de quadratique à en moyenne log-linéaire en la longueur du signal. Ms.FPOP est implémenté en C++ et est interfacé avec R pour un accès convivial. J'ai effectué des simulations approfondies de Ms.FPOP avec une grande variété de scénarios, et les résultats sont prometteurs. Parallèlement, j'ai appliqué des méthodes de détection de ruptures multiples à des ensembles de données génomiques et j'ai observé que ces méthodes amélioraient l'état de l'art pour la détection des régions différentiellement exprimées dans les données RNA-Seq et des pics dans les données ChIP-Seq.
|