Modifications

2026-06-17 10:15:25 +02:00 · 2024-03-20 23:47:17 +01:00 · 2024-03-20 23:47:17 +01:00 · 1e5f3d63de
commit 1e5f3d63de
parent 0bc29c9d9c
5 changed files with 99 additions and 34 deletions
--- a/Rnw/donnees-reelles.Rnw
+++ b/Rnw/donnees-reelles.Rnw
@ -1,11 +1,8 @@
 Ici nous appliquons les méthodes implémentées sur l'arbre de \cite{chenQuantitativeFrameworkCharacterizing2019}.
 % TODO Décrire les données en détails
 Les données compilées par \cite{chenQuantitativeFrameworkCharacterizing2019} 
 sont des données de RNA-seq, c'est-à-dire des données quantifiant l'expression 
 des gènes, par le biais du transcriptome, parmi les différentes espèces du bout 
-de l'arbre.
+de l'arbre. Nous réanalysons les données, en utilisant les méthodes développées
 et testées ci-dessus.
 Le but est alors d'identifier les gènes différentiellement exprimés, au sens de
 nombre d'ARN par gène différent entre les espèces. 
@ -193,8 +190,8 @@ p-values \emph{non ajustées}.
            theme(axis.text.x=element_blank(), axis.ticks.x = element_blank())
    }
    all_plots + patchwork::plot_layout(guides = "collect", 
-        axis_titles = "collect", tag_level = "new") + 
+        axis_titles = "collect", tag_level = "new") 
-        plot_annotation(title = "Selected genes by tested methods")
+        # + plot_annotation(title = "Selected genes by tested methods")
    @
    \caption{\emph{p-values} ordonnées pour les différents tests}
    \label{fig:pval-methods}
@ -286,9 +283,6 @@ Dans l'article \cite{rohlfsPhylogeneticANOVAExpression2015}, les auteurs
 introduisent une méthode de détection des gènes différentiellement exprimés.
 Cette méthode est à l'heure actuelle très utilisée pour cette problématique.
 Elle détecte ici \Sexpr{sum(evemodel_dataframe[evemodel_dataframe$test_method == "EVEAdj",]$selected)}
 gènes différentiellement exprimés.
 Son principe de fonctionnement suppose que les traits évoluent selon un 
 processus d'Ornstein-Uhlenbeck et le test réalisé est un \emph{Likelihood 
 Ratio test}. 
@ -351,23 +345,34 @@ pvalueseve_dataframe_wide <- pvalueseve_dataframe  %>%
    \label{fig:venn-all-methods-eve}
 \end{figure}
-\paragraph{Analyse des résultats} Nous pouvons voir que la méthode la plus 
+\paragraph{Analyse des résultats} La barre indiquant 3681 gènes comptabilise les
 gènes qui n'ont été sélectionnés par aucune méthode. Le nombre de gènes 
 sélectionnés par méthode est présenté dans le tableau~\ref{tab:data-genes-selectionnes}. 
 La méthode EVE détecte ici
 \Sexpr{sum(evemodel_dataframe[evemodel_dataframe$test_method == "EVEAdj",]$selected)}
 gènes différentiellement exprimés. Étant la méthode état de l'art nous pouvons
 nous en servir comme référence. 
 Nous pouvons voir que la méthode la plus 
 parcimonieuse est celle utilisant le LRT, qui sélectionne
 $\Sexpr{sum(pvalues_adj_dataframe[pvalues_adj_dataframe$test_method == "LRT Ajusté",]$selected)}$
 gènes qui sont eux-mêmes \textbf{sélectionnés par toutes les méthodes}.
-Cette unanimité sur ces gènes nous invite à penser qu'ils sont en effet 
+Cette unanimité sur ces gènes nous invite à penser qu'ils sont en effet bel et 
-différentiellement exprimés.
+bien différentiellement exprimés.
 La seconde méthode sélectionnant le moins de gènes est l'ANOVA Phylogénétique 
 avec REML. Elle sélectionne $\Sexpr{sum(pvalues_adj_dataframe[pvalues_adj_dataframe$test_method == "ANOVA Phylo REML Ajustée",]$selected)}$
-gènes. Ces sélections se décompose en plusieurs sous ensembles
+gènes. Ces sélections se décompose en plusieurs sous ensembles. Des méthodes 
 que nous avons utilisées c'est celle-ci qui semble s'en sortir le mieux, elle
 donne des résultats semblables à EVE.
 TODO Ici nous avons supposé un mouvement brownien comme processus sous-jacent de
 l'arbre mais ce n'est peut-être pas le meilleur modèle et un OU pourrait être 
 intéressant. Intéressant pour l'ouverture.
-% \begin{table}
+\begin{table}[H]
-%     <<'table-anova-phylo-reml'>>=
+    \centering
-%     kable()
+    <<'table-anova-phylo-reml'>>=
-%     @
+    kable(colSums(pvalueseve_dataframe_wide[,-1]), col.names = c("Nombre de gènes sélectionnés"), booktabs = TRUE)
-% \end{table}
+    @
    \caption{Nombre de gènes sélectionnés par méthode}
    \label{tab:data-genes-selectionnes}
 \end{table}
--- a/img/OrnsteinUhlenbeck3.png
+++ b/img/OrnsteinUhlenbeck3.png
--- a/img/chenFig4.png
+++ b/img/chenFig4.png
--- a/rapport.Rnw
+++ b/rapport.Rnw
@ -10,7 +10,8 @@
 \usepackage{graphicx}
 \graphicspath{{img/}}
 \usepackage{float}
-\usepackage{subcaption} %  for subfigures environments 
+\usepackage{subcaption} %  for subfigures environments
 \usepackage{wrapfig} 
 % Booktabs
 \usepackage{booktabs}
@ -82,24 +83,54 @@ source(here("R","utils.R"))
 \section{Introduction}
 \label{chap:intro}
 % Introduction au projet, contexte, objectifs.
-Avec l'avènement des données massives de génomiques, transcriptomiques, 
+Avec l'avènement des données massives de génomique, transcriptomique et 
-protéomiques, il y a besoin de techniques statistiques robustes et passant à 
+protéomique, il est impératif de disposer de techniques statistiques robustes 
-l'échelle permettant de mener à bien les analyses.
+et adaptées à l'échelle pour mener à bien les analyses. Ces données génétiques 
 fournissent généralement deux types d'informations : les mesures elles-mêmes et 
 les arbres phylogénétiques. Dans certains cas, ces arbres présentent des 
 ramifications intra-espèces.
-Ces données de génétiques proposent bien souvent deux informations, les mesures
+Nous mesurons l'expression des gènes orthologues chez plusieurs espèces, 
-et l'arbre phylogénétique. Et pour certaines, l'arbre est ramifié au bout en
+souvent considérée comme une expression constitutive. Par exemple, la base de 
-proposant des répétitions intraspécifique.
+données BGee (\url{https://www.bgee.org}) compile les niveaux d'expression de 
 gènes chez diverses espèces. En utilisant ces données inter-espèces, notre 
 objectif est de détecter les gènes orthologues présentant des variations 
 d'expression entre différents groupes d'espèces. En notant $Y$ le niveau 
 d'expression d'un gène chez plusieurs espèces, nous modélisons ce niveau 
 d'expression par une variable aléatoire ayant une moyenne $\mu_1$ dans un groupe
 d'espèces (par exemple, les primates) et $\mu_2$ dans un autre groupe d'espèces 
 (par exemple, toutes les espèces non primates). Nous testons alors l'hypothèse 
 $H_0$ : $\mu_1 = \mu_2$ contre $H_1$ : $\mu_1 \neq \mu_2$. 
 Par exemple, dans l'article 
 \cite{chenQuantitativeFrameworkCharacterizing2019}, les auteurs identifient
 un ensemble de gènes exprimés dans le foie qui sont sous-exprimés chez les 
 primates par rapport aux autres espèces, sous-exprimés chez les rongeurs par 
 rapport aux autres espèces ou sous-exprimés dans les tissus des testicules chez
 les primates par rapport aux autres espèces (voir la figure~\ref{fig:chen-fig4}
 extraite de l'article de
 \cite{chenQuantitativeFrameworkCharacterizing2019} où les individus sont 
 représentés en colonnes et les gènes en lignes, la couleur reflétant le niveau 
 d'expression du gène).
 \begin{figure}[H]
    \centering
    \includegraphics[width=1\textwidth]{chenFig4.png}
    \caption{Figure extraite de l'article de \cite{chenQuantitativeFrameworkCharacterizing2019}}
    \label{fig:chen-fig4}
 \end{figure}
 Ces données illustrent parfaitement la nécessité de techniques analytiques
 robustes face à des ensembles de données complexes, combinant à la fois des
 aspects écologiques et transcriptomiques.
 % Format des données : arbres phylogénétiques, données génétiques 
 % Arbres avec des petites branche: plusieurs individus par espèces avec chacun leurs données 
 % --> problème biologique 
 % Deux sujets différents écologie et transcriptomique mais une même méthode.
-
+La figure~\ref{fig:arbre-chen2019} présente l'arbre phylogénétique :
-C'est par exemple le cas pour les données de 
+\begin{figure}[H]
 \cite{chenQuantitativeFrameworkCharacterizing2019} dont 
 la figure~\ref{fig:arbre-chen2019} présente l'arbre phylogénétique :
 \begin{figure}[!h]
    \centering
 <<'plot-arbre-chen'>>=
    tree <- read.tree(here("R","chen2019.tree"))
@ -485,6 +516,35 @@ CI/CD to build Latex pdf and create a release in with GitHub Actions. The workfl
 TODO: problèmes qu'on peut avoir eu : Satterthwaite estimation de la Hessienne pas stable, donc utilisation de l'analytique
 \subsection{Ouvertures}
 De nombreux points restent à explorer, nous en proposons quelques-uns 
 ci-dessous.\newline
 Dans tout le rapport nous avons supposé que le processus de dérive était un
 mouvement brownien mais nous aurions pu utiliser un autre processus comme le
 processus d'Ornstein-Uhlenbeck. Ce dernier permet de modéliser des traits 
 tendant vers une valeur, ce qui peut correspondre par exemple à un optimum 
 écologique comme sur la figure~\ref{fig:OrnsteinUhlenbeck}.\newline
 \begin{figure}[H]
    \centering
    \includegraphics[width=0.5\textwidth]{OrnsteinUhlenbeck3.png}
    \caption{Exemple de processus d'Ornstein-Uhlenbeck (tiré de Wikipédia)}
    \label{fig:OrnsteinUhlenbeck}
 \end{figure}
 Un autre point que l'on pourrait considérer, c'est que le LRT est un test
 asymptotique, contrairement à l'ANOVA quequi est un test exact (sous les bonnes
 hypothèses). Cela peut expliquer pourquoi leil est un peu moins bon sur 
 les simulations.\newline
 Par contre, il dépend moins des hypothèses (le ratio des vraisemblance converge
 sous des hypothèses faible). Cela peut peut-être expliquer pourquoi il est plus
 robuste dans le cas des données rééelles, qui n'ont pas de raison de suivre le 
 bon modèle.
 \newpage
 % Bibliographie
 \printbibliography
 \nocite{*}
--- a/rapport.pdf
+++ b/rapport.pdf