mirror of
https://github.com/Polarolouis/anova-phylogenetique-projet-msv.git
synced 2026-06-17 10:15:25 +02:00
Modifications
This commit is contained in:
parent
0bc29c9d9c
commit
1e5f3d63de
5 changed files with 99 additions and 34 deletions
|
|
@ -1,11 +1,8 @@
|
||||||
Ici nous appliquons les méthodes implémentées sur l'arbre de \cite{chenQuantitativeFrameworkCharacterizing2019}.
|
|
||||||
|
|
||||||
% TODO Décrire les données en détails
|
|
||||||
|
|
||||||
Les données compilées par \cite{chenQuantitativeFrameworkCharacterizing2019}
|
Les données compilées par \cite{chenQuantitativeFrameworkCharacterizing2019}
|
||||||
sont des données de RNA-seq, c'est-à-dire des données quantifiant l'expression
|
sont des données de RNA-seq, c'est-à-dire des données quantifiant l'expression
|
||||||
des gènes, par le biais du transcriptome, parmi les différentes espèces du bout
|
des gènes, par le biais du transcriptome, parmi les différentes espèces du bout
|
||||||
de l'arbre.
|
de l'arbre. Nous réanalysons les données, en utilisant les méthodes développées
|
||||||
|
et testées ci-dessus.
|
||||||
|
|
||||||
Le but est alors d'identifier les gènes différentiellement exprimés, au sens de
|
Le but est alors d'identifier les gènes différentiellement exprimés, au sens de
|
||||||
nombre d'ARN par gène différent entre les espèces.
|
nombre d'ARN par gène différent entre les espèces.
|
||||||
|
|
@ -193,8 +190,8 @@ p-values \emph{non ajustées}.
|
||||||
theme(axis.text.x=element_blank(), axis.ticks.x = element_blank())
|
theme(axis.text.x=element_blank(), axis.ticks.x = element_blank())
|
||||||
}
|
}
|
||||||
all_plots + patchwork::plot_layout(guides = "collect",
|
all_plots + patchwork::plot_layout(guides = "collect",
|
||||||
axis_titles = "collect", tag_level = "new") +
|
axis_titles = "collect", tag_level = "new")
|
||||||
plot_annotation(title = "Selected genes by tested methods")
|
# + plot_annotation(title = "Selected genes by tested methods")
|
||||||
@
|
@
|
||||||
\caption{\emph{p-values} ordonnées pour les différents tests}
|
\caption{\emph{p-values} ordonnées pour les différents tests}
|
||||||
\label{fig:pval-methods}
|
\label{fig:pval-methods}
|
||||||
|
|
@ -286,9 +283,6 @@ Dans l'article \cite{rohlfsPhylogeneticANOVAExpression2015}, les auteurs
|
||||||
introduisent une méthode de détection des gènes différentiellement exprimés.
|
introduisent une méthode de détection des gènes différentiellement exprimés.
|
||||||
Cette méthode est à l'heure actuelle très utilisée pour cette problématique.
|
Cette méthode est à l'heure actuelle très utilisée pour cette problématique.
|
||||||
|
|
||||||
Elle détecte ici \Sexpr{sum(evemodel_dataframe[evemodel_dataframe$test_method == "EVEAdj",]$selected)}
|
|
||||||
gènes différentiellement exprimés.
|
|
||||||
|
|
||||||
Son principe de fonctionnement suppose que les traits évoluent selon un
|
Son principe de fonctionnement suppose que les traits évoluent selon un
|
||||||
processus d'Ornstein-Uhlenbeck et le test réalisé est un \emph{Likelihood
|
processus d'Ornstein-Uhlenbeck et le test réalisé est un \emph{Likelihood
|
||||||
Ratio test}.
|
Ratio test}.
|
||||||
|
|
@ -351,23 +345,34 @@ pvalueseve_dataframe_wide <- pvalueseve_dataframe %>%
|
||||||
\label{fig:venn-all-methods-eve}
|
\label{fig:venn-all-methods-eve}
|
||||||
\end{figure}
|
\end{figure}
|
||||||
|
|
||||||
\paragraph{Analyse des résultats} Nous pouvons voir que la méthode la plus
|
\paragraph{Analyse des résultats} La barre indiquant 3681 gènes comptabilise les
|
||||||
|
gènes qui n'ont été sélectionnés par aucune méthode. Le nombre de gènes
|
||||||
|
sélectionnés par méthode est présenté dans le tableau~\ref{tab:data-genes-selectionnes}.
|
||||||
|
|
||||||
|
La méthode EVE détecte ici
|
||||||
|
\Sexpr{sum(evemodel_dataframe[evemodel_dataframe$test_method == "EVEAdj",]$selected)}
|
||||||
|
gènes différentiellement exprimés. Étant la méthode état de l'art nous pouvons
|
||||||
|
nous en servir comme référence.
|
||||||
|
|
||||||
|
Nous pouvons voir que la méthode la plus
|
||||||
parcimonieuse est celle utilisant le LRT, qui sélectionne
|
parcimonieuse est celle utilisant le LRT, qui sélectionne
|
||||||
$\Sexpr{sum(pvalues_adj_dataframe[pvalues_adj_dataframe$test_method == "LRT Ajusté",]$selected)}$
|
$\Sexpr{sum(pvalues_adj_dataframe[pvalues_adj_dataframe$test_method == "LRT Ajusté",]$selected)}$
|
||||||
gènes qui sont eux-mêmes \textbf{sélectionnés par toutes les méthodes}.
|
gènes qui sont eux-mêmes \textbf{sélectionnés par toutes les méthodes}.
|
||||||
Cette unanimité sur ces gènes nous invite à penser qu'ils sont en effet
|
Cette unanimité sur ces gènes nous invite à penser qu'ils sont en effet bel et
|
||||||
différentiellement exprimés.
|
bien différentiellement exprimés.
|
||||||
|
|
||||||
La seconde méthode sélectionnant le moins de gènes est l'ANOVA Phylogénétique
|
La seconde méthode sélectionnant le moins de gènes est l'ANOVA Phylogénétique
|
||||||
avec REML. Elle sélectionne $\Sexpr{sum(pvalues_adj_dataframe[pvalues_adj_dataframe$test_method == "ANOVA Phylo REML Ajustée",]$selected)}$
|
avec REML. Elle sélectionne $\Sexpr{sum(pvalues_adj_dataframe[pvalues_adj_dataframe$test_method == "ANOVA Phylo REML Ajustée",]$selected)}$
|
||||||
gènes. Ces sélections se décompose en plusieurs sous ensembles
|
gènes. Ces sélections se décompose en plusieurs sous ensembles. Des méthodes
|
||||||
|
que nous avons utilisées c'est celle-ci qui semble s'en sortir le mieux, elle
|
||||||
|
donne des résultats semblables à EVE.
|
||||||
|
|
||||||
TODO Ici nous avons supposé un mouvement brownien comme processus sous-jacent de
|
|
||||||
l'arbre mais ce n'est peut-être pas le meilleur modèle et un OU pourrait être
|
|
||||||
intéressant. Intéressant pour l'ouverture.
|
|
||||||
|
|
||||||
% \begin{table}
|
\begin{table}[H]
|
||||||
% <<'table-anova-phylo-reml'>>=
|
\centering
|
||||||
% kable()
|
<<'table-anova-phylo-reml'>>=
|
||||||
% @
|
kable(colSums(pvalueseve_dataframe_wide[,-1]), col.names = c("Nombre de gènes sélectionnés"), booktabs = TRUE)
|
||||||
% \end{table}
|
@
|
||||||
|
\caption{Nombre de gènes sélectionnés par méthode}
|
||||||
|
\label{tab:data-genes-selectionnes}
|
||||||
|
\end{table}
|
||||||
|
|
|
||||||
BIN
img/OrnsteinUhlenbeck3.png
Normal file
BIN
img/OrnsteinUhlenbeck3.png
Normal file
Binary file not shown.
|
After Width: | Height: | Size: 42 KiB |
BIN
img/chenFig4.png
Normal file
BIN
img/chenFig4.png
Normal file
Binary file not shown.
|
After Width: | Height: | Size: 251 KiB |
84
rapport.Rnw
84
rapport.Rnw
|
|
@ -10,7 +10,8 @@
|
||||||
\usepackage{graphicx}
|
\usepackage{graphicx}
|
||||||
\graphicspath{{img/}}
|
\graphicspath{{img/}}
|
||||||
\usepackage{float}
|
\usepackage{float}
|
||||||
\usepackage{subcaption} % for subfigures environments
|
\usepackage{subcaption} % for subfigures environments
|
||||||
|
\usepackage{wrapfig}
|
||||||
|
|
||||||
% Booktabs
|
% Booktabs
|
||||||
\usepackage{booktabs}
|
\usepackage{booktabs}
|
||||||
|
|
@ -82,24 +83,54 @@ source(here("R","utils.R"))
|
||||||
\section{Introduction}
|
\section{Introduction}
|
||||||
\label{chap:intro}
|
\label{chap:intro}
|
||||||
% Introduction au projet, contexte, objectifs.
|
% Introduction au projet, contexte, objectifs.
|
||||||
Avec l'avènement des données massives de génomiques, transcriptomiques,
|
Avec l'avènement des données massives de génomique, transcriptomique et
|
||||||
protéomiques, il y a besoin de techniques statistiques robustes et passant à
|
protéomique, il est impératif de disposer de techniques statistiques robustes
|
||||||
l'échelle permettant de mener à bien les analyses.
|
et adaptées à l'échelle pour mener à bien les analyses. Ces données génétiques
|
||||||
|
fournissent généralement deux types d'informations : les mesures elles-mêmes et
|
||||||
|
les arbres phylogénétiques. Dans certains cas, ces arbres présentent des
|
||||||
|
ramifications intra-espèces.
|
||||||
|
|
||||||
Ces données de génétiques proposent bien souvent deux informations, les mesures
|
Nous mesurons l'expression des gènes orthologues chez plusieurs espèces,
|
||||||
et l'arbre phylogénétique. Et pour certaines, l'arbre est ramifié au bout en
|
souvent considérée comme une expression constitutive. Par exemple, la base de
|
||||||
proposant des répétitions intraspécifique.
|
données BGee (\url{https://www.bgee.org}) compile les niveaux d'expression de
|
||||||
|
gènes chez diverses espèces. En utilisant ces données inter-espèces, notre
|
||||||
|
objectif est de détecter les gènes orthologues présentant des variations
|
||||||
|
d'expression entre différents groupes d'espèces. En notant $Y$ le niveau
|
||||||
|
d'expression d'un gène chez plusieurs espèces, nous modélisons ce niveau
|
||||||
|
d'expression par une variable aléatoire ayant une moyenne $\mu_1$ dans un groupe
|
||||||
|
d'espèces (par exemple, les primates) et $\mu_2$ dans un autre groupe d'espèces
|
||||||
|
(par exemple, toutes les espèces non primates). Nous testons alors l'hypothèse
|
||||||
|
$H_0$ : $\mu_1 = \mu_2$ contre $H_1$ : $\mu_1 \neq \mu_2$.
|
||||||
|
|
||||||
|
Par exemple, dans l'article
|
||||||
|
\cite{chenQuantitativeFrameworkCharacterizing2019}, les auteurs identifient
|
||||||
|
un ensemble de gènes exprimés dans le foie qui sont sous-exprimés chez les
|
||||||
|
primates par rapport aux autres espèces, sous-exprimés chez les rongeurs par
|
||||||
|
rapport aux autres espèces ou sous-exprimés dans les tissus des testicules chez
|
||||||
|
les primates par rapport aux autres espèces (voir la figure~\ref{fig:chen-fig4}
|
||||||
|
extraite de l'article de
|
||||||
|
\cite{chenQuantitativeFrameworkCharacterizing2019} où les individus sont
|
||||||
|
représentés en colonnes et les gènes en lignes, la couleur reflétant le niveau
|
||||||
|
d'expression du gène).
|
||||||
|
|
||||||
|
\begin{figure}[H]
|
||||||
|
\centering
|
||||||
|
\includegraphics[width=1\textwidth]{chenFig4.png}
|
||||||
|
\caption{Figure extraite de l'article de \cite{chenQuantitativeFrameworkCharacterizing2019}}
|
||||||
|
\label{fig:chen-fig4}
|
||||||
|
\end{figure}
|
||||||
|
|
||||||
|
Ces données illustrent parfaitement la nécessité de techniques analytiques
|
||||||
|
robustes face à des ensembles de données complexes, combinant à la fois des
|
||||||
|
aspects écologiques et transcriptomiques.
|
||||||
|
|
||||||
% Format des données : arbres phylogénétiques, données génétiques
|
% Format des données : arbres phylogénétiques, données génétiques
|
||||||
% Arbres avec des petites branche: plusieurs individus par espèces avec chacun leurs données
|
% Arbres avec des petites branche: plusieurs individus par espèces avec chacun leurs données
|
||||||
% --> problème biologique
|
% --> problème biologique
|
||||||
|
|
||||||
% Deux sujets différents écologie et transcriptomique mais une même méthode.
|
% Deux sujets différents écologie et transcriptomique mais une même méthode.
|
||||||
|
La figure~\ref{fig:arbre-chen2019} présente l'arbre phylogénétique :
|
||||||
C'est par exemple le cas pour les données de
|
\begin{figure}[H]
|
||||||
\cite{chenQuantitativeFrameworkCharacterizing2019} dont
|
|
||||||
la figure~\ref{fig:arbre-chen2019} présente l'arbre phylogénétique :
|
|
||||||
\begin{figure}[!h]
|
|
||||||
\centering
|
\centering
|
||||||
<<'plot-arbre-chen'>>=
|
<<'plot-arbre-chen'>>=
|
||||||
tree <- read.tree(here("R","chen2019.tree"))
|
tree <- read.tree(here("R","chen2019.tree"))
|
||||||
|
|
@ -485,6 +516,35 @@ CI/CD to build Latex pdf and create a release in with GitHub Actions. The workfl
|
||||||
|
|
||||||
TODO: problèmes qu'on peut avoir eu : Satterthwaite estimation de la Hessienne pas stable, donc utilisation de l'analytique
|
TODO: problèmes qu'on peut avoir eu : Satterthwaite estimation de la Hessienne pas stable, donc utilisation de l'analytique
|
||||||
|
|
||||||
|
\subsection{Ouvertures}
|
||||||
|
|
||||||
|
De nombreux points restent à explorer, nous en proposons quelques-uns
|
||||||
|
ci-dessous.\newline
|
||||||
|
|
||||||
|
Dans tout le rapport nous avons supposé que le processus de dérive était un
|
||||||
|
mouvement brownien mais nous aurions pu utiliser un autre processus comme le
|
||||||
|
processus d'Ornstein-Uhlenbeck. Ce dernier permet de modéliser des traits
|
||||||
|
tendant vers une valeur, ce qui peut correspondre par exemple à un optimum
|
||||||
|
écologique comme sur la figure~\ref{fig:OrnsteinUhlenbeck}.\newline
|
||||||
|
|
||||||
|
\begin{figure}[H]
|
||||||
|
\centering
|
||||||
|
\includegraphics[width=0.5\textwidth]{OrnsteinUhlenbeck3.png}
|
||||||
|
\caption{Exemple de processus d'Ornstein-Uhlenbeck (tiré de Wikipédia)}
|
||||||
|
\label{fig:OrnsteinUhlenbeck}
|
||||||
|
\end{figure}
|
||||||
|
|
||||||
|
Un autre point que l'on pourrait considérer, c'est que le LRT est un test
|
||||||
|
asymptotique, contrairement à l'ANOVA quequi est un test exact (sous les bonnes
|
||||||
|
hypothèses). Cela peut expliquer pourquoi leil est un peu moins bon sur
|
||||||
|
les simulations.\newline
|
||||||
|
Par contre, il dépend moins des hypothèses (le ratio des vraisemblance converge
|
||||||
|
sous des hypothèses faible). Cela peut peut-être expliquer pourquoi il est plus
|
||||||
|
robuste dans le cas des données rééelles, qui n'ont pas de raison de suivre le
|
||||||
|
bon modèle.
|
||||||
|
|
||||||
|
\newpage
|
||||||
|
|
||||||
% Bibliographie
|
% Bibliographie
|
||||||
\printbibliography
|
\printbibliography
|
||||||
\nocite{*}
|
\nocite{*}
|
||||||
|
|
|
||||||
BIN
rapport.pdf
BIN
rapport.pdf
Binary file not shown.
Loading…
Add table
Reference in a new issue