Merge branch 'main' of github.com:Polarolouis/anova-phylogenetique-projet-msv

This commit is contained in:
Louis Lacoste 2024-03-20 19:30:34 +01:00
commit cba9631493
2 changed files with 23 additions and 12 deletions

View file

@ -121,7 +121,7 @@ L'EVE modèle est basé sur un Likelihood Ratio Test (LRT), une méthode statist
Ce projet s'inscrit alors dans un questionnement plus large qui cherche à se demander si d'autres modèles classiques comme l'ANOVA, en les adaptant, pourrait produire des résultats similaires voire meilleurs que l'EVE modèle. Ce projet s'inscrit alors dans un questionnement plus large qui cherche à se demander si d'autres modèles classiques comme l'ANOVA, en les adaptant, pourrait produire des résultats similaires voire meilleurs que l'EVE modèle.
En effet, avoir un bon modèle qui, en particulier, donne peu de faux positifs est important. En effet, avoir un bon modèle qui, en particulier, donne peu de faux positifs est important.
On peut ensuite étudier les gènes potentiellement intéressants selon une problématique et des groupes d'espèces données. On peut ensuite étudier les gènes potentiellement intéressants selon une problématique et des groupes d'espèces données.
\newline
Au vu de la forme des données étudiées, le projet s'est tourné vers une méthode Au vu de la forme des données étudiées, le projet s'est tourné vers une méthode
d'ANOVA phylogénétique. d'ANOVA phylogénétique.
Celle-ci sera d'abord décrite ainsi que d'autres outils mathématiques utilisés pour affiner la fiabilité du test dans une première partie. Certains auront fait l'objet de calculs explicites en vue de leur implémentation. Celle-ci sera d'abord décrite ainsi que d'autres outils mathématiques utilisés pour affiner la fiabilité du test dans une première partie. Certains auront fait l'objet de calculs explicites en vue de leur implémentation.
@ -161,11 +161,10 @@ avec ajustement du ratio erreur de mesure / erreur dûe à la phylogénie.
\section{Méthodes} \section{Méthodes}
\label{sec:methode} \label{sec:methode}
Dans cette partie, on fera des rappels sur la méthode d'ANOVA puis on présentera l'ANOVA phylogénétique. Dans cette partie nous présentons les modèles statistiques d'ANOVA et sa dérivée phylogénétique.
% Revue de la littérature sur l'ANOVA phylogénétique. Après avoir posé le cadre mathématique à partir des recherches bibliographiques, nous développerons les outils mathématiques.
Ici les rappels sur l'ANOVA, l'explication de l'ANOVA phylogénétique. La En particulier pour l'approximation nous avons calculé une forme explicite afin de l'implémenter.
démonstration des limites de l'ANOVA phylogénétique par des simulations Finalement, nous faisons une présentation succinte des méthodes REML et du modèle LRT.
Méthode: la partie maths anova, anova phylo, satterthwaite,
\subsection{L'ANOVA} \subsection{L'ANOVA}
@ -175,23 +174,34 @@ matricielle.
Le principe de l'ANOVA est d'expliciter le lien entre une variable quantitative Le principe de l'ANOVA est d'expliciter le lien entre une variable quantitative
et une ou plusieurs variables qualitatives. et une ou plusieurs variables qualitatives.
La forme matricielle usuelle de l'ANOVA à 1 facteur est la suivante : La forme matricielle usuelle de l'ANOVA à 1 facteur et 2 groupes de taille respectivement $n_1$ et $n_2$ est la suivante :
\begin{equation} \begin{equation}
Y = X\beta + u \text{,} \quad u \sim \mathcal{N}_n(0, \sigma^2I_n) Y = X\beta + u \text{,} \quad u \sim \mathcal{N}_n(0, \sigma^2I_n)
\label{eq:ANOVA} \label{eq:ANOVA}
\end{equation} \end{equation}
\[ \[
\text{où} \quad \mathbf{Y} = \begin{bmatrix} Y_{11} \\\vdots\\ Y_1n_1 \\ \text{où} \quad \mathbf{Y} = \begin{bmatrix} Y_{11} \\\vdots\\ Y_{1n_1} \\
Y_{21}\\ \vdots \\ Y_{2n_2} \end{bmatrix}\text{, } Y_{21}\\ \vdots \\ Y_{2n_2} \end{bmatrix}\text{, }
\mathbf{X} = \begin{bmatrix} \mathbf{1} & \mathbf{1_{n_1}} \end{bmatrix}=\begin{bmatrix} 1 & 1 \\ \vdots & \vdots\\1 & 1 \\ 1 & 0\\ \vdots & \vdots\\1 & 0 \end{bmatrix}\text{, } \mathbf{\beta} = \begin{bmatrix} \beta_1 \\ \beta_2 \end{bmatrix} \text{, } n=n_1+n_2 \mathbf{X} = \begin{bmatrix} \mathbf{1} & \mathbf{1_{n_1}} \end{bmatrix}=\begin{bmatrix} 1 & 1 \\ \vdots & \vdots\\1 & 1 \\ 1 & 0\\ \vdots & \vdots\\1 & 0 \end{bmatrix}\text{, } \mathbf{\beta} = \begin{bmatrix} \beta_1 \\ \beta_2 \end{bmatrix} \text{, } n=n_1+n_2
\] \]
On noter qu'ici $\beta_1 = \mu_1$ la moyenne du groupe 1, et $\beta_2 = \mu_2 - \mu_1$ la différence des moyennes entre les groupes dans cette paramétrisation.
\newline
\newline
Les paramètres $(\beta_1, \beta_2, \sigma^2)$ de l'ANOVA sont estimables, grâce par exemple à la méthode du maximum de vraisemblance et ont des formules bien connues. Les paramètres $(\beta_1, \beta_2, \sigma^2)$ de l'ANOVA sont estimables, grâce par exemple à la méthode du maximum de vraisemblance et ont des formules bien connues.
% ICI LES FORMULES: est ce que vraiment besoin des formules ? \subsubsection*{Test statistique}
\label{subsubsec: test-ANOVA}
% LIMITES de l'ANOVA classique sur les données phylo Dans le cadre d'ANOVA classique nous allons rappeler les hypothèses du test et la statistique de test.
On fait un test sur les moyennes de chaque groupe. Ce peut être la moyenne de la valeur d'un trait génétique ou bien de la valeur de la fréquance d'une séquence ou allèle.
On testera alors les hypothèses suivantes avec $l=\begin{bmatrix}0 \\1 \end{bmatrix}$:
\[ H_0 : \beta_2 =0 \Leftrightarrow l^T\beta = \begin{bmatrix}0 \\0\end{bmatrix} \text{, les 2 groupes ont la même moyenne}\]
\[ H_1 : \beta_2\neq 0 \text{, les 2 groupes ont des moyennes différentes}\]
On a alors la statistique de test suivante :
\begin{equation}
\label{eq:F_ANOVA}
F_{ANOVA}=\frac{||\hat{Y} - \bar{Y}||^2(n-2)}{||Y - \hat{Y}||^2} \underset{\mathcal{H}_0}{\sim}\mathcal{F}\text{isher} (1, n-2)
\end{equation}
\subsection{L'ANOVA phylogénétique} \subsection{L'ANOVA phylogénétique}
\label{subsec:anova-phylogenetique} \label{subsec:anova-phylogenetique}
@ -461,6 +471,7 @@ Discussion/COnclusion ? Interprétation des résultats sinon la mettre dans les
f-cicd: CI/CD to build Latex PDF ... f-cicd: CI/CD to build Latex PDF ...
CI/CD to build Latex pdf and create a release in with GitHub Actions. The workflow triggers on push to the repository. Integrates with Overleaf. CI/CD to build Latex pdf and create a release in with GitHub Actions. The workflow triggers on push to the repository. Integrates with Overleaf.
TODO: problèmes qu'on peut avoir eu : Satterthwaite estimation de la Hessienne pas stable, donc utilisation de l'analytique
% Bibliographie % Bibliographie
\printbibliography \printbibliography

Binary file not shown.