Merge branch 'main' of github.com:Polarolouis/anova-phylogenetique-projet-msv

2026-06-17 18:25:25 +02:00 · 2024-03-20 19:30:34 +01:00 · 2024-03-20 19:30:34 +01:00 · cba9631493
commit cba9631493
parent 08cfb4b420 8d5022c326
2 changed files with 23 additions and 12 deletions
--- a/rapport.Rnw
+++ b/rapport.Rnw
@ -121,7 +121,7 @@ L'EVE modèle est basé sur un Likelihood Ratio Test (LRT), une méthode statist
 Ce projet s'inscrit alors dans un questionnement plus large qui cherche à se demander si d'autres modèles classiques comme l'ANOVA, en les adaptant, pourrait produire des résultats similaires voire meilleurs que l'EVE modèle. 
 En effet, avoir un bon modèle qui, en particulier, donne peu de faux positifs est important. 
 On peut ensuite étudier les gènes potentiellement intéressants selon une problématique et des groupes d'espèces données. 
-
+\newline
 Au vu de la forme des données étudiées, le projet s'est tourné vers une méthode 
 d'ANOVA phylogénétique. 
 Celle-ci sera d'abord décrite ainsi que d'autres outils mathématiques utilisés pour affiner la fiabilité du test dans une première partie. Certains auront fait l'objet de calculs explicites en vue de leur implémentation. 
@ -161,11 +161,10 @@ avec ajustement du ratio erreur de mesure / erreur dûe à la phylogénie.

 \section{Méthodes}
 \label{sec:methode}
-Dans cette partie, on fera des rappels sur la méthode d'ANOVA puis on présentera l'ANOVA phylogénétique.  
-% Revue de la littérature sur l'ANOVA phylogénétique.
-Ici les rappels sur l'ANOVA, l'explication de l'ANOVA phylogénétique. La 
-démonstration des limites de l'ANOVA phylogénétique par des simulations
-Méthode: la partie maths anova, anova phylo, satterthwaite, 
+Dans cette partie nous présentons les modèles statistiques d'ANOVA et sa dérivée phylogénétique. 
+Après avoir posé le cadre mathématique à partir des recherches bibliographiques, nous développerons les outils mathématiques. 
+En particulier pour l'approximation nous avons calculé une forme explicite afin de l'implémenter. 
+Finalement, nous faisons une présentation succinte des méthodes REML et du modèle LRT. 

 \subsection{L'ANOVA}

@ -175,23 +174,34 @@ matricielle.
 Le principe de l'ANOVA est d'expliciter le lien entre une variable quantitative
 et une ou plusieurs variables qualitatives.

-La forme matricielle usuelle de l'ANOVA à 1 facteur est la suivante :
+La forme matricielle usuelle de l'ANOVA à 1 facteur et 2 groupes de taille respectivement $n_1$ et $n_2$ est la suivante :

 \begin{equation}
    Y = X\beta + u \text{,} \quad u \sim \mathcal{N}_n(0, \sigma^2I_n)
    \label{eq:ANOVA}
 \end{equation} 
 \[
-    \text{où} \quad \mathbf{Y} = \begin{bmatrix} Y_{11} \\\vdots\\ Y_1n_1 \\ 
+    \text{où} \quad \mathbf{Y} = \begin{bmatrix} Y_{11} \\\vdots\\ Y_{1n_1} \\ 
        Y_{21}\\ \vdots \\ Y_{2n_2} \end{bmatrix}\text{, } 
        \mathbf{X} = \begin{bmatrix} \mathbf{1} & \mathbf{1_{n_1}} \end{bmatrix}=\begin{bmatrix} 1 & 1 \\ \vdots & \vdots\\1 & 1 \\ 1 & 0\\ \vdots & \vdots\\1 & 0 \end{bmatrix}\text{, }  \mathbf{\beta} = \begin{bmatrix} \beta_1 \\ \beta_2  \end{bmatrix} \text{, } n=n_1+n_2
 \]
-
+On noter qu'ici  $\beta_1 = \mu_1$ la moyenne du groupe 1, et $\beta_2 = \mu_2 - \mu_1$ la différence des moyennes entre les groupes dans cette paramétrisation.
+\newline
+\newline
 Les paramètres $(\beta_1, \beta_2, \sigma^2)$ de l'ANOVA sont estimables, grâce par exemple à la méthode du maximum de vraisemblance et ont des formules bien connues.

-% ICI LES FORMULES: est ce que vraiment besoin des formules ? 
-
-% LIMITES de l'ANOVA classique sur les données phylo
+\subsubsection*{Test statistique}
+\label{subsubsec: test-ANOVA}
+Dans le  cadre d'ANOVA classique nous allons rappeler les hypothèses du test et la statistique de test. 
+On fait un test sur les moyennes de chaque groupe. Ce peut être la moyenne de la valeur d'un trait génétique ou bien de la valeur de la fréquance d'une séquence ou allèle. 
+On testera alors les hypothèses suivantes avec $l=\begin{bmatrix}0 \\1 \end{bmatrix}$:
+\[ H_0 : \beta_2 =0 \Leftrightarrow l^T\beta = \begin{bmatrix}0 \\0\end{bmatrix} \text{, les 2 groupes ont la même moyenne}\]
+\[ H_1 : \beta_2\neq 0 \text{, les 2 groupes ont des moyennes différentes}\]
+On a alors la statistique de test suivante : 
+\begin{equation}
+    \label{eq:F_ANOVA}
+    F_{ANOVA}=\frac{||\hat{Y} - \bar{Y}||^2(n-2)}{||Y - \hat{Y}||^2} \underset{\mathcal{H}_0}{\sim}\mathcal{F}\text{isher} (1, n-2)
+\end{equation}

 \subsection{L'ANOVA phylogénétique}
 \label{subsec:anova-phylogenetique}
@ -461,6 +471,7 @@ Discussion/COnclusion ? Interprétation des résultats sinon la mettre dans les
 f-cicd: CI/CD to build Latex PDF ...
 CI/CD to build Latex pdf and create a release in with GitHub Actions. The workflow triggers on push to the repository. Integrates with Overleaf.

+TODO: problèmes qu'on peut avoir eu : Satterthwaite estimation de la Hessienne pas stable, donc utilisation de l'analytique

 % Bibliographie
 \printbibliography
--- a/rapport.pdf
+++ b/rapport.pdf