From 6bcce4bf6c662b53287faa9db20ad0648aafe703 Mon Sep 17 00:00:00 2001
From: Polarolouis <louis.lacoste@hotmail.fr>
Date: Tue, 5 Mar 2024 15:51:53 +0100
Subject: [PATCH] Removed ignored rapport.tex

---
 rapport.tex | 323 ----------------------------------------------------
 1 file changed, 323 deletions(-)
 delete mode 100644 rapport.tex

diff --git a/rapport.tex b/rapport.tex
deleted file mode 100644
index ec9f7d3..0000000
--- a/rapport.tex
+++ /dev/null
@@ -1,323 +0,0 @@
-\documentclass[a4paper, 12pt]{article}\usepackage[]{graphicx}\usepackage[]{xcolor}
-% maxwidth is the original width if it is less than linewidth
-% otherwise use linewidth (to make sure the graphics do not exceed the margin)
-\makeatletter
-\def\maxwidth{ %
-  \ifdim\Gin@nat@width>\linewidth
-    \linewidth
-  \else
-    \Gin@nat@width
-  \fi
-}
-\makeatother
-
-\definecolor{fgcolor}{rgb}{0.345, 0.345, 0.345}
-\newcommand{\hlnum}[1]{\textcolor[rgb]{0.686,0.059,0.569}{#1}}%
-\newcommand{\hlstr}[1]{\textcolor[rgb]{0.192,0.494,0.8}{#1}}%
-\newcommand{\hlcom}[1]{\textcolor[rgb]{0.678,0.584,0.686}{\textit{#1}}}%
-\newcommand{\hlopt}[1]{\textcolor[rgb]{0,0,0}{#1}}%
-\newcommand{\hlstd}[1]{\textcolor[rgb]{0.345,0.345,0.345}{#1}}%
-\newcommand{\hlkwa}[1]{\textcolor[rgb]{0.161,0.373,0.58}{\textbf{#1}}}%
-\newcommand{\hlkwb}[1]{\textcolor[rgb]{0.69,0.353,0.396}{#1}}%
-\newcommand{\hlkwc}[1]{\textcolor[rgb]{0.333,0.667,0.333}{#1}}%
-\newcommand{\hlkwd}[1]{\textcolor[rgb]{0.737,0.353,0.396}{\textbf{#1}}}%
-\let\hlipl\hlkwb
-
-\usepackage{framed}
-\makeatletter
-\newenvironment{kframe}{%
- \def\at@end@of@kframe{}%
- \ifinner\ifhmode%
-  \def\at@end@of@kframe{\end{minipage}}%
-  \begin{minipage}{\columnwidth}%
- \fi\fi%
- \def\FrameCommand##1{\hskip\@totalleftmargin \hskip-\fboxsep
- \colorbox{shadecolor}{##1}\hskip-\fboxsep
-     % There is no \\@totalrightmargin, so:
-     \hskip-\linewidth \hskip-\@totalleftmargin \hskip\columnwidth}%
- \MakeFramed {\advance\hsize-\width
-   \@totalleftmargin\z@ \linewidth\hsize
-   \@setminipage}}%
- {\par\unskip\endMakeFramed%
- \at@end@of@kframe}
-\makeatother
-
-\definecolor{shadecolor}{rgb}{.97, .97, .97}
-\definecolor{messagecolor}{rgb}{0, 0, 0}
-\definecolor{warningcolor}{rgb}{1, 0, 1}
-\definecolor{errorcolor}{rgb}{1, 0, 0}
-\newenvironment{knitrout}{}{} % an empty environment to be redefined in TeX
-
-\usepackage{alltt}
-
-% Packages
-\usepackage[utf8]{inputenc}
-\usepackage[T1]{fontenc}
-\usepackage[french]{babel}
-\usepackage{geometry}
-
-%Images
-\usepackage{graphicx}
-\graphicspath{{img/}}
-
-\usepackage{caption}
-\usepackage{subcaption}
-\usepackage{amsmath}
-\usepackage{amsfonts}
-\usepackage{amssymb}
-\usepackage{hyperref}
-\usepackage{listings}
-\usepackage{xcolor}
-\usepackage{amsthm}
-\usepackage{cancel}
-
-\usepackage[style=authoryear-comp,backend=biber]{biblatex}
-%== use and define color ==%
-\AtEveryCite{\color{blue}}
-\addbibresource{references.bib}
-
-% Configurations
-\geometry{a4paper, margin=2.5cm}
-\graphicspath{ {img/} }
-
-% Macros utiles
-\newcommand{\Normal}{\mathcal{N}}
-
-
-% Titre du document
-\title{Rapport de Projet : ANOVA Phylogénétique}
-\author{Alizée Geffroy \and Louis Lacoste}
-\date{\today}
-\IfFileExists{upquote.sty}{\usepackage{upquote}}{}
-\begin{document}
-
-\maketitle
-
-
-
-
-
-\newpage
-\tableofcontents
-\newpage
-
-\section{Introduction}
-\label{chap:intro}
-% Introduction au projet, contexte, objectifs.
-Ici contexte biologique, les données de \cite{gomez-mestrePhylogeneticAnalysesReveal2012}, les données de Paul et Mélina etc.
-
-Avec l'avènement des données massives de génomiques, transcriptomiques, protéomiques etc, il y a besoin de techniques statistiques robustes et passant à l'échelle permettant de mener à bien l'anal
-Format des données : arbres phylogénétiques, données génétiques 
-Arbres avec des petitites branche: plusieurs individus par espèces avec chacun leurs données 
---> problème biologique 
-
-Deux sujets différents écologie et transcriptomique mais une même méthode.
-
-Pour données \cite{chenQuantitativeFrameworkCharacterizing2019} la figure~\ref{fig:arbre-chen2019} présente l'arbre phylogénétique :
-
-\begin{figure}[!h]
-    \centering
-\begin{knitrout}
-\definecolor{shadecolor}{rgb}{0.969, 0.969, 0.969}\color{fgcolor}
-\includegraphics[width=\maxwidth]{figure/plot-arbre-chen-1} 
-\end{knitrout}
-    \caption{Arbre phylogénétique de \cite{chenQuantitativeFrameworkCharacterizing2019}}
-    \label{fig:arbre-chen2019}
-\end{figure}
-
-
-Transition, c'est pourquoi on va tester la méthode d'ANOVA phylogénétique avec cette forme de données. 
-But ? Etudier cette méthode et les résultats 
-
-Un gène, comparer les moyennes d'expression d'un gène 
-On connait les groupes
-exemple individus malade/sain
-
-Comparaison non pas sur individus malades/pas malades mais sur espèces différentes.
-Pas possible de supposer iid, existe relations entre les individus et les groupes que l'on compare donc besoin de les prendre en compte.
-
-Modele mixte la matrice des temps de divergences, BM simple sans erreurs, avec erreur (ajustement du ratio) avec OU...
-
-\section{Méthodes}
-\label{sec:methode}
-% Revue de la littérature sur l'ANOVA phylogénétique.
-Ici les rappels sur l'ANOVA, l'explication de l'ANOVA phylogénétique. La démonstration des limites de l'ANOVA phylogénétique par des simulations
-Méthode: la partie maths anova, anova phylo, satterthwaite, 
-
-\subsection{L'ANOVA}
-
-L'ANOVA est un cas classique du modèle linéaire, nous utilisons ici les notations et le formalisme de \cite{belModeleLineaireSes}.
-
-Le principe de l'ANOVA est d'expliciter le lien entre une variable quantitative et une ou plusieurs variables qualitatives.
-
-La forme usuelle de l'ANOVA à 1 facteur est la suivante :
-
-\begin{align}
-Y_{ik} = \mu_i + E_{ik}, & &i = 1,\dots I, k = 1,\dots n_i, E_{ik} \sim \Normal (0, \sigma^2)
-\end{align}
-
-où dans cette équation, reprise du livre \parencite{belModeleLineaireSes}, $i$ représente le niveau du facteur et $k$ indique le numéro de l'observation dans ce niveau. $I$ est le nombre total de niveaux du facteur, $n_i$ le nombre d'observation du niveau $i$. 
-
-L'ANOVA se généralise à deux facteurs, plus facilement compréhensible avec cette forme, non identifiable :
-\begin{align}
-Y_{ijk} = \mu + \alpha_i + \beta_j + E_{ijk}, & &i = 1,\dots I, j = 1,\dots J, k = 1,\dots n_ij, E_{ijk} \sim \Normal (0, \sigma^2)
-\end{align}
-
-où $\mu$ représente un effet moyen de la population (\emph{intercept}), $\alpha_i$ l'effet du premier facteur de niveau $i$, $\beta_j$ l'effet du second facteur de niveau $j$.
-
-Les paramètres de l'ANOVA sont estimables, grâce par exemple à la méthode du maximum de vraisemblance et ont des formules bien connues.
-
-% ICI LES FORMULES
-
-% LIMITES de l'ANOVA classique sur les données phylo
-
-\subsection{L'ANOVA phylogénétique}
-
-parler du BM ? 
-PUis de la matrice V ou K qui donne la structure phylogénétique 
-
-Etre assez concis sur l'histoire de la projection et le modèle et les différences avec l'ANOVA. 
-
-
-% TODO Définir les tests stats
-\subsection{Approximation de Satterthwaite}
-
-Pourquoi vouloir l'utiliser ? Réduire nbre de degrés de liberté utilisés dans la stat de test. 
-Le but est d'approximé le nbre de degré de Liberté. 
-On se basera sur la documentation du package lmer \cite{kuznetsovaLmerTestPackageTests2017} pour ensuite implémenter une approximation de Satterthwaite. 
-\begin{equation}
-    Y = X\beta + u + \epsilon 
-\end{equation} 
-\[
-\text{où} \quad \mathbf{Y} = \begin{bmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{bmatrix}, \mathbf{\beta} = \begin{bmatrix} \beta_1 \\ \beta_2  \end{bmatrix}\text{,} \quad u \sim \mathcal{N}_n(0, \sigma^2_{phy}K) \text{,} \quad \epsilon \sim \mathcal{N}_n(0, \sigma^2_{err}I_n)
-\]
-\newline
-\[
- \text{Alors} \quad Y \sim \mathcal{N}_n(X\beta, \sigma^2_{phy}K + \sigma^2_{err}I_n) \quad \text{et} \quad Var_\theta(Y) = V(\theta) = \sigma^2_{phy}K + \sigma^2_{err}I_n
-\]
-De là on obtient:
-\begin{equation}
-    C(\theta) = (Cov(\beta_i , \beta_j))_{i,j} = (X^TV(\theta)^{-1}X)^{-1} = (X^T(\sigma^2_{phy}K + \sigma^2_{err}I_n)^{-1}X)^{-1}
-\end{equation}
-
-Toujours en suivant la documentation \cite{kuznetsovaLmerTestPackageTests2017} on obtient une expression pour les degrés de liberté $df$ ainsi qu'une approximation. Ce qui nous donne :
-\begin{equation}
-    df = \frac{2(l^T\hat{C}l)^2}{[Var(l^T\hat{C}l)]}=\frac{2(f(\hat{\theta}))^2}{[Var(f(\hat{\theta})]}\approx \frac{2(f(\hat{\theta}))^2}{[\nabla f(\hat{\theta})]^T A[\nabla f(\hat{\theta})]}
-\end{equation} 
-\[\text{où} \quad \hat{C} = C(\hat\theta) \quad \text{et} \quad f(\theta) = l^TC(\theta)l\]
-On va donc dans la suite calculer $\nabla f(\theta)$ puis l'appliquer en $\hat{\theta}$ et $A$ la matrice de variance-covariance de $\hat{\theta}=(\hat{\sigma}^2_{phy}, \hat{\sigma}^2_{err})$ 
-
-\begin{proof}[Calcul du gradient]
-Nous voulons calculer les dérivées partielles $\partial_{\sigma^2_{phy}}f(\theta)$ et $\partial_{\sigma^2_{err}}f(\theta)$. Pour les premières étapes de calculs, on écrira seulement $\partial$ sans distinction car ce sont les mêmes expressions pour les 2 dérivées. 
-On utilisera dans la suite les formules de \cite{petersenMatrixCookbook2012} pour les dérivées de matrice
-\[
-\partial f(\theta)=l^T\partial C(\theta)l
-\]
-\[
-\partial C(\theta)=\partial (X^TV(\theta)^{-1}X)^{-1} = -C(\theta) \partial (X^TV(\theta)^{-1}X)C(\theta)
-\]
-
-\[
-    \partial (X^TV(\theta)^{-1}X) = \partial (X^TV(\theta)^{-1})X + \cancel{X^TV(\theta)^{-1})\partial(X)} \quad (\partial_{\sigma^2_{phy}}(X)\text{ et } \partial_{\sigma^2_{err}}(X) \text{ sont nulles})
-\]
-
-% Commençons par utiliser la définition des fonctions trigonométriques :
-% \[
-% \sin(x) = \frac{e^{ix} - e^{-ix}}{2i} \quad \text{et} \quad \cos(x) = \frac{e^{ix} + e^{-ix}}{2}
-% \]
-
-% En substituant ces expressions dans l'identité, nous obtenons :
-% \begin{align*}
-% \sin^2(x) + \cos^2(x) &= \left(\frac{e^{ix} - e^{-ix}}{2i}\right)^2 + \left(\frac{e^{ix} + e^{-ix}}{2}\right)^2 \\
-% &= \frac{(e^{ix} - e^{-ix})^2}{4i^2} + \frac{(e^{ix} + e^{-ix})^2}{4} \\
-% &= \frac{(e^{ix} - e^{-ix})(e^{ix} - e^{-ix})}{-4} + \frac{(e^{ix} + e^{-ix})(e^{ix} + e^{-ix})}{4} \\
-% &= \frac{e^{2ix} - 2e^{ix}e^{-ix} + e^{-2ix}}{-4} + \frac{e^{2ix} + 2e^{ix}e^{-ix} + e^{-2ix}}{4} \\
-% &= \frac{e^{2ix} - 2 + e^{-2ix}}{-4} + \frac{e^{2ix} + 2 + e^{-2ix}}{4} \\
-% &= \frac{e^{2ix} + e^{-2ix}}{4} + \frac{e^{2ix} + e^{-2ix}}{4} - \frac{2}{4} + \frac{2}{4} \\
-% &= \frac{2(e^{2ix} + e^{-2ix})}{4} \\
-% &= \frac{2 \cdot 2\cos(2x)}{4} \quad \text{(par la formule d'Euler)} \\
-% &= \cos(2x)
-% \end{align*}
-
-% Ainsi, nous avons montré que $\sin^2(x) + \cos^2(x) = 1$.
-\end{proof}
-% Supposons que nous avons une expression $x^2 - 2x + \cancel{3} - 3$. Comme la partie $\cancel{3}$ est nulle, nous pouvons la barrer.
-
-
-\section{Méthodologie}
-\label{chap:metho}
-lrt 
-ANOVA normale 
-VANILLA = ANOVA phylo sans correction des degrés de liberté $df1 = K - 1, df2 = n-K$
-ANOVA phylo (avec REML)
-
-test sur arbre quelconque
-puis sur arbre avec petites branches ? 
-
-Ou faire une partie à part entière avec 
-1) ANOVA vs ANOVA phylo sans correction des degrés de liberté
- b) avec une sous partie sur le REML
-
-2) ANOVA phylo avec approximation de SAtterthwaite 
- a) prez
- a`) simulation et résultats 
- b) instabilités numériques -> correction avec la Hessienne ? 
- c) La hessienne analytique ? A voir si besoin d'une partie supplémentaire
- 
-
-3 parties :
-- théo
-- méthodo par simu
-- appli aux données réelles
-
-
-
-\subsection{Simulations}
-% On importe le fichier
-
-Simu: Plusieurs design, tailles etc
-On sait la vérité, on peut connaitre les vrais positifs etc 
-Qu'est ce qu'on prend en entrées qu'est ce qu'on veut en sortie
-
-
-
-Bien insister sur l'arbre d'entrée et l'objectif de la simu : quelle approche pour mieux détecter les gènes différentiellement exprimés.
-
-Simulations :
-\begin{itemize}
-    \item soit selon l'arbre des données
-    \item soit partir sur regarder l'impact de la taille de l'arbre etc.
-\end{itemize}
-
-\section{Données}
-\label{sec:data}
-% Présentation des données utilisées.
-
-
-Revenir sur explication de gènes différentiellement exprimées etc.
-
-Applications aux données réelles de Chen mais ne pas perdre de temps à expliquer en détails EVEmodel (dire que c'est State of the art).
-
-\section{Résultats}
-\label{sec:results}
-% Présentation des résultats obtenus.
-
-% Présenter EVEmodel et son usage
-
-
-\section{Discussion et conclusion}
-\label{sec:discuss_conclusion}
-% Analyse critique des résultats, limites, perspectives.
-
-Intro
-
-Application/Résultats: décrire les données, vite fait normalisation avec vrai aebre, on ne connait pas 
-Discussion/COnclusion ? Interprétation des résultats sinon la mettre dans les 
-
-% Bibliographie
-\printbibliography
-\nocite{*}
-
-% TODO Ici éventuellement une partie annexe discussion de l'impact des tailles d'abres
-
-\end{document}