audition-these/principal.tex

453 lines
No EOL
19 KiB
TeX
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

\section{Parcours}
\label{sec:parcours}
\begin{frame}{Formations}
\begin{itemize}
\item 2018--2020, Classe Préparatoire BCPST
\item 2020--2022, 1ère et 2ème année en formation Ingénieur
AgroParisTech\\
{\small Cours optionnels suivis : statistiques spatiales,
mathématiques pour la santé, ingénierie par la simulation informatique \dots}
\item 2022--2023, Année de césure : stages
\item 2023--2024, M2 Mathématiques pour les Sciences du Vivant,
Université Paris-Saclay\\
{\small UC à choix 2\ieme semestre : modèles à variables
latentes, statistiques spatiales et méthodes de statistiques en grandes dimension}
\end{itemize}
\end{frame}
\begin{frame}{Expériences professionnelles}
\begin{itemize}
\item 2022 Mai--Déc., Stage assistant ingénieur en Qualité chez
Eurofins Food France.
\item 2023 Janv.--Juillet, Détection de structures dans des collections de
réseaux bipartites et écriture du package implémentant la méthode.\\
Stage dans lUMR MIA Paris-Saclay, supervisé par Pierre Barbillon.
\item 2024 Avril--Sept., Détection de structures et clustering de réseaux
écologiques.\\
Stage dans lUMR MIA Paris-Saclay, supervisé par
Pierre Barbillon et Sophie Donnet.
\end{itemize}
\end{frame}
\section{Sujet de thèse}
\begin{frame}
\frametitle{Contexte écologique}
\begin{itemize}
\item Nombreux réseaux disponibles \parencite{WebLifeEcological} pour interactions similaires. Par exemple,
interactions proies-prédateurs, plantes-pollinisateurs \dots
\item Suivi biodiversité, analyse de robustesse et risque d'effondrement.
\begin{columns}
\begin{column}{0.6\textwidth}
\begin{figure}[ht]
\centering
\begin{tikzpicture}[scale=.65]
\input{figures/plantpollinatornetwork.tex}
\end{tikzpicture}
\caption{Exemple d'un réseau plantes-pollinisateurs}
\label{fig:plantes-pollin}
\end{figure}
\end{column}
\begin{column}{0.39\textwidth}
\centering
\begin{align*}
X = \begin{pmatrix}
1 & 1 & 1 & 1 & 0 & 0 \\
0 & 0 & 0 & 1 & 0 & 1 \\
1 & 0 & 0 & 0 & 1 & 0 \\
0 & 0 & 0 & 0 & 1 & 0
\end{pmatrix}
\end{align*}
\footnotesize
Matrice d'adjacence associée
\end{column}
\end{columns}
\item En écologie microbienne réseaux permettent le suivi de la
qualité des sols.
\end{itemize}
\end{frame}
\begin{frame}{Contexte mathématique}
Détection de structure\footnote{L'organisation du réseau.} pour un unique
réseau bien connu avec par exemple :
\begin{itemize}
\item Modèles de \emph{clustering} à variables latentes.
\item \emph{Embedding} par apprentissage profond.
\item Et bien d'autres méthodes.
\note[item]{Par exemple la détection de communauté, les calculs de métriques comme la centralité}
\end{itemize}
Mais des motivations pour proposer des méthodes adaptées aux collections
de réseaux :
\begin{itemize}
\item Espèces différentes, rôles analogues.
% Des espèces différentes dans plusieurs réseaux pourrait
% remplir des rôles similaires
\item Transfert d'informations grands vers petits réseaux.
% Les petits réseaux pourraient bénéficier d'une estimation
% avec des réseaux plus grands et révéler une structure plus
% fine.
% Certains réseaux étant moins bien échantillonnés que
% d'autre une prise en compte en collection de réseaux pourrait
% aider à transférer de l'information
\item Regrouper les réseaux selon leur similarité (\emph{clustering}
de réseaux).
\end{itemize}
\end{frame}
\subsection[Axe 1]{Axe 1 : Modèles à variables
latentes pour une collection de réseaux bipartites}
\label{sec:axe-1}
\begin{frame}
\frametitle{Latent Block Model (LBM)}
Proposé par~\cite{govaertEMAlgorithmBlock2005}.
\begin{columns}
\begin{column}{0.40\linewidth}
\begin{figure}[H]
\center
\begin{tikzpicture}[scale=0.35]
\input{figures/lbm.tex}
\end{tikzpicture}
\caption{Exemple de LBM\footnotemark}
\label{fig:LBMvisu-principal}
\end{figure}
\end{column}
\footnotetext[2]{Que j'appelle par la suite BiSBM}
\begin{column}{0.51\linewidth}
\newline
Pour \begin{itemize}
\item $Q_1 =
|\{{\color{blueind}\bullet},{\color{cyanind}\bullet},{\color{electricblue}\bullet}\}|$
blocs fixés en ligne
\item $Q_2 =
|\{{\color{burntorange}\bullet},{\color{goldenyellow}\bullet},{\color{peach}\bullet}\}|$
blocs fixés en colonne
\end{itemize}
\begin{block}{Paramètres}
\begin{itemize}
\item $\pi_{\bullet} = \mathbb{P}(Z_i = \bullet)$ en ligne
et $\rho_{\bullet} = \mathbb{P}(W_j = \bullet)$ en colonne
\item
$\alpha_{{\color{blueind}\bullet}{\color{burntorange}\bullet}} =
\mathbb{P}(X_{ij} = 1 | Z_i = {\color{blueind}\bullet}, W_j =
{\color{burntorange}\bullet})$
\end{itemize}
\end{block}
\end{column}
\end{columns}
\end{frame}
\begin{frame}
\frametitle{Collections bipartites}
\begin{center}
\begin{adjustbox}{trim=0 0 1 1.5cm}
\input{figures/collbm.tex}
\end{adjustbox}
\end{center}
\only<1>{
\begin{block}{Modèle $iid$-colBiSBM}
$$\forall m \in [\![ 1, M ]\!], Y^m \sim LBM_{n^m_1, n^m_2} (\pi, \rho, \alpha)$$
\end{block}
}
\only<2>{
\begin{block}{Modèle $\pi\rho$-colBiSBM}
$$\forall m \in [\![ 1, M ]\!], Y^m \sim LBM_{n^m_1, n^m_2} (\pi^{\color{red}m}, \rho^{\color{red}m}, \alpha)$$
\end{block}
}
\end{frame}
\begin{frame}{Apport déjà réalisé}
\begin{itemize}
\item Écriture du modèle \emph{colBiSBM}.
\item Dérivation des formules d'inférence et d'un critère de sélection
de modèle par vraisemblance pénalisée (choix du nombre de blocs).
\item Implémentation des formules et du critère et développement
algorithmique pour l'exploration de l'espace de paramètres.
\note[item]{Principalement pendant mon premier stage}
\item Développement d'une méthode de partitionnement d'une large
collection de réseaux basée sur la maximisation d'un critère de
sélection de modèle.
\item Écriture du code et intégration au package\footnote{
\scalebox{0.8}{\faGithub~
\url{https://github.com/Chabert-Liddell/colSBM}}} \emph{colSBM}.
\note[item]{Pendant mon stage actuel}
\end{itemize}
\end{frame}
\begin{frame}
\frametitle{Application du \emph{clustering}, données plantes pollinisateurs}
\small
Voici des résultats du modèle \emph{iid-colBiSBM} sur des données
plantes-pollinisateurs (\cite{doreRelativeEffectsAnthropogenic2021}
et~\cite{thebaultDatabasePlantpollinatorNetworks2020})
% DONE Ajouter un tableau avec le nombre de réseaux dans chaque sous-collection
\begin{columns}
\begin{column}{0.49\linewidth}
\begin{figure}[H]
\includegraphics[width=0.35\textwidth]{img/iid-meso-1.png}
\includegraphics[width=0.30\textwidth]{img/iid-meso-2.png}
\includegraphics[width=0.30\textwidth]{img/iid-meso-3.png}
\includegraphics[width=0.35\textwidth]{img/iid-meso-4.png}
\includegraphics[width=0.30\textwidth]{img/iid-meso-5.png}
\caption{Connectivités de la partition}
\end{figure}
\end{column}
\begin{column}{0.49\linewidth}
\includegraphics[scale=0.30]{img/annual_time_span_vs_iid.png}
\begin{center}
\begin{table}
\tiny
\begin{tabular}{ |c|c|c|c|c|c|c| }
\hline
\thead{N°de \\collection} & 1 & 2 & 3 & 4 & 5 & \thead{Total} \\
\hline
\thead{Nombre de \\réseaux} & 38 & 45 & 1 & 20 & 19 & 123\\
\hline
\end{tabular}
\end{table}
\end{center}
\end{column}
\end{columns}
\end{frame}
\begin{frame}{À faire}
\begin{itemize}
\item Finaliser l'analyse sur données réelles
commencée sur \cite{doreRelativeEffectsAnthropogenic2021,
thebaultDatabasePlantpollinatorNetworks2020} avec les
interprétations des écologues en vue d'une publication.
\note[item]{Dans \emph{Methods in Ecology and Evolution}}
\item Preuve d'identifiabilité du modèle
\parencite{chabert-liddellLearningCommonStructures2024,
celisseConsistencyMaximumlikelihoodVariational2012,
keribinEstimationSelectionLatent2015,
braultCoclusteringLatentBloc2015}.
\note[item]{Car les blocs vides du modèles $\pi\rho$ posent
soucis.}
\end{itemize}
\end{frame}
\subsection[Axe 2]{Axe 2 : Embedding de n\oe uds par
apprentissage profond pour comparaison des topologies de réseaux}
\label{sec:axe-2}
\begin{frame}{\emph{Graph Neural Networks} et \emph{Variational AutoEncoder}}
\begin{figure}
\centering
% \begin{tikzpicture}[
% % node distance=2cm and 1cm,
% trap/.style={trapezium, draw, minimum height = 1cm},
% % rectangle/.style={rectangle, draw, minimum height=1cm, minimum width=2cm, align=center},
% arrow/.style={->, thick},
% scale=0.5,
% ]
% % Encoder trapezium
% \node[trap, trapezium left angle=110, trapezium right angle=110, rotate = 90] (encoder) {Encodeur};
% % Latent space parameters
% \node[rectangle, fill=yellow, opacity=0.4, below=of encoder] (mu) {$\mu$};
% \node[rectangle, fill=blue, opacity=0.3, below=of mu] (sigma) {$\sigma$};
% \node[rectangle, fill=green, opacity=0.3, below=of sigma, rotate = 90] (sample) {Échantillon};
% % Decoder trapezium
% \node[trap, trapezium left angle=70, trapezium right angle=70, below=of sample, rotate = 90] (decoder) {Décodeur};
% % Connections
% \draw[arrow] (encoder.south) -- (mu.north);
% \draw[arrow] (encoder.south) -- (sigma.north);
% \draw[arrow] (mu.south) -- (sample.north);
% \draw[arrow] (sigma.south) -- (sample.north);
% \draw[arrow] (sample.south) -- (decoder.north);
% % Input and output labels
% \node[left= 2cm of encoder] (input) {Input $x$};
% \node[right= 2cm of decoder] (output) {Output $\hat{x}$};
% \draw[arrow] (input.east) -- (encoder.west);
% \draw[arrow] (decoder.east) -- (output.west);
% \end{tikzpicture}
\includegraphics[scale=0.17]{img/vae.png}
\caption{Schéma d'\cite{AutoencodeurVariationnel2024}}
\label{fig:schema-vgae}
\end{figure}
\footnotesize
\begin{block}{\small Problème des graphes pour les réseaux de neurones :
\textbf{prise en compte des invariances par permutation}}
\begin{itemize}
\item Utilisation des \emph{Graph Convolutional Networks}
résout ce problème. \parencite{
kipfSemiSupervisedClassificationGraph2017}
\item Utiliser des \emph{Variational AutoEncoder}
pour projeter les n\oe uds dans un espace latent.
\parencite{kingmaAutoEncodingVariationalBayes2022c,
kipfVariationalGraphAutoEncoders2016}
\item Explorer le \emph{Deep Latent Space Model}.
\parencite{yangDeepLatentSpace2024}
\end{itemize}
\end{block}
\end{frame}
\begin{frame}{À développer pour la comparaison de réseaux}
\begin{figure}
\centering
\includegraphics[scale=0.17]{img/vae.png}
\caption{Schéma d'\cite{AutoencodeurVariationnel2024}}
\end{figure}
\begin{itemize}
\item \emph{Embedding} joint des n\oe uds des $M$ réseaux à comparer sur un même espace
latent. Puis comparaison des distributions ainsi obtenues.
\item Encodeurs différents mais un décodeur commun pour comparer les
représentations obtenues
\end{itemize}
\end{frame}
% \begin{frame}[allowframebreaks]{\emph{Graph Neural Networks}}
% \begin{figure}
% \includegraphics[scale=0.4]{img/Message_passing.pdf}
% \caption{Illustration du \emph{message passing} au sein d'un graphe.\footnote{Figure adaptée de \cite{sanchez-lengelingGentleIntroductionGraph2021} par Emré Anakok.}}
% \end{figure}
% Avec les \emph{Graph Convolutional Networks} (GCN) \emph{embedding} de graphes
% \parencite{velickovicGraphAttentionNetworks2018,hamiltonInductiveRepresentationLearning,
% xuHowPowerfulAre2019} tenant compte des invariances.
% \begin{block}{Règle de propagation d'une couche de GCN}
% \begin{equation}
% H^{(l+1)} = \sigma \bigl( \tilde{D}^{\frac{1}{2}} \tilde{A} \tilde{D}^{\frac{1}{2}} H^{(l)} W^{(l)} \bigr),
% \end{equation}
% tirée de \cite{kipfSemiSupervisedClassificationGraph2017}.
% \end{block}
% \begin{itemize}
% \item Utiliser des \emph{Variational Auto-Encoder} (VAE)
% \parencite{
% kipfVariationalGraphAutoEncoders2016,
% kipfSemiSupervisedClassificationGraph2017} et
% résume le réseau par une distribution. Calculer distance de
% Gromov-Wasserstein pour comparaison et classification.\\
% Un des avantages principaux est le \emph{passage à l'échelle} de ces méthodes
% permettant de traiter des réseaux de plus grande taille.
% \end{itemize}
% \end{frame}
\subsection[Axe 3]{Axe 3 : Inférence jointe de réseaux}
\label{sec:axe-3}
\begin{frame}
\begin{columns}
\begin{column}{0.6\textwidth}
\begin{table}[t]
\centering
\begin{tabular}{cccc}
\hline
& $OTU_1$ & \dots & $OTU_p$ \\
\hline
Éch. 1 & $X_{1,1}$ & \dots & $X_{1,p} = 500$ \\
\vdots & \vdots & & \vdots \\
Éch. n & $X_{n,1} = 10$ & \dots & $X_{n,p}$ \\
\hline
\end{tabular}
\caption{Table d'OTU synthétique}
\label{tab:otu-synthetiques}
\end{table}
\end{column}
\begin{column}{0.4\textwidth}
\begin{figure}[t]
\centering
% TODO Ici une image avec des liens de probas proches pour faire commentaire
% \includegraphics[scale=0.25]{img/plot_model_function_eps.png}
\begin{tikzpicture}[
vertex/.style = {circle, draw, inner sep=1pt, fill=blue!30!white},
]
\input{figures/network.tex}
\end{tikzpicture}
\caption{Réseau de co-occurence inféré}
\label{fig:otu-synthetiques}
\end{figure}
\end{column}
\end{columns}.
\begin{itemize}
\item Avènement des techniques de séquençage et donc disponibilité des
OTU\footnote{Unité Taxonomique Opérationnelle}
\item Incertitude d'inférence disponible mais négligée par la suite,
important pour les réseaux microbiens seulement inférés
\item Détails et autre limites
dans~\cite{matchadoNetworkAnalysisMethods2021}
\end{itemize}
\end{frame}
\begin{frame}{À développer pour l'inférence jointe de réseaux}
\begin{itemize}
\item Avec $M$ tableaux d'OTU, on peut supposer :
\begin{block}{Modèle hiérarchique}
\begin{align*}
\forall m \in [\![1,M]\!],~ & X_1^m, \dots, X_p^m \rightsquigarrow \mathcal{M}(Y^m) & \\
& Y^m \rightsquigarrow LBM(\pi, \rho, \alpha) \text{ ou } Y^m \rightsquigarrow DLSM(f_D, f_E) &
\end{align*}
\end{block}
\item Réussir à mettre en évidence des bactéries aux rôles fonctionnels
proches selon des conditions d'expériences différentes en tenant
compte de l'incertitude d'inférence
\item Formaliser une méthode pour déterminer si le changement d'unité
taxonomique change la structure
\end{itemize}
\end{frame}
\section{Organisation de la thèse}
\label{sec:organisation-these}
\begin{frame}
\begin{block}{Planning prévisionnel de la thèse}
\begin{figure}[ht]
\centering
\begin{chronology}[1]{2024}{2028}{\textwidth}[110ex]
\eventspan {\decimaldate{1}{10}{2024}}{\decimaldate{1}{6}{2025}}%
{\textbf{\color{blue} Collections \& modèles à variables latentes}}[blue][.3][0.1]
\eventspan {\decimaldate{1}{5}{2025}}{\decimaldate{1}{10}{2026}}%
{\textbf{\color{red} \emph{Embedding} de n\oe uds par \emph{Deep Learning}}}[red][.3][0.1]
\eventspan {\decimaldate{1}{3}{2026}}{\decimaldate{1}{4}{2027}}%
{\textbf{\color{ao(english)} Inférence jointe de réseaux}}[ao(english)][.3][0.1]
\eventspan {\decimaldate{1}{4}{2027}}{\decimaldate{1}{10}{2027}}%
{\textbf{\color{gray} Rédaction du manuscrit}}[gray][.3][0.1][b]
\end{chronology}
\caption{Chronologie prévue}
\label{fig:chronologie}
\end{figure}
\end{block}
\begin{block}{Financement}
L'INRAE, par le département MathNum accorde déjà 50\% des financements
de la thèse.
\end{block}
\centering
\Large Merci pour votre attention.
\end{frame}