441 lines
No EOL
19 KiB
TeX
441 lines
No EOL
19 KiB
TeX
\section{Parcours}
|
||
\label{sec:parcours}
|
||
\begin{frame}{Formations}
|
||
|
||
\begin{itemize}
|
||
\item 2018--2020, Classe Préparatoire BCPST
|
||
\item 2020--2022, 1ère et 2ème année en formation Ingénieur
|
||
AgroParisTech\\
|
||
{\small Cours optionnels suivis : statistiques spatiales,
|
||
mathématiques pour la santé, ingénierie par la simulation informatique \dots}
|
||
\item 2022--2023, Année de césure
|
||
\item 2023--2024, M2 Mathématiques pour les Sciences du Vivant,
|
||
Université Paris-Saclay\\
|
||
{\small UC à choix 2\ieme semestre : modèles à variables
|
||
latentes, statistiques spatiales et méthodes de statistiques en grandes dimension}
|
||
|
||
\end{itemize}
|
||
|
||
\end{frame}
|
||
\begin{frame}{Expériences professionnelles}
|
||
|
||
\begin{itemize}
|
||
\item 2022 Mai--Déc., Stage assistant ingénieur en Qualité chez
|
||
Eurofins Food France.
|
||
|
||
\item 2023 Janv.--Juillet, Détection de structures dans des collections de
|
||
réseaux bipartites et écriture du package implémentant la méthode.
|
||
Stage dans l’UMR MIA Paris-Saclay, supervisé par Pierre Barbillon.
|
||
|
||
\item 2024 Avril--Sept., Détection de structures et clustering de réseaux
|
||
écologiques. Stage dans l’UMR MIA Paris-Saclay, supervisé par
|
||
Pierre Barbillon et Sophie Donnet.
|
||
|
||
\end{itemize}
|
||
|
||
\end{frame}
|
||
|
||
|
||
\section{Sujet de thèse}
|
||
|
||
\begin{frame}
|
||
\frametitle{Contexte écologique}
|
||
\begin{itemize}
|
||
\item Nombreux réseaux disponibles \parencite{WebLifeEcological} pour interactions similaires. Par exemple,
|
||
interactions proies-prédateurs, plantes-pollinisateurs \dots
|
||
\item Suivi biodiversité, analyse de robustesse et risque d'effondrement.
|
||
\begin{columns}
|
||
\begin{column}{0.6\textwidth}
|
||
\begin{figure}[ht]
|
||
\centering
|
||
\begin{tikzpicture}[scale=.65]
|
||
\input{figures/plantpollinatornetwork.tex}
|
||
\end{tikzpicture}
|
||
\caption{Exemple d'un réseau plantes-pollinisateurs}
|
||
\label{fig:plantes-pollin}
|
||
|
||
\end{figure}
|
||
\end{column}
|
||
\begin{column}{0.39\textwidth}
|
||
\centering
|
||
\begin{align*}
|
||
X = \begin{pmatrix}
|
||
1 & 1 & 1 & 1 & 0 & 0 \\
|
||
0 & 0 & 0 & 1 & 0 & 1 \\
|
||
1 & 0 & 0 & 0 & 1 & 0 \\
|
||
0 & 0 & 0 & 0 & 1 & 0
|
||
\end{pmatrix}
|
||
\end{align*}
|
||
\footnotesize
|
||
Matrice d'adjacence associée
|
||
\end{column}
|
||
\end{columns}
|
||
\item En écologie microbienne réseaux permettent le suivi de la
|
||
qualité des sols.
|
||
\end{itemize}
|
||
|
||
\end{frame}
|
||
|
||
\begin{frame}{Contexte mathématique}
|
||
|
||
|
||
Détection de structure\footnote{L'organisation du réseau.} pour un unique
|
||
réseau bien connu avec par exemple :
|
||
\begin{itemize}
|
||
\item Modèles de \emph{clustering} à variables latentes.
|
||
\item \emph{Embedding} par apprentissage profond.
|
||
\item Et bien d'autres méthodes.
|
||
\note[item]{Par exemple la détection de communauté, les calculs de métriques comme la centralité}
|
||
\end{itemize}
|
||
|
||
Mais des motivations pour considérer des collections :
|
||
\begin{itemize}
|
||
\item Espèces différentes, rôles analogues.
|
||
% Des espèces différentes dans plusieurs réseaux pourrait
|
||
% remplir des rôles similaires
|
||
\item Transfert d'informations grands vers petits réseaux.
|
||
% Les petits réseaux pourraient bénéficier d'une estimation
|
||
% avec des réseaux plus grands et révéler une structure plus
|
||
% fine.
|
||
% Certains réseaux étant moins bien échantillonnés que
|
||
% d'autre une prise en compte en collection de réseaux pourrait
|
||
% aider à transférer de l'information
|
||
\item Regrouper les réseaux selon leur similarité (\emph{clustering}
|
||
de réseaux).
|
||
\end{itemize}
|
||
\end{frame}
|
||
|
||
\subsection[Axe 1]{Axe 1 : Modèles à variables
|
||
latentes pour une collection de réseaux bipartites}
|
||
\label{sec:axe-1}
|
||
|
||
\begin{frame}
|
||
\frametitle{Latent Block Model (LBM)}
|
||
Proposé par~\cite{govaertEMAlgorithmBlock2005}.
|
||
\begin{columns}
|
||
\begin{column}{0.40\linewidth}
|
||
\begin{figure}[H]
|
||
\center
|
||
\begin{tikzpicture}[scale=0.35]
|
||
\input{figures/lbm.tex}
|
||
\end{tikzpicture}
|
||
\caption{Exemple de LBM\footnotemark}
|
||
\label{fig:LBMvisu-principal}
|
||
\end{figure}
|
||
\end{column}
|
||
\footnotetext[2]{Que j'appelle par la suite BiSBM}
|
||
\begin{column}{0.51\linewidth}
|
||
\newline
|
||
Pour \begin{itemize}
|
||
\item $Q_1 =
|
||
|\{{\color{blueind}\bullet},{\color{cyanind}\bullet},{\color{electricblue}\bullet}\}|$
|
||
blocs fixés en ligne
|
||
\item $Q_2 =
|
||
|\{{\color{burntorange}\bullet},{\color{goldenyellow}\bullet},{\color{peach}\bullet}\}|$
|
||
blocs fixés en colonne
|
||
\end{itemize}
|
||
\begin{block}{Paramètres}
|
||
\begin{itemize}
|
||
\item $\pi_{\bullet} = \mathbb{P}(Z_i = \bullet)$ en ligne
|
||
et $\rho_{\bullet} = \mathbb{P}(W_j = \bullet)$ en colonne
|
||
\item
|
||
$\alpha_{{\color{blueind}\bullet}{\color{burntorange}\bullet}} =
|
||
\mathbb{P}(X_{ij} = 1 | Z_i = {\color{blueind}\bullet}, W_j =
|
||
{\color{burntorange}\bullet})$
|
||
\end{itemize}
|
||
\end{block}
|
||
\end{column}
|
||
\end{columns}
|
||
\end{frame}
|
||
|
||
\begin{frame}
|
||
\frametitle{Collections bipartites}
|
||
\begin{center}
|
||
\begin{adjustbox}{trim=0 0 1 1.5cm}
|
||
\input{figures/collbm.tex}
|
||
\end{adjustbox}
|
||
\end{center}
|
||
|
||
\only<1>{
|
||
\begin{block}{Modèle $iid$-colBiSBM}
|
||
$$\forall m \in [\![ 1, M ]\!], Y^m \sim LBM_{n^m_1, n^m_2} (\pi, \rho, \alpha)$$
|
||
\end{block}
|
||
}
|
||
\only<2>{
|
||
\begin{block}{Modèle $\pi\rho$-colBiSBM}
|
||
$$\forall m \in [\![ 1, M ]\!], Y^m \sim LBM_{n^m_1, n^m_2} (\pi^{\color{red}m}, \rho^{\color{red}m}, \alpha)$$
|
||
\end{block}
|
||
}
|
||
\end{frame}
|
||
\begin{frame}{Apport déjà réalisé}
|
||
\begin{itemize}
|
||
\item Écriture du modèle colBiSBM.
|
||
\item Dérivation des formules d'inférence et d'un critère de sélection
|
||
de modèle par vraisemblance pénalisée (choix du nombre de blocs).
|
||
\item Implémentation des formules et du critère et développement
|
||
algorithmique pour l'exploration de l'espace de paramètres.
|
||
\note[item]{Principalement pendant mon premier stage}
|
||
\item Développement d'une méthode de partitionnement d'une large
|
||
collection de réseaux basée sur la maximisation d'un critère de
|
||
sélection de modèle.
|
||
\item Implémentation du code intégrée au package\footnote{
|
||
\scalebox{0.8}{\faGithub~
|
||
\url{https://github.com/Chabert-Liddell/colSBM}}} \emph{colSBM}.
|
||
\note[item]{Pendant mon stage actuel}
|
||
\end{itemize}
|
||
|
||
\end{frame}
|
||
|
||
\begin{frame}
|
||
\frametitle{Application du \emph{clustering}, données plantes pollinisateurs}
|
||
\small
|
||
Voici des résultats du modèle \emph{iid-colBiSBM} sur des données
|
||
plantes-pollinisateurs (\cite{doreRelativeEffectsAnthropogenic2021}
|
||
et~\cite{thebaultDatabasePlantpollinatorNetworks2020})
|
||
% DONE Ajouter un tableau avec le nombre de réseaux dans chaque sous-collection
|
||
\begin{columns}
|
||
\begin{column}{0.49\linewidth}
|
||
\begin{figure}[H]
|
||
\includegraphics[width=0.35\textwidth]{img/iid-meso-1.png}
|
||
\includegraphics[width=0.30\textwidth]{img/iid-meso-2.png}
|
||
\includegraphics[width=0.30\textwidth]{img/iid-meso-3.png}
|
||
\includegraphics[width=0.35\textwidth]{img/iid-meso-4.png}
|
||
\includegraphics[width=0.30\textwidth]{img/iid-meso-5.png}
|
||
\caption{Connectivités de la partition}
|
||
\end{figure}
|
||
\end{column}
|
||
\begin{column}{0.49\linewidth}
|
||
\includegraphics[scale=0.30]{img/annual_time_span_vs_iid.png}
|
||
|
||
\begin{center}
|
||
\begin{table}
|
||
\tiny
|
||
\begin{tabular}{ |c|c|c|c|c|c|c| }
|
||
\hline
|
||
\thead{N°de \\collection} & 1 & 2 & 3 & 4 & 5 & \thead{Total} \\
|
||
\hline
|
||
\thead{Nombre de \\réseaux} & 38 & 45 & 1 & 20 & 19 & 123\\
|
||
\hline
|
||
\end{tabular}
|
||
\end{table}
|
||
|
||
\end{center}
|
||
\end{column}
|
||
\end{columns}
|
||
\end{frame}
|
||
|
||
\begin{frame}{À faire}
|
||
\begin{itemize}
|
||
\item Finaliser l'analyse sur données réelles
|
||
commencée sur \cite{doreRelativeEffectsAnthropogenic2021,
|
||
thebaultDatabasePlantpollinatorNetworks2020} avec les
|
||
interprétations des écologues en vue d'une publication.
|
||
\note[item]{Dans \emph{Methods in Ecology and Evolution}}
|
||
\item Preuve d'identifiabilité du modèle
|
||
\parencite{chabert-liddellLearningCommonStructures2024,
|
||
celisseConsistencyMaximumlikelihoodVariational2012,
|
||
keribinEstimationSelectionLatent2015,
|
||
braultCoclusteringLatentBloc2015}.
|
||
\note[item]{Car les blocs vides du modèles $\pi\rho$ posent
|
||
soucis.}
|
||
|
||
\end{itemize}
|
||
|
||
\end{frame}
|
||
|
||
\subsection[Axe 2]{Axe 2 : Embedding de n\oe uds par
|
||
apprentissage profond pour comparaison des topologies de réseaux}
|
||
\label{sec:axe-2}
|
||
\begin{frame}{\emph{Graph Neural Networks} et \emph{Variational AutoEncoder}}
|
||
|
||
\begin{figure}
|
||
\centering
|
||
% \begin{tikzpicture}[
|
||
% % node distance=2cm and 1cm,
|
||
% trap/.style={trapezium, draw, minimum height = 1cm},
|
||
% % rectangle/.style={rectangle, draw, minimum height=1cm, minimum width=2cm, align=center},
|
||
% arrow/.style={->, thick},
|
||
% scale=0.5,
|
||
% ]
|
||
|
||
% % Encoder trapezium
|
||
% \node[trap, trapezium left angle=110, trapezium right angle=110, rotate = 90] (encoder) {Encodeur};
|
||
|
||
% % Latent space parameters
|
||
% \node[rectangle, fill=yellow, opacity=0.4, below=of encoder] (mu) {$\mu$};
|
||
% \node[rectangle, fill=blue, opacity=0.3, below=of mu] (sigma) {$\sigma$};
|
||
% \node[rectangle, fill=green, opacity=0.3, below=of sigma, rotate = 90] (sample) {Échantillon};
|
||
|
||
% % Decoder trapezium
|
||
% \node[trap, trapezium left angle=70, trapezium right angle=70, below=of sample, rotate = 90] (decoder) {Décodeur};
|
||
|
||
% % Connections
|
||
% \draw[arrow] (encoder.south) -- (mu.north);
|
||
% \draw[arrow] (encoder.south) -- (sigma.north);
|
||
% \draw[arrow] (mu.south) -- (sample.north);
|
||
% \draw[arrow] (sigma.south) -- (sample.north);
|
||
% \draw[arrow] (sample.south) -- (decoder.north);
|
||
|
||
% % Input and output labels
|
||
% \node[left= 2cm of encoder] (input) {Input $x$};
|
||
% \node[right= 2cm of decoder] (output) {Output $\hat{x}$};
|
||
|
||
% \draw[arrow] (input.east) -- (encoder.west);
|
||
% \draw[arrow] (decoder.east) -- (output.west);
|
||
|
||
% \end{tikzpicture}
|
||
\includegraphics[scale=0.17]{img/vae.png}
|
||
\caption{Schéma d'\cite{AutoencodeurVariationnel2024}}
|
||
\label{fig:schema-vgae}
|
||
\end{figure}
|
||
|
||
\footnotesize
|
||
\only<1>{
|
||
\begin{block}{\small Problème des graphes pour les réseaux de neurones :
|
||
\textbf{prise en compte des invariances}}
|
||
\begin{itemize}
|
||
\item Utilisation des \emph{Graph Convolutional Networks} de
|
||
\cite{kipfSemiSupervisedClassificationGraph2017} résout ce problème.
|
||
\item Utiliser des \emph{Variational AutoEncoder} de
|
||
\cite{kingmaAutoEncodingVariationalBayes2022c} et de
|
||
\cite{kipfVariationalGraphAutoEncoders2016} pour projection des
|
||
n\oe uds dans un espace latent.
|
||
\item Explorer le \emph{Deep Latent Space Model}
|
||
de~\cite{yangDeepLatentSpace2024}
|
||
\end{itemize}
|
||
\end{block}
|
||
}
|
||
\only<2>{
|
||
\begin{block}{Idées à explorer pour la comparaison de réseaux}
|
||
\begin{itemize}
|
||
\item \emph{Embedding} commun des n\oe uds des réseaux à comparer sur un même espace
|
||
latent. Puis comparaison des distributions ainsi obtenues.
|
||
\item Encodeurs différents mais un décodeur commun pour comparer les
|
||
représentations obtenues
|
||
\end{itemize}
|
||
\end{block}
|
||
}
|
||
|
||
|
||
\end{frame}
|
||
|
||
|
||
|
||
% \begin{frame}[allowframebreaks]{\emph{Graph Neural Networks}}
|
||
% \begin{figure}
|
||
% \includegraphics[scale=0.4]{img/Message_passing.pdf}
|
||
% \caption{Illustration du \emph{message passing} au sein d'un graphe.\footnote{Figure adaptée de \cite{sanchez-lengelingGentleIntroductionGraph2021} par Emré Anakok.}}
|
||
% \end{figure}
|
||
|
||
|
||
% Avec les \emph{Graph Convolutional Networks} (GCN) \emph{embedding} de graphes
|
||
% \parencite{velickovicGraphAttentionNetworks2018,hamiltonInductiveRepresentationLearning,
|
||
% xuHowPowerfulAre2019} tenant compte des invariances.
|
||
|
||
% \begin{block}{Règle de propagation d'une couche de GCN}
|
||
% \begin{equation}
|
||
% H^{(l+1)} = \sigma \bigl( \tilde{D}^{\frac{1}{2}} \tilde{A} \tilde{D}^{\frac{1}{2}} H^{(l)} W^{(l)} \bigr),
|
||
% \end{equation}
|
||
% tirée de \cite{kipfSemiSupervisedClassificationGraph2017}.
|
||
% \end{block}
|
||
% \begin{itemize}
|
||
% \item Utiliser des \emph{Variational Auto-Encoder} (VAE)
|
||
% \parencite{
|
||
% kipfVariationalGraphAutoEncoders2016,
|
||
% kipfSemiSupervisedClassificationGraph2017} et
|
||
% résume le réseau par une distribution. Calculer distance de
|
||
% Gromov-Wasserstein pour comparaison et classification.\\
|
||
|
||
% Un des avantages principaux est le \emph{passage à l'échelle} de ces méthodes
|
||
% permettant de traiter des réseaux de plus grande taille.
|
||
% \end{itemize}
|
||
|
||
% \end{frame}
|
||
|
||
\subsection[Axe 3]{Axe 3 : Inférence jointe de réseaux}
|
||
\label{sec:axe-3}
|
||
\begin{frame}
|
||
\begin{columns}
|
||
\begin{column}{0.6\textwidth}
|
||
\begin{table}[t]
|
||
\centering
|
||
\begin{tabular}{cccc}
|
||
\hline
|
||
& $OTU_1$ & \dots & $OTU_p$ \\
|
||
\hline
|
||
Éch. 1 & $X_{1,1}$ & \dots & $X_{1,p} = 500$ \\
|
||
\vdots & \vdots & & \vdots \\
|
||
Éch. n & $X_{n,1} = 10$ & \dots & $X_{n,p}$ \\
|
||
\hline
|
||
\end{tabular}
|
||
\caption{Table d'OTU synthétique}
|
||
\label{tab:otu-synthetiques}
|
||
\end{table}
|
||
\end{column}
|
||
|
||
\begin{column}{0.4\textwidth}
|
||
\begin{figure}[t]
|
||
\centering
|
||
TODO Ici une image avec des liens de probas proches pour faire commentaire
|
||
% \includegraphics[scale=0.25]{img/plot_model_function_eps.png}
|
||
\caption{Réseau de co-occurence inféré}
|
||
\label{fig:otu-synthetiques}
|
||
\end{figure}
|
||
\end{column}
|
||
\end{columns}.
|
||
|
||
\begin{itemize}
|
||
\item Avènement des techniques de séquençage et donc disponibilité des
|
||
OTU\footnote{Unité Taxonomique Opérationnelle}
|
||
\item Incertitude d'inférence disponible mais négligée par la suite,
|
||
important pour les réseaux microbiens seulement inférés
|
||
\item Autre limites et détails
|
||
dans~\cite{matchadoNetworkAnalysisMethods2021}
|
||
\end{itemize}
|
||
|
||
\end{frame}
|
||
|
||
\begin{frame}{Idées à explorer pour l'inférence jointe de réseaux}
|
||
\begin{itemize}
|
||
\item Avec $M$ tableaux d'OTU, on peut supposer :
|
||
\begin{block}{Modèle hiérarchique}
|
||
\begin{align*}
|
||
\forall m \in [\![1,M]\!],~ & X_1^m, \dots, X_p^m \rightsquigarrow \mathcal{M}(Y^m) & \\
|
||
& Y^m \rightsquigarrow LBM(\pi, \rho, \alpha) \text{ ou } Y^m \rightsquigarrow DLSM(f_D, f_E) &
|
||
\end{align*}
|
||
\end{block}
|
||
\item Réussir à mettre en évidence des bactéries aux rôles fonctionnels
|
||
proches selon des conditions d'expériences différentes en tenant
|
||
compte de l'incertitude d'inférence
|
||
\item Formaliser une méthode pour déterminer si le changement d'unité
|
||
taxonomique change la structure
|
||
\end{itemize}
|
||
\end{frame}
|
||
\section{Organisation de la thèse}
|
||
\label{sec:organisation-these}
|
||
|
||
\begin{frame}
|
||
\begin{block}{Planning prévisionnel de la thèse}
|
||
\begin{figure}[ht]
|
||
\centering
|
||
\begin{chronology}[1]{2024}{2028}{\textwidth}[110ex]
|
||
\eventspan {\decimaldate{1}{10}{2024}}{\decimaldate{1}{6}{2025}}%
|
||
{\small\textbf{\color{blue} Collections \& modèles à variables latentes}}[blue][.3][0.1]
|
||
\eventspan {\decimaldate{1}{5}{2025}}{\decimaldate{1}{10}{2026}}%
|
||
{\textbf{\color{red} \emph{Embedding} de n\oe uds par \emph{Deep Learning}}}[red][.3][0.1]
|
||
\eventspan {\decimaldate{1}{3}{2026}}{\decimaldate{1}{4}{2027}}%
|
||
{\textbf{\color{ao(english)} Inférence jointe de réseaux}}[ao(english)][.3][0.1]
|
||
\eventspan {\decimaldate{1}{4}{2027}}{\decimaldate{1}{10}{2027}}%
|
||
{\textbf{\color{gray} Rédaction du manuscrit}}[gray][.3][0.1][b]
|
||
\end{chronology}
|
||
\caption{Chronologie prévue}
|
||
\label{fig:chronologie}
|
||
\end{figure}
|
||
\end{block}
|
||
\begin{block}{Financement}
|
||
L'INRAE, par le département MathNum accorde déjà 50\% des financements
|
||
de la thèse.
|
||
\end{block}
|
||
\centering
|
||
\Large Merci pour votre attention.
|
||
\end{frame} |