\section{Parcours} \label{sec:parcours} \begin{frame}{Formations} \begin{itemize} \item 2018--2020, Classe Préparatoire BCPST \item 2020--2022, 1ère et 2ème année en formation Ingénieur AgroParisTech\\ {\small Cours optionnels suivis : statistiques spatiales, mathématiques pour la santé, ingénierie par la simulation informatique \dots} \item 2022--2023, Année de césure \item 2023--2024, M2 Mathématiques pour les Sciences du Vivant, Université Paris-Saclay\\ {\small UC à choix 2\ieme semestre : modèles à variables latentes, statistiques spatiales et méthodes de statistiques en grandes dimension} \end{itemize} \end{frame} \begin{frame}{Expériences professionnelles} \begin{itemize} \item 2022 Mai--Déc., Stage assistant ingénieur en Qualité chez Eurofins Food France. \item 2023 Janv.--Juillet, Détection de structures dans des collections de réseaux bipartites et écriture du package implémentant la méthode. Stage dans l’UMR MIA Paris-Saclay, supervisé par Pierre Barbillon. \item 2024 Avril--Sept., Détection de structures et clustering de réseaux écologiques. Stage dans l’UMR MIA Paris-Saclay, supervisé par Pierre Barbillon et Sophie Donnet. \end{itemize} \end{frame} \section{Sujet de thèse} \begin{frame} \frametitle{Contexte écologique} \begin{itemize} \item Nombreux réseaux disponibles \parencite{WebLifeEcological} pour interactions similaires. Par exemple, interactions proies-prédateurs, plantes-pollinisateurs \dots \item Suivi biodiversité, analyse de robustesse et risque d'effondrement. \begin{columns} \begin{column}{0.6\textwidth} \begin{figure}[ht] \centering \begin{tikzpicture}[scale=.65] \input{figures/plantpollinatornetwork.tex} \end{tikzpicture} \caption{Exemple d'un réseau plantes-pollinisateurs} \label{fig:plantes-pollin} \end{figure} \end{column} \begin{column}{0.39\textwidth} \centering \begin{align*} X = \begin{pmatrix} 1 & 1 & 1 & 1 & 0 & 0 \\ 0 & 0 & 0 & 1 & 0 & 1 \\ 1 & 0 & 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 & 1 & 0 \end{pmatrix} \end{align*} \footnotesize Matrice d'adjacence associée \end{column} \end{columns} \item En écologie microbienne réseaux permettent le suivi de la qualité des sols. \end{itemize} \end{frame} \begin{frame}{Contexte mathématique} Détection de structure\footnote{L'organisation du réseau.} pour un unique réseau bien connu avec par exemple : \begin{itemize} \item Modèles de \emph{clustering} à variables latentes. \item \emph{Embedding} par apprentissage profond. \item Et bien d'autres méthodes. \note[item]{Par exemple la détection de communauté, les calculs de métriques comme la centralité} \end{itemize} Mais des motivations pour considérer des collections : \begin{itemize} \item Espèces différentes, rôles analogues. % Des espèces différentes dans plusieurs réseaux pourrait % remplir des rôles similaires \item Transfert d'informations grands vers petits réseaux. % Les petits réseaux pourraient bénéficier d'une estimation % avec des réseaux plus grands et révéler une structure plus % fine. % Certains réseaux étant moins bien échantillonnés que % d'autre une prise en compte en collection de réseaux pourrait % aider à transférer de l'information \item Regrouper les réseaux selon leur similarité (\emph{clustering} de réseaux). \end{itemize} \end{frame} \subsection[Axe 1]{Axe 1 : Modèles à variables latentes pour une collection de réseaux bipartites} \label{sec:axe-1} \begin{frame} \frametitle{Latent Block Model (LBM)} Proposé par~\cite{govaertEMAlgorithmBlock2005}. \begin{columns} \begin{column}{0.40\linewidth} \begin{figure}[H] \center \begin{tikzpicture}[scale=0.35] \input{figures/lbm.tex} \end{tikzpicture} \caption{Exemple de LBM\footnotemark} \label{fig:LBMvisu-principal} \end{figure} \end{column} \footnotetext[2]{Que j'appelle par la suite BiSBM} \begin{column}{0.51\linewidth} \newline Pour \begin{itemize} \item $Q_1 = |\{{\color{blueind}\bullet},{\color{cyanind}\bullet},{\color{electricblue}\bullet}\}|$ blocs fixés en ligne \item $Q_2 = |\{{\color{burntorange}\bullet},{\color{goldenyellow}\bullet},{\color{peach}\bullet}\}|$ blocs fixés en colonne \end{itemize} \begin{block}{Paramètres} \begin{itemize} \item $\pi_{\bullet} = \mathbb{P}(Z_i = \bullet)$ en ligne et $\rho_{\bullet} = \mathbb{P}(W_j = \bullet)$ en colonne \item $\alpha_{{\color{blueind}\bullet}{\color{burntorange}\bullet}} = \mathbb{P}(X_{ij} = 1 | Z_i = {\color{blueind}\bullet}, W_j = {\color{burntorange}\bullet})$ \end{itemize} \end{block} \end{column} \end{columns} \end{frame} \begin{frame} \frametitle{Collections bipartites} \begin{center} \begin{adjustbox}{trim=0 0 1 1.5cm} \input{figures/collbm.tex} \end{adjustbox} \end{center} \only<1>{ \begin{block}{Modèle $iid$-colBiSBM} $$\forall m \in [\![ 1, M ]\!], Y^m \sim LBM_{n^m_1, n^m_2} (\pi, \rho, \alpha)$$ \end{block} } \only<2>{ \begin{block}{Modèle $\pi\rho$-colBiSBM} $$\forall m \in [\![ 1, M ]\!], Y^m \sim LBM_{n^m_1, n^m_2} (\pi^{\color{red}m}, \rho^{\color{red}m}, \alpha)$$ \end{block} } \end{frame} \begin{frame}{Apport déjà réalisé} \begin{itemize} \item Écriture du modèle colBiSBM. \item Dérivation des formules d'inférence et d'un critère de sélection de modèle par vraisemblance pénalisée (choix du nombre de blocs). \item Implémentation des formules et du critère et développement algorithmique pour l'exploration de l'espace de paramètres. \note[item]{Principalement pendant mon premier stage} \item Développement d'une méthode de partitionnement d'une large collection de réseaux basée sur la maximisation d'un critère de sélection de modèle. \item Implémentation du code intégrée au package\footnote{ \scalebox{0.8}{\faGithub~ \url{https://github.com/Chabert-Liddell/colSBM}}} \emph{colSBM}. \note[item]{Pendant mon stage actuel} \end{itemize} \end{frame} \begin{frame} \frametitle{Application du \emph{clustering}, données plantes pollinisateurs} \small Voici des résultats du modèle \emph{iid-colBiSBM} sur des données plantes-pollinisateurs (\cite{doreRelativeEffectsAnthropogenic2021} et~\cite{thebaultDatabasePlantpollinatorNetworks2020}) % DONE Ajouter un tableau avec le nombre de réseaux dans chaque sous-collection \begin{columns} \begin{column}{0.49\linewidth} \begin{figure}[H] \includegraphics[width=0.35\textwidth]{img/iid-meso-1.png} \includegraphics[width=0.30\textwidth]{img/iid-meso-2.png} \includegraphics[width=0.30\textwidth]{img/iid-meso-3.png} \includegraphics[width=0.35\textwidth]{img/iid-meso-4.png} \includegraphics[width=0.30\textwidth]{img/iid-meso-5.png} \caption{Connectivités de la partition} \end{figure} \end{column} \begin{column}{0.49\linewidth} \includegraphics[scale=0.30]{img/annual_time_span_vs_iid.png} \begin{center} \begin{table} \tiny \begin{tabular}{ |c|c|c|c|c|c|c| } \hline \thead{N°de \\collection} & 1 & 2 & 3 & 4 & 5 & \thead{Total} \\ \hline \thead{Nombre de \\réseaux} & 38 & 45 & 1 & 20 & 19 & 123\\ \hline \end{tabular} \end{table} \end{center} \end{column} \end{columns} \end{frame} \begin{frame}{À faire} \begin{itemize} \item Finaliser l'analyse sur données réelles commencée sur \cite{doreRelativeEffectsAnthropogenic2021, thebaultDatabasePlantpollinatorNetworks2020} avec les interprétations des écologues en vue d'une publication. \note[item]{Dans \emph{Methods in Ecology and Evolution}} \item Preuve d'identifiabilité du modèle \parencite{chabert-liddellLearningCommonStructures2024, celisseConsistencyMaximumlikelihoodVariational2012, keribinEstimationSelectionLatent2015, braultCoclusteringLatentBloc2015}. \note[item]{Car les blocs vides du modèles $\pi\rho$ posent soucis.} \end{itemize} \end{frame} \subsection[Axe 2]{Axe 2 : Embedding de n\oe uds par apprentissage profond pour comparaison des topologies de réseaux} \label{sec:axe-2} \begin{frame}{\emph{Graph Neural Networks} et \emph{Variational AutoEncoder}} \begin{figure} \centering % \begin{tikzpicture}[ % % node distance=2cm and 1cm, % trap/.style={trapezium, draw, minimum height = 1cm}, % % rectangle/.style={rectangle, draw, minimum height=1cm, minimum width=2cm, align=center}, % arrow/.style={->, thick}, % scale=0.5, % ] % % Encoder trapezium % \node[trap, trapezium left angle=110, trapezium right angle=110, rotate = 90] (encoder) {Encodeur}; % % Latent space parameters % \node[rectangle, fill=yellow, opacity=0.4, below=of encoder] (mu) {$\mu$}; % \node[rectangle, fill=blue, opacity=0.3, below=of mu] (sigma) {$\sigma$}; % \node[rectangle, fill=green, opacity=0.3, below=of sigma, rotate = 90] (sample) {Échantillon}; % % Decoder trapezium % \node[trap, trapezium left angle=70, trapezium right angle=70, below=of sample, rotate = 90] (decoder) {Décodeur}; % % Connections % \draw[arrow] (encoder.south) -- (mu.north); % \draw[arrow] (encoder.south) -- (sigma.north); % \draw[arrow] (mu.south) -- (sample.north); % \draw[arrow] (sigma.south) -- (sample.north); % \draw[arrow] (sample.south) -- (decoder.north); % % Input and output labels % \node[left= 2cm of encoder] (input) {Input $x$}; % \node[right= 2cm of decoder] (output) {Output $\hat{x}$}; % \draw[arrow] (input.east) -- (encoder.west); % \draw[arrow] (decoder.east) -- (output.west); % \end{tikzpicture} \includegraphics[scale=0.17]{img/vae.png} \caption{Schéma d'\cite{AutoencodeurVariationnel2024}} \label{fig:schema-vgae} \end{figure} \footnotesize \only<1>{ \begin{block}{\small Problème des graphes pour les réseaux de neurones : \textbf{prise en compte des invariances}} \begin{itemize} \item Utilisation des \emph{Graph Convolutional Networks} de \cite{kipfSemiSupervisedClassificationGraph2017} résout ce problème. \item Utiliser des \emph{Variational AutoEncoder} de \cite{kingmaAutoEncodingVariationalBayes2022c} et de \cite{kipfVariationalGraphAutoEncoders2016} pour projection des n\oe uds dans un espace latent. \item Explorer le \emph{Deep Latent Space Model} de~\cite{yangDeepLatentSpace2024} \end{itemize} \end{block} } \only<2>{ \begin{block}{Idées à explorer pour la comparaison de réseaux} \begin{itemize} \item \emph{Embedding} commun des n\oe uds des réseaux à comparer sur un même espace latent. Puis comparaison des distributions ainsi obtenues. \item Encodeurs différents mais un décodeur commun pour comparer les représentations obtenues \end{itemize} \end{block} } \end{frame} % \begin{frame}[allowframebreaks]{\emph{Graph Neural Networks}} % \begin{figure} % \includegraphics[scale=0.4]{img/Message_passing.pdf} % \caption{Illustration du \emph{message passing} au sein d'un graphe.\footnote{Figure adaptée de \cite{sanchez-lengelingGentleIntroductionGraph2021} par Emré Anakok.}} % \end{figure} % Avec les \emph{Graph Convolutional Networks} (GCN) \emph{embedding} de graphes % \parencite{velickovicGraphAttentionNetworks2018,hamiltonInductiveRepresentationLearning, % xuHowPowerfulAre2019} tenant compte des invariances. % \begin{block}{Règle de propagation d'une couche de GCN} % \begin{equation} % H^{(l+1)} = \sigma \bigl( \tilde{D}^{\frac{1}{2}} \tilde{A} \tilde{D}^{\frac{1}{2}} H^{(l)} W^{(l)} \bigr), % \end{equation} % tirée de \cite{kipfSemiSupervisedClassificationGraph2017}. % \end{block} % \begin{itemize} % \item Utiliser des \emph{Variational Auto-Encoder} (VAE) % \parencite{ % kipfVariationalGraphAutoEncoders2016, % kipfSemiSupervisedClassificationGraph2017} et % résume le réseau par une distribution. Calculer distance de % Gromov-Wasserstein pour comparaison et classification.\\ % Un des avantages principaux est le \emph{passage à l'échelle} de ces méthodes % permettant de traiter des réseaux de plus grande taille. % \end{itemize} % \end{frame} \subsection[Axe 3]{Axe 3 : Inférence jointe de réseaux} \label{sec:axe-3} \begin{frame} \begin{columns} \begin{column}{0.6\textwidth} \begin{table}[t] \centering \begin{tabular}{cccc} \hline & $OTU_1$ & \dots & $OTU_p$ \\ \hline Éch. 1 & $X_{1,1}$ & \dots & $X_{1,p} = 500$ \\ \vdots & \vdots & & \vdots \\ Éch. n & $X_{n,1} = 10$ & \dots & $X_{n,p}$ \\ \hline \end{tabular} \caption{Table d'OTU synthétique} \label{tab:otu-synthetiques} \end{table} \end{column} \begin{column}{0.4\textwidth} \begin{figure}[t] \centering TODO Ici une image avec des liens de probas proches pour faire commentaire % \includegraphics[scale=0.25]{img/plot_model_function_eps.png} \caption{Réseau de co-occurence inféré} \label{fig:otu-synthetiques} \end{figure} \end{column} \end{columns}. \begin{itemize} \item Avènement des techniques de séquençage et donc disponibilité des OTU\footnote{Unité Taxonomique Opérationnelle} \item Incertitude d'inférence disponible mais négligée par la suite, important pour les réseaux microbiens seulement inférés \item Autre limites et détails dans~\cite{matchadoNetworkAnalysisMethods2021} \end{itemize} \end{frame} \begin{frame}{Idées à explorer pour l'inférence jointe de réseaux} \begin{itemize} \item Avec $M$ tableaux d'OTU, on peut supposer : \begin{block}{Modèle hiérarchique} \begin{align*} \forall m \in [\![1,M]\!],~ & X_1^m, \dots, X_p^m \rightsquigarrow \mathcal{M}(Y^m) & \\ & Y^m \rightsquigarrow LBM(\pi, \rho, \alpha) \text{ ou } Y^m \rightsquigarrow DLSM(f_D, f_E) & \end{align*} \end{block} \item Réussir à mettre en évidence des bactéries aux rôles fonctionnels proches selon des conditions d'expériences différentes en tenant compte de l'incertitude d'inférence \item Formaliser une méthode pour déterminer si le changement d'unité taxonomique change la structure \end{itemize} \end{frame} \section{Organisation de la thèse} \label{sec:organisation-these} \begin{frame} \begin{block}{Planning prévisionnel de la thèse} \begin{figure}[ht] \centering \begin{chronology}[1]{2024}{2028}{\textwidth}[110ex] \eventspan {\decimaldate{1}{10}{2024}}{\decimaldate{1}{6}{2025}}% {\small\textbf{\color{blue} Collections \& modèles à variables latentes}}[blue][.3][0.1] \eventspan {\decimaldate{1}{5}{2025}}{\decimaldate{1}{10}{2026}}% {\textbf{\color{red} \emph{Embedding} de n\oe uds par \emph{Deep Learning}}}[red][.3][0.1] \eventspan {\decimaldate{1}{3}{2026}}{\decimaldate{1}{4}{2027}}% {\textbf{\color{ao(english)} Inférence jointe de réseaux}}[ao(english)][.3][0.1] \eventspan {\decimaldate{1}{4}{2027}}{\decimaldate{1}{10}{2027}}% {\textbf{\color{gray} Rédaction du manuscrit}}[gray][.3][0.1][b] \end{chronology} \caption{Chronologie prévue} \label{fig:chronologie} \end{figure} \end{block} \begin{block}{Financement} L'INRAE, par le département MathNum accorde déjà 50\% des financements de la thèse. \end{block} \centering \Large Merci pour votre attention. \end{frame}