audition-these/principal.tex

\section{Parcours}
\label{sec:parcours}
\begin{frame}{Formations}

    \begin{itemize}
        \item 2018--2020, Classe Préparatoire BCPST
        \item 2020--2022, 1ère et 2ème année en formation Ingénieur
              AgroParisTech\\
              {\small Cours optionnels suivis : statistiques spatiales,
              mathématiques pour la santé, ingénierie par la simulation informatique \dots}
        \item 2022--2023, Année de césure
        \item 2023--2024, M2 Mathématiques pour les Sciences du Vivant,
              Université Paris-Saclay\\
              {\small UC à choix 2\ieme semestre : modèles à variables
              latentes, statistiques spatiales et méthodes de statistiques en grandes dimension}

    \end{itemize}

\end{frame}
\begin{frame}{Expériences professionnelles}

    \begin{itemize}
        \item 2022 Mai--Déc., Stage assistant ingénieur en Qualité chez
              Eurofins Food France.

        \item 2023 Janv.--Juillet, Détection de structures dans des collections de
              réseaux bipartites et écriture du package implémentant la méthode.
              Stage dans l’UMR MIA Paris-Saclay, supervisé par Pierre Barbillon.

        \item 2024 Avril--Sept., Détection de structures et clustering de réseaux
              écologiques. Stage dans l’UMR MIA Paris-Saclay, supervisé par
              Pierre Barbillon et Sophie Donnet.

    \end{itemize}

\end{frame}


\section{Sujet de thèse}

\begin{frame}
    \frametitle{Contexte écologique}
    \begin{itemize}
        \item Nombreux réseaux disponibles \parencite{WebLifeEcological} pour interactions similaires. Par exemple,
              interactions proies-prédateurs, plantes-pollinisateurs \dots
        \item Suivi biodiversité, analyse de robustesse et risque d'effondrement.
              \begin{columns}
                  \begin{column}{0.6\textwidth}
                      \begin{figure}[ht]
                          \centering
                          \begin{tikzpicture}[scale=.65]
                              \input{figures/plantpollinatornetwork.tex}
                          \end{tikzpicture}
                          \caption{Exemple d'un réseau plantes-pollinisateurs}
                          \label{fig:plantes-pollin}

                      \end{figure}
                  \end{column}
                  \begin{column}{0.39\textwidth}
                      \centering
                      \begin{align*}
                          X = \begin{pmatrix}
                                  1 & 1 & 1 & 1 & 0 & 0 \\
                                  0 & 0 & 0 & 1 & 0 & 1 \\
                                  1 & 0 & 0 & 0 & 1 & 0 \\
                                  0 & 0 & 0 & 0 & 1 & 0
                              \end{pmatrix}
                      \end{align*}
                      \footnotesize
                      Matrice d'adjacence associée
                  \end{column}
              \end{columns}
        \item En écologie microbienne réseaux permettent le suivi de la
              qualité des sols.
    \end{itemize}

\end{frame}

\begin{frame}{Contexte mathématique}


    Détection de structure\footnote{L'organisation du réseau.} pour un unique
    réseau bien connu avec par exemple :
    \begin{itemize}
        \item Modèles de \emph{clustering} à variables latentes.
        \item \emph{Embedding} par apprentissage profond.
        \item Et bien d'autres méthodes.
              \note[item]{Par exemple la détection de communauté, les calculs de métriques comme la centralité}
    \end{itemize}

    Mais des motivations pour considérer des collections :
    \begin{itemize}
        \item Espèces différentes, rôles analogues.
              % Des espèces différentes dans plusieurs réseaux pourrait
              % remplir des rôles similaires
        \item Transfert d'informations grands vers petits réseaux.
              % Les petits réseaux pourraient bénéficier d'une estimation
              %     avec des réseaux plus grands et révéler une structure plus
              %     fine.
              % Certains réseaux étant moins bien échantillonnés que
              %     d'autre une prise en compte en collection de réseaux pourrait
              %     aider à transférer de l'information
        \item Regrouper les réseaux selon leur similarité (\emph{clustering}
              de réseaux).
    \end{itemize}
\end{frame}

\subsection[Axe 1]{Axe 1 : Modèles à variables
    latentes pour une collection de réseaux bipartites}
\label{sec:axe-1}

\begin{frame}
    \frametitle{Latent Block Model (LBM)}
    Proposé par~\cite{govaertEMAlgorithmBlock2005}.
    \begin{columns}
        \begin{column}{0.40\linewidth}
            \begin{figure}[H]
                \center
                \begin{tikzpicture}[scale=0.35]
                    \input{figures/lbm.tex}
                \end{tikzpicture}
                \caption{Exemple de LBM\footnotemark}
                \label{fig:LBMvisu-principal}
            \end{figure}
        \end{column}
        \footnotetext[2]{Que j'appelle par la suite BiSBM}
        \begin{column}{0.51\linewidth}
            \newline
            Pour \begin{itemize}
                \item $Q_1 =
                          |\{{\color{blueind}\bullet},{\color{cyanind}\bullet},{\color{electricblue}\bullet}\}|$
                      blocs fixés en ligne
                \item $Q_2 =
                          |\{{\color{burntorange}\bullet},{\color{goldenyellow}\bullet},{\color{peach}\bullet}\}|$
                      blocs fixés en colonne
            \end{itemize}
            \begin{block}{Paramètres}
                \begin{itemize}
                    \item $\pi_{\bullet} = \mathbb{P}(Z_i = \bullet)$ en ligne
                          et $\rho_{\bullet} = \mathbb{P}(W_j = \bullet)$ en colonne
                    \item
                          $\alpha_{{\color{blueind}\bullet}{\color{burntorange}\bullet}} =
                              \mathbb{P}(X_{ij} = 1 | Z_i = {\color{blueind}\bullet}, W_j =
                              {\color{burntorange}\bullet})$
                \end{itemize}
            \end{block}
        \end{column}
    \end{columns}
\end{frame}

\begin{frame}
    \frametitle{Collections bipartites}
    \begin{center}
        \begin{adjustbox}{trim=0 0 1 1.5cm}
            \input{figures/collbm.tex}
        \end{adjustbox}
    \end{center}

    \only<1>{
        \begin{block}{Modèle $iid$-colBiSBM}
            $$\forall m \in [\![ 1, M ]\!],  Y^m \sim LBM_{n^m_1, n^m_2} (\pi, \rho, \alpha)$$
        \end{block}
    }
    \only<2>{
        \begin{block}{Modèle $\pi\rho$-colBiSBM}
            $$\forall m \in [\![ 1, M ]\!],  Y^m \sim LBM_{n^m_1, n^m_2} (\pi^{\color{red}m}, \rho^{\color{red}m}, \alpha)$$
        \end{block}
    }
\end{frame}
\begin{frame}{Apport déjà réalisé}
    \begin{itemize}
        \item Écriture du modèle colBiSBM.
        \item Dérivation des formules d'inférence et d'un critère de sélection
              de modèle par vraisemblance pénalisée (choix du nombre de blocs).
        \item Implémentation des formules et du critère et développement
              algorithmique pour l'exploration de l'espace de paramètres.
              \note[item]{Principalement pendant mon premier stage}
        \item Développement d'une méthode de partitionnement d'une large
              collection de réseaux basée sur la maximisation d'un critère de
              sélection de modèle.
        \item Implémentation du code intégrée au package\footnote{
                  \scalebox{0.8}{\faGithub~
                      \url{https://github.com/Chabert-Liddell/colSBM}}} \emph{colSBM}.
              \note[item]{Pendant mon stage actuel}
    \end{itemize}

\end{frame}

\begin{frame}
    \frametitle{Application du \emph{clustering}, données plantes pollinisateurs}
    \small
    Voici des résultats du modèle \emph{iid-colBiSBM} sur des données
    plantes-pollinisateurs (\cite{doreRelativeEffectsAnthropogenic2021}
    et~\cite{thebaultDatabasePlantpollinatorNetworks2020})
    % DONE Ajouter un tableau avec le nombre de réseaux dans chaque sous-collection
    \begin{columns}
        \begin{column}{0.49\linewidth}
            \begin{figure}[H]
                \includegraphics[width=0.35\textwidth]{img/iid-meso-1.png}
                \includegraphics[width=0.30\textwidth]{img/iid-meso-2.png}
                \includegraphics[width=0.30\textwidth]{img/iid-meso-3.png}
                \includegraphics[width=0.35\textwidth]{img/iid-meso-4.png}
                \includegraphics[width=0.30\textwidth]{img/iid-meso-5.png}
                \caption{Connectivités de la partition}
            \end{figure}
        \end{column}
        \begin{column}{0.49\linewidth}
            \includegraphics[scale=0.30]{img/annual_time_span_vs_iid.png}

            \begin{center}
                \begin{table}
                    \tiny
                    \begin{tabular}{ |c|c|c|c|c|c|c| }
                        \hline
                        \thead{N°de      \\collection} & 1 & 2 & 3 & 4 & 5  & \thead{Total} \\
                        \hline
                        \thead{Nombre de \\réseaux} & 38 & 45 & 1 & 20 & 19 & 123\\
                        \hline
                    \end{tabular}
                \end{table}

            \end{center}
        \end{column}
    \end{columns}
\end{frame}

\begin{frame}{À faire}
    \begin{itemize}
        \item Finaliser l'analyse sur données réelles
              commencée sur \cite{doreRelativeEffectsAnthropogenic2021,
                  thebaultDatabasePlantpollinatorNetworks2020} avec les
              interprétations des écologues en vue d'une publication.
              \note[item]{Dans \emph{Methods in Ecology and Evolution}}
        \item Preuve d'identifiabilité du modèle
              \parencite{chabert-liddellLearningCommonStructures2024,
                  celisseConsistencyMaximumlikelihoodVariational2012,
                  keribinEstimationSelectionLatent2015,
                  braultCoclusteringLatentBloc2015}.
              \note[item]{Car les blocs vides du modèles $\pi\rho$ posent
                  soucis.}

    \end{itemize}

\end{frame}

\subsection[Axe 2]{Axe 2 : Embedding de n\oe uds par
    apprentissage profond pour comparaison des topologies de réseaux}
\label{sec:axe-2}
\begin{frame}{\emph{Graph Neural Networks} et \emph{Variational AutoEncoder}}

    \begin{figure}
        \centering
        % \begin{tikzpicture}[
        %     % node distance=2cm and 1cm,
        %     trap/.style={trapezium, draw, minimum height = 1cm},
        %     % rectangle/.style={rectangle, draw, minimum height=1cm, minimum width=2cm, align=center},
        %     arrow/.style={->, thick},
        %     scale=0.5,
        % ]

        % % Encoder trapezium
        % \node[trap, trapezium left angle=110, trapezium right angle=110, rotate = 90] (encoder) {Encodeur};

        % % Latent space parameters
        % \node[rectangle, fill=yellow, opacity=0.4, below=of encoder] (mu) {$\mu$};
        % \node[rectangle, fill=blue, opacity=0.3, below=of mu] (sigma) {$\sigma$};
        % \node[rectangle, fill=green, opacity=0.3, below=of sigma, rotate = 90] (sample) {Échantillon};

        % % Decoder trapezium
        % \node[trap, trapezium left angle=70, trapezium right angle=70, below=of sample, rotate = 90] (decoder) {Décodeur};

        % % Connections
        % \draw[arrow] (encoder.south) -- (mu.north);
        % \draw[arrow] (encoder.south) -- (sigma.north);
        % \draw[arrow] (mu.south) -- (sample.north);
        % \draw[arrow] (sigma.south) -- (sample.north);
        % \draw[arrow] (sample.south) -- (decoder.north);

        % % Input and output labels
        % \node[left= 2cm of encoder] (input) {Input $x$};
        % \node[right= 2cm of decoder] (output) {Output $\hat{x}$};

        % \draw[arrow] (input.east) -- (encoder.west);
        % \draw[arrow] (decoder.east) -- (output.west);

        % \end{tikzpicture}
        \includegraphics[scale=0.17]{img/vae.png}
        \caption{Schéma d'\cite{AutoencodeurVariationnel2024}}
        \label{fig:schema-vgae}
    \end{figure}

    \footnotesize
    \only<1>{
        \begin{block}{\small Problème des graphes pour les réseaux de neurones :
                \textbf{prise en compte des invariances}}
            \begin{itemize}
                \item Utilisation des \emph{Graph Convolutional Networks} de
                      \cite{kipfSemiSupervisedClassificationGraph2017} résout ce problème.
                \item Utiliser des \emph{Variational AutoEncoder} de
                      \cite{kingmaAutoEncodingVariationalBayes2022c} et de
                      \cite{kipfVariationalGraphAutoEncoders2016} pour projection des
                      n\oe uds dans un espace latent.
                \item Explorer le \emph{Deep Latent Space Model}
                      de~\cite{yangDeepLatentSpace2024}
            \end{itemize}
        \end{block}
    }
    \only<2>{
        \begin{block}{Idées à explorer pour la comparaison de réseaux}
            \begin{itemize}
                \item \emph{Embedding} commun des n\oe uds des réseaux à comparer sur un même espace
                      latent. Puis comparaison des distributions ainsi obtenues.
                \item Encodeurs différents mais un décodeur commun pour comparer les
                      représentations obtenues
            \end{itemize}
        \end{block}
    }


\end{frame}


% \begin{frame}[allowframebreaks]{\emph{Graph Neural Networks}}
%     \begin{figure}
%         \includegraphics[scale=0.4]{img/Message_passing.pdf}
%         \caption{Illustration du \emph{message passing} au sein d'un graphe.\footnote{Figure adaptée de \cite{sanchez-lengelingGentleIntroductionGraph2021} par Emré Anakok.}}
%     \end{figure}


%     Avec les \emph{Graph Convolutional Networks} (GCN) \emph{embedding} de graphes
%     \parencite{velickovicGraphAttentionNetworks2018,hamiltonInductiveRepresentationLearning,
%         xuHowPowerfulAre2019} tenant compte des invariances.

%     \begin{block}{Règle de propagation d'une couche de GCN}
%         \begin{equation}
%             H^{(l+1)} = \sigma \bigl( \tilde{D}^{\frac{1}{2}} \tilde{A} \tilde{D}^{\frac{1}{2}} H^{(l)} W^{(l)}  \bigr),
%         \end{equation}
%         tirée de \cite{kipfSemiSupervisedClassificationGraph2017}.
%     \end{block}
%     \begin{itemize}
%         \item Utiliser des \emph{Variational Auto-Encoder} (VAE)
%               \parencite{
%                   kipfVariationalGraphAutoEncoders2016,
%                   kipfSemiSupervisedClassificationGraph2017} et
%               résume le réseau par une distribution. Calculer distance de
%               Gromov-Wasserstein pour comparaison et classification.\\

%               Un des avantages principaux est le \emph{passage à l'échelle} de ces méthodes
%               permettant de traiter des réseaux de plus grande taille.
%     \end{itemize}

% \end{frame}

\subsection[Axe 3]{Axe 3 : Inférence jointe de réseaux}
\label{sec:axe-3}
\begin{frame}
    \begin{columns}
        \begin{column}{0.6\textwidth}
            \begin{table}[t]
                \centering
                \begin{tabular}{cccc}
                    \hline
                           & $OTU_1$        & \dots & $OTU_p$         \\
                    \hline
                    Éch. 1 & $X_{1,1}$      & \dots & $X_{1,p} = 500$ \\
                    \vdots & \vdots         &       & \vdots          \\
                    Éch. n & $X_{n,1} = 10$ & \dots & $X_{n,p}$       \\
                    \hline
                \end{tabular}
                \caption{Table d'OTU synthétique}
                \label{tab:otu-synthetiques}
            \end{table}
        \end{column}

        \begin{column}{0.4\textwidth}
            \begin{figure}[t]
                \centering
                TODO Ici une image avec des liens de probas proches pour faire commentaire
                % \includegraphics[scale=0.25]{img/plot_model_function_eps.png}
                \caption{Réseau de co-occurence inféré}
                \label{fig:otu-synthetiques}
            \end{figure}
        \end{column}
    \end{columns}.

    \begin{itemize}
        \item Avènement des techniques de séquençage et donc disponibilité des
              OTU\footnote{Unité Taxonomique Opérationnelle}
        \item Incertitude d'inférence disponible mais négligée par la suite,
              important pour les réseaux microbiens seulement inférés
        \item Autre limites et détails
              dans~\cite{matchadoNetworkAnalysisMethods2021}
    \end{itemize}

\end{frame}

\begin{frame}{Idées à explorer pour l'inférence jointe de réseaux}
    \begin{itemize}
        \item Avec $M$ tableaux d'OTU, on peut supposer :
              \begin{block}{Modèle hiérarchique}
                  \begin{align*}
                      \forall m \in [\![1,M]\!],~ & X_1^m, \dots, X_p^m \rightsquigarrow \mathcal{M}(Y^m)                                       & \\
                                                  & Y^m \rightsquigarrow LBM(\pi, \rho, \alpha) \text{ ou } Y^m \rightsquigarrow DLSM(f_D, f_E) &
                  \end{align*}
              \end{block}
        \item Réussir à mettre en évidence des bactéries aux rôles fonctionnels
              proches selon des conditions d'expériences différentes en tenant
              compte de l'incertitude d'inférence
        \item Formaliser une méthode pour déterminer si le changement d'unité
              taxonomique change la structure
    \end{itemize}
\end{frame}
\section{Organisation de la thèse}
\label{sec:organisation-these}

\begin{frame}
    \begin{block}{Planning prévisionnel de la thèse}
        \begin{figure}[ht]
            \centering
            \begin{chronology}[1]{2024}{2028}{\textwidth}[110ex]
                \eventspan {\decimaldate{1}{10}{2024}}{\decimaldate{1}{6}{2025}}%
                {\small\textbf{\color{blue} Collections \& modèles à variables latentes}}[blue][.3][0.1]
                \eventspan {\decimaldate{1}{5}{2025}}{\decimaldate{1}{10}{2026}}%
                {\textbf{\color{red} \emph{Embedding} de n\oe uds par \emph{Deep Learning}}}[red][.3][0.1]
                \eventspan {\decimaldate{1}{3}{2026}}{\decimaldate{1}{4}{2027}}%
                {\textbf{\color{ao(english)} Inférence jointe de réseaux}}[ao(english)][.3][0.1]
                \eventspan {\decimaldate{1}{4}{2027}}{\decimaldate{1}{10}{2027}}%
                {\textbf{\color{gray} Rédaction du manuscrit}}[gray][.3][0.1][b]
            \end{chronology}
            \caption{Chronologie prévue}
            \label{fig:chronologie}
        \end{figure}
    \end{block}
    \begin{block}{Financement}
        L'INRAE, par le département MathNum accorde déjà 50\% des financements
        de la thèse.
    \end{block}
    \centering
    \Large Merci pour votre attention.
\end{frame}