Bilan semaine 25 2025 : 16 juin - 20 juin

colBiSBM
inférence
GNN
Auteur·rice
Affiliation

Louis Lacoste

MIA Paris-Saclay, INRAE, AgroParisTech, Université Paris-Saclay

Date de publication

20 juin 2025

Modifié

23 décembre 2025

TODO List

  • Pour clustering de collections sur données réelles :
    → L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).

    • ✅ Si plusieurs clustering possibles les tester et sélectionner le meilleur
    • ✅ Ré-ajuster les bonnes partitions.
    • ❓Je n’arrive plus à reproduire le bug pour l’inférence…
  • Oui c’est bien le cas Clustering descendant & ascendant : vérifier qu’au cours du temps le BICL_{asc} \geq BICL_{desc}

  • Creuser et explorer avec easy16s !

  • ✅ Comparer les perfs du VAE sur Baldock avec colBiSBM par exemple

AUC values for colBiSBM and VGAE models across cities
AUC
City colBiSBM Untuned VGAE
Bristol 0.798 0.755
Edinburgh 0.836 0.774
Leeds 0.854 0.760
Reading 0.867 0.740
  • Dé-bugger les simulations :

    • ⌛ Inférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.
      • Non ça n’a pas l’air d’être ça. Vérifier si problème de version tidyverse pour vapply sur l’inférence.
      • ⌛Bon le bug ne se reproduit plus… les jobs sont juste trop longs (> 120h) j’ai relancé, il ne reste que 182/972 conditions.
  • Il suffisait de faire la màj soit même… Si problème de parallélisation vient de pb de version future.callr le signaler à MIGALE.

  • Kmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser. Car densités déséquilibrées.

  • Faire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu
Reference 1

Inférence et microbes

  • Lancer colBiSBM sur OTU\times Sample → problème du chargement en mémoire des données à voir
  • Lancer colSBM sur OTU\times OTU
  • Creuser TabNet de Christophe Regouby et les exercices
  • Regarder SPARTA Rennes
  • Lire Papiers compositional data (Aitchison et al. intro)
  • Lire article multi-niveaux Saint-Clair
  • Demander à JA si elle connaît des réseaux d’interactions connus par les experts (idée d’intégrer une connaissance experte et de voir les différences de structure par rapport à celle attendue)
  • Ecrire et étudier les modèles pour différents niveaux taxonomiques. \begin{align*} i \rightarrow &~N^1_i \subseteq N^2_i \subseteq N^3_i & \text{Taxonomie}\\ Z^0_i \overset{?}{=} & Z^1_i \overset{?}{=} Z^2_i \overset{?}{=} Z^3_i & \text{Groupes fonctionnels} \end{align*}

Lecture en cours

OT

  • Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes
  • Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.
  • Nenna (s. d.a)

Inférence de graphes

  • Matchado et al. (2021) ➡️ Nos données étant compositionnelles il faut utiliser:
    • CCLasso et SparCC
    • HARMONIES pour zéro inflation (Binomiale négative), COZINE centered log ratio transformation compositionnalité, zéro inflation et forte précision
    • MixMPLN pour générer K réseaux issus de K Poisson log Normal
    • mLDM peut enlever les arêtes indirectes.
  • NetComi agrège plusieurs méthodes tout en permettant l’analyse différentielle !

Si pas compositionnelles :

  • Meta-Network pour arêtes indirectes et non linéaires
  • Environmentally-Driven Edge detection pour corriger les effets de l’environnement

A discuter

Inférence

  • pbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)

Combine networks at different taxonomic levels

  • Inférence + GREMLINS

Les références

Matchado, Monica Steffi, Michael Lauber, Sandra Reitmeier, Tim Kacprowski, Jan Baumbach, Dirk Haller, et Markus List. 2021. « Network Analysis Methods for Studying Microbial Communities: A Mini Review ». Computational and Structural Biotechnology Journal 19 (janvier): 2687‑98. https://doi.org/10.1016/j.csbj.2021.05.001.
Mazelet, Sonia, Rémi Flamary, et Bertrand Thirion. s. d. « Unsupervised Learning for Optimal Transport Plan Prediction Between Unbalanced Graphs ».
Nenna, Luca. s. d.a. « Lecture 1 Monge and Kantorovich Problems: From Primal to Dual ».
———. s. d.b. « Lecture 2: Entropic Optimal Transport ».