Bilan semaine 29 2025 : 15 juillet - 18 juillet

colBiSBM
inférence
GNN
Auteur·rice
Affiliation

Louis Lacoste

MIA Paris-Saclay, INRAE, AgroParisTech, Université Paris-Saclay

Date de publication

15 juillet 2025

Modifié

15 juillet 2025

TODO List

  • Pour clustering de collections sur données réelles :
    → L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).

    • ❓Je n’arrive plus à reproduire le bug pour l’inférence…
    • 😫 bug encore. S’assurer que ça marche et relancer
  • En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :

    • Donner la matrice identité comme features
    • Corriger les degrés calculés.
  • ✅ Ajouter au tableau comparatif sep BiSBM

  • Pour s’assurer que colBiSBM marche, il faut comparer avec une proportion de :

    • Missing links, ie des faux zéros
    • NA en Missing at random (MAR)
  • Faible performances de l’inférence :

    • Vérifier que les conditions d’identifiabilité des modèles fautifs sont bien remplies.
    • Récupérer des jeux de paramètres et essayer de reproduire les résultats.
  • Clustering sur Doré :

    • Désaggréger les réseaux et relancer le clustering sur certains auteurs.
    • Regarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)
    • Clusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)
    • Si M > 10, alors voir si je retrouve les mêmes résultats que dans les études.
AUC values for colBiSBM, sep-BiSBM and VGAE models across cities
AUC
City colBiSBM sep-BiSBM Untuned VGAE
Bristol 0.841 0.824 1
Edinburgh 0.882 0.883 1
Leeds 0.873 0.852 1
Reading 0.845 0.837 1
  • Regarder les codes Mangal database pour \delta
  • Voir \delta mais additif
\delta additif Bernoulli

En Bernoulli pas de forme analytique non plus : Pour \alpha_{qr}: \sum_{m=1}^M \sum_{i=1}^{n_1^m} \sum_{j=1}^{n_2^m} \tau_{iq}^{1,m}\tau_{jr}^{2,m}(\frac{X_{ij}^m}{\alpha_{qr}} + \frac{(1-X_{ij}^m)}{\alpha_{qr} + \delta_m -1}) = 0 \Leftrightarrow \sum_m \frac{e^m_{qr}}{\alpha_{qr}} + \frac{1}{\alpha_{qr}+\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0

Et pour \delta_m: \sum_{i=1}^{n_1^m} \sum_{j=1}^{n_2^m} \sum_{q=1}^{Q_1} \sum_{r=1}^{Q_2} \tau_{iq}^{1,m}\tau_{jr}^{2,m}(\frac{X_{ij}^m}{\delta_{m}} + \frac{(1-X_{ij}^m)}{\alpha_{qr} + \delta_m -1}) = 0

\delta additif Poisson

Forme analytique mais risque de confusion ? \widehat{\delta_m} = \frac{\sum_{q,r} e^m_{qr}}{\sum_{q,r} n^m_{qr}},~\widehat{\alpha_{qr}} = \frac{\sum_{m} e^m_{qr}}{\sum_{m} n^m_{qr}}

  • Attente retour Pierre pour faire d’autres clustering

  • Regarder la liste des cours du MathSV et de l’Université Paris-Saclay.

  • Inférence finie mais résultats pas fous:

The proportion of dataset where the correct number of blocks is selected.
iid
\pi
\rho
\pi\rho
\epsilon_{\alpha} \bm{1}_{\widehat{Q_1} \lt 4} \bm{1}_{\widehat{Q_1} = 4} \bm{1}_{\widehat{Q_1} \gt 4} \bm{1}_{\widehat{Q_2} \lt 4} \bm{1}_{\widehat{Q_2} = 4} \bm{1}_{\widehat{Q_2} \gt 4} \bm{1}_{\widehat{Q_1} \lt 4} \bm{1}_{\widehat{Q_1} = 4} \bm{1}_{\widehat{Q_1} \gt 4} \bm{1}_{\widehat{Q_2} \lt 4} \bm{1}_{\widehat{Q_2} = 4} \bm{1}_{\widehat{Q_2} \gt 4} \bm{1}_{\widehat{Q_1} \lt 4} \bm{1}_{\widehat{Q_1} = 4} \bm{1}_{\widehat{Q_1} \gt 4} \bm{1}_{\widehat{Q_2} \lt 4} \bm{1}_{\widehat{Q_2} = 4} \bm{1}_{\widehat{Q_2} \gt 4} \bm{1}_{\widehat{Q_1} \lt 4} \bm{1}_{\widehat{Q_1} = 4} \bm{1}_{\widehat{Q_1} \gt 4} \bm{1}_{\widehat{Q_2} \lt 4} \bm{1}_{\widehat{Q_2} = 4} \bm{1}_{\widehat{Q_2} \gt 4}
0.00 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0
0.03 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0
0.06 0.19 \pm 0.04 0.81 \pm 0.04 0 0.24 \pm 0.04 0.76 \pm 0.04 0 0.02 \pm 0.01 0.33 \pm 0.05 0.65 \pm 0.05 0.26 \pm 0.04 0.74 \pm 0.04 0 0.17 \pm 0.04 0.83 \pm 0.04 0 0.02 \pm 0.01 0.2 \pm 0.04 0.78 \pm 0.04 0.06 \pm 0.02 0.87 \pm 0.03 0.06 \pm 0.02 0.01 \pm 0.01 0.88 \pm 0.03 0.11 \pm 0.03
0.09 0 0.94 \pm 0.02 0.06 \pm 0.02 0 0.91 \pm 0.03 0.09 \pm 0.03 0 0.1 \pm 0.03 0.9 \pm 0.03 0 1 0 0 1 0 0 0.13 \pm 0.03 0.87 \pm 0.03 0 0.87 \pm 0.03 0.13 \pm 0.03 0 0.87 \pm 0.03 0.13 \pm 0.03
0.12 0 0.94 \pm 0.02 0.06 \pm 0.02 0 0.91 \pm 0.03 0.09 \pm 0.03 0 0.26 \pm 0.04 0.74 \pm 0.04 0 1 0 0 1 0 0 0.3 \pm 0.04 0.7 \pm 0.04 0 0.84 \pm 0.04 0.16 \pm 0.04 0 0.83 \pm 0.04 0.17 \pm 0.04
0.15 0 0.85 \pm 0.03 0.15 \pm 0.03 0 0.86 \pm 0.03 0.14 \pm 0.03 0 0.34 \pm 0.05 0.66 \pm 0.05 0 1 0 0 1 0 0 0.3 \pm 0.04 0.7 \pm 0.04 0 0.81 \pm 0.04 0.19 \pm 0.04 0 0.8 \pm 0.04 0.2 \pm 0.04
0.18 0 0.87 \pm 0.03 0.13 \pm 0.03 0 0.84 \pm 0.04 0.16 \pm 0.04 0 0.36 \pm 0.05 0.64 \pm 0.05 0 1 0 0 1 0 0 0.35 \pm 0.05 0.65 \pm 0.05 0 0.87 \pm 0.03 0.13 \pm 0.03 0 0.82 \pm 0.04 0.18 \pm 0.04
0.21 0 0.92 \pm 0.03 0.08 \pm 0.03 0 0.89 \pm 0.03 0.11 \pm 0.03 0 0.4 \pm 0.05 0.6 \pm 0.05 0 1 0 0 1 0 0 0.39 \pm 0.05 0.61 \pm 0.05 0 0.84 \pm 0.04 0.16 \pm 0.04 0 0.84 \pm 0.04 0.16 \pm 0.04
0.24 0 0.88 \pm 0.03 0.12 \pm 0.03 0 0.85 \pm 0.03 0.15 \pm 0.03 0 0.47 \pm 0.05 0.53 \pm 0.05 0 1 0 0 0.99 \pm 0.01 0.01 \pm 0.01 0 0.4 \pm 0.05 0.6 \pm 0.05 0 0.85 \pm 0.03 0.15 \pm 0.03 0 0.82 \pm 0.04 0.18 \pm 0.04
  • Plutôt regarder pour introduire un modèle \delta-colBiSBM.

    • Ajouter le produit par \delta là où nécessaire
    • Ajouter les modèles \delta, \delta\pi, \dots et les blocs conditionnels
    • Ajouter les tests unitaires adéquats et les vérifier
  • Regarder Largest gap sur réseaux Doré

  • Essayer clustering sur supinfo

  • Homogénéiser notations dans les supplementaries

  • Faire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu
Reference 1
  • Creuser et explorer avec easy16s !

Inférence et microbes

  • Lancer colBiSBM sur OTU\times Sample → problème du chargement en mémoire des données à voir
  • Lancer colSBM sur OTU\times OTU
  • TabNet pratiquer les exercices
  • Regarder SPARTA Rennes
  • Lire Papiers compositional data (Aitchison et al. intro)
  • Lire article multi-niveaux Saint-Clair
  • Ecrire et étudier les modèles pour différents niveaux taxonomiques. \begin{align*} i \rightarrow &~N^1_i \subseteq N^2_i \subseteq N^3_i & \text{Taxonomie}\\ Z^0_i \overset{?}{=} & Z^1_i \overset{?}{=} Z^2_i \overset{?}{=} Z^3_i & \text{Groupes fonctionnels} \end{align*}

Causalité

Plus sur le temps long, à regarder

  • GT causalité
  • Daria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)

Biblio à faire

  • Regarder Transport optimal graphes bipartite.
  • HDR VB, chapitre de modèle à blocs latents, bcp travaillé sur bipartite OT, comparaison clustering, adaption ARI, Largest Gap

Lectures en cours 📚

OT

  • Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes | Regarder si regularization entropique ne marche pas bien pour le graphe.
  • Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.
  • Nenna (s. d.a)

Inférence de graphes

  • Aitchison (1982), en cours

  • ❗📖 Payne et al. (2023) sur MixMPLN

Causalité

Largest Gaps

  • ❗📖 Brault et Channarond (2023)
  • ❗📖 Channarond, Daudin, et Robin (2012) le papier qui introduit le Largest Gaps

A discuter

Congés P&S

Thèse

  • Faire préz CSI
  • Faire rapport CSI

Interprétation écologiques résultats de Baldock

  • ⌛ Point avec Elisa, oui on relance

Inférence

  • pbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)

Combine networks at different taxonomic levels

  • Inférence + GREMLINS

Les références

Aitchison, J. 1982. « The Statistical Analysis of Compositional Data ». Journal of the Royal Statistical Society. Series B (Methodological) 44 (2): 139‑77. https://www.jstor.org/stable/2345821.
Brault, Vincent, et Antoine Channarond. 2023. « Fast and Consistent Algorithm for the Latent Block Model ». 9 mars 2023. https://doi.org/10.48550/arXiv.1610.09005.
Bystrova, Daria. s. d. « Causal Discovery ».
Channarond, Antoine, Jean-Jacques Daudin, et Stéphane Robin. 2012. « Classification and Estimation in the Stochastic Blockmodel Based on the Empirical Degrees ». Electronic Journal of Statistics 6 (janvier). https://doi.org/10.1214/12-ejs753.
Mazelet, Sonia, Rémi Flamary, et Bertrand Thirion. s. d. « Unsupervised Learning for Optimal Transport Plan Prediction Between Unbalanced Graphs ».
Nenna, Luca. s. d.a. « Lecture 1 Monge and Kantorovich Problems: From Primal to Dual ».
———. s. d.b. « Lecture 2: Entropic Optimal Transport ».
Payne, Andrea, Anjali Silva, Steven J. Rothstein, Paul D. McNicholas, et Sanjeena Subedi. 2023. « Finite Mixtures of Multivariate Poisson-Log Normal Factor Analyzers for Clustering Count Data ». 13 novembre 2023. https://doi.org/10.48550/arXiv.2311.07762.