124 lines
No EOL
5.1 KiB
Text
124 lines
No EOL
5.1 KiB
Text
---
|
|
title: "Bilan semaine 25 2025 : 16 juin - 20 juin"
|
|
categories: [colBiSBM, inférence, GNN]
|
|
date: 2025 06 20
|
|
bibliography: references.bib
|
|
---
|
|
|
|
## TODO List
|
|
|
|
- Pour clustering de collections sur données réelles :
|
|
→ L'intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs $(Q_1,Q_2)$.
|
|
- ✅ Si plusieurs clustering possibles les tester et sélectionner le
|
|
meilleur
|
|
- ✅ Ré-ajuster les bonnes partitions.
|
|
- ❓Je n'arrive plus à reproduire le bug pour l'inférence...
|
|
|
|
- ✅ **Oui c'est bien le cas** Clustering descendant & ascendant : vérifier qu'au cours du temps le $BICL_{asc} \geq BICL_{desc}$
|
|
|
|
- Creuser et explorer avec easy16s !
|
|
|
|
- ✅ Comparer les perfs du VAE sur Baldock avec colBiSBM par exemple
|
|
|
|
<table>
|
|
<caption>AUC values for colBiSBM and VGAE models across cities</caption>
|
|
<thead>
|
|
<tr>
|
|
<th style="empty-cells: hide;border-bottom:hidden;" colspan="1"></th>
|
|
<th style="border-bottom:hidden;padding-bottom:0; padding-left:3px;padding-right:3px;text-align: center; " colspan="2"><div style="border-bottom: 1px solid #ddd; padding-bottom: 5px; ">AUC</div></th>
|
|
</tr>
|
|
<tr>
|
|
<th style="text-align:left;"> City </th>
|
|
<th style="text-align:right;"> colBiSBM </th>
|
|
<th style="text-align:right;"> Untuned VGAE </th>
|
|
</tr>
|
|
</thead>
|
|
<tbody>
|
|
<tr>
|
|
<td style="text-align:left;"> Bristol </td>
|
|
<td style="text-align:right;"> 0.798 </td>
|
|
<td style="text-align:right;"> 0.755 </td>
|
|
</tr>
|
|
<tr>
|
|
<td style="text-align:left;"> Edinburgh </td>
|
|
<td style="text-align:right;"> 0.836 </td>
|
|
<td style="text-align:right;"> 0.774 </td>
|
|
</tr>
|
|
<tr>
|
|
<td style="text-align:left;"> Leeds </td>
|
|
<td style="text-align:right;"> 0.854 </td>
|
|
<td style="text-align:right;"> 0.760 </td>
|
|
</tr>
|
|
<tr>
|
|
<td style="text-align:left;"> Reading </td>
|
|
<td style="text-align:right;"> 0.867 </td>
|
|
<td style="text-align:right;"> 0.740 </td>
|
|
</tr>
|
|
</tbody>
|
|
</table>
|
|
|
|
- Dé-bugger les simulations :
|
|
|
|
- ⌛ Inférence : Relancer simus d'inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j'ai relancé avec M = 4 au lieu de M = 2.
|
|
En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d'autres problèmes que juste le plan de parallélisation.
|
|
- ✅ **Non ça n'a pas l'air d'être ça**. Vérifier si problème de version tidyverse pour vapply sur l'**inférence**.
|
|
- ⌛Bon le bug ne se reproduit plus... les jobs sont juste trop longs (> 120h) j'ai relancé, il ne reste que 182/972 conditions.
|
|
|
|
- ✅ **Il suffisait de faire la màj soit même...** Si problème de parallélisation vient de pb de version *future.callr* le signaler à MIGALE.
|
|
|
|
- Kmeans sur la densité des réseaux subdoré pour pré-partitionner et *clusteriser*.
|
|
Car densités déséquilibrées.
|
|
|
|
:::{#ref-kmeans-vae}
|
|
|
|
- Faire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l'espace latent
|
|
J'ai commencé à regarder un peu
|
|
|
|
:::
|
|
|
|
### Inférence et microbes
|
|
|
|
- Lancer *colBiSBM* sur $OTU\times Sample$ → problème du chargement en mémoire des données à voir
|
|
- Lancer *colSBM* sur $OTU\times OTU$
|
|
- Creuser [TabNet](https://raw.githubusercontent.com/cregouby/R-toulouse-tabnet/main/Tabnet_RR2023_fr_pdf.pdf) de Christophe Regouby et les [exercices](https://github.com/cregouby/Tutoriel_torch)
|
|
- Regarder **SPARTA** Rennes
|
|
- Lire Papiers compositional data (Aitchison et al. intro)
|
|
- Lire article multi-niveaux Saint-Clair
|
|
- Demander à JA si elle connaît des réseaux d'interactions connus par les experts (idée d'intégrer une connaissance experte et de voir les différences de structure par rapport à celle attendue)
|
|
- Ecrire et étudier les modèles pour différents niveaux taxonomiques.
|
|
\begin{align*}
|
|
i \rightarrow &~N^1_i \subseteq N^2_i \subseteq N^3_i & \text{Taxonomie}\\
|
|
Z^0_i \overset{?}{=} & Z^1_i \overset{?}{=} Z^2_i \overset{?}{=} Z^3_i & \text{Groupes fonctionnels}
|
|
\end{align*}
|
|
|
|
## Lecture en cours
|
|
|
|
### OT
|
|
- ⌛ @mazeletUnsupervisedLearningOptimal Intéressant pour le transport optimal entre graphes de tailles différentes
|
|
- ⌛ @nennaLecture2Entropic Pour comprendre le problème d'OT régularisé pour l'entropie.
|
|
- ⌛ @nennaLecture1Monge
|
|
|
|
### Inférence de graphes
|
|
- ✅ @matchadoNetworkAnalysisMethods2021b ➡️ Nos données étant compositionnelles
|
|
il faut utiliser:
|
|
- CCLasso et SparCC
|
|
- HARMONIES pour zéro inflation (Binomiale négative), COZINE centered log ratio transformation compositionnalité, zéro inflation et forte précision
|
|
- MixMPLN pour générer K réseaux issus de K Poisson log Normal
|
|
- mLDM peut enlever les arêtes indirectes.
|
|
- NetComi agrège plusieurs méthodes tout en permettant l'analyse différentielle !
|
|
|
|
Si pas compositionnelles :
|
|
|
|
- Meta-Network pour arêtes indirectes et non linéaires
|
|
- Environmentally-Driven Edge detection pour corriger les effets de l'environnement
|
|
|
|
|
|
## A discuter
|
|
|
|
### Inférence
|
|
|
|
- pbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU ...)
|
|
|
|
> Combine networks at different taxonomic levels
|
|
|
|
- Inférence + GREMLINS |