1 TODO List
Pour clustering de collections sur données réelles :
→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).- ✅ Si plusieurs clustering possibles les tester et sélectionner le meilleur
- ✅ Ré-ajuster les bonnes partitions.
- ❓Je n’arrive plus à reproduire le bug pour l’inférence…
✅ Oui c’est bien le cas Clustering descendant & ascendant : vérifier qu’au cours du temps le BICL_{asc} \geq BICL_{desc}
Creuser et explorer avec easy16s !
✅ Comparer les perfs du VAE sur Baldock avec colBiSBM par exemple
| City | colBiSBM | Untuned VGAE |
|---|---|---|
| Bristol | 0.798 | 0.755 |
| Edinburgh | 0.836 | 0.774 |
| Leeds | 0.854 | 0.760 |
| Reading | 0.867 | 0.740 |
Dé-bugger les simulations :
- ⌛ Inférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.
- ✅ Non ça n’a pas l’air d’être ça. Vérifier si problème de version tidyverse pour vapply sur l’inférence.
- ⌛Bon le bug ne se reproduit plus… les jobs sont juste trop longs (> 120h) j’ai relancé, il ne reste que 182/972 conditions.
- ⌛ Inférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.
✅ Il suffisait de faire la màj soit même… Si problème de parallélisation vient de pb de version future.callr le signaler à MIGALE.
Kmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser. Car densités déséquilibrées.
- Faire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu
1.1 Inférence et microbes
- Lancer colBiSBM sur OTU\times Sample → problème du chargement en mémoire des données à voir
- Lancer colSBM sur OTU\times OTU
- Creuser TabNet de Christophe Regouby et les exercices
- Regarder SPARTA Rennes
- Lire Papiers compositional data (Aitchison et al. intro)
- Lire article multi-niveaux Saint-Clair
- Demander à JA si elle connaît des réseaux d’interactions connus par les experts (idée d’intégrer une connaissance experte et de voir les différences de structure par rapport à celle attendue)
- Ecrire et étudier les modèles pour différents niveaux taxonomiques. \begin{align*} i \rightarrow &~N^1_i \subseteq N^2_i \subseteq N^3_i & \text{Taxonomie}\\ Z^0_i \overset{?}{=} & Z^1_i \overset{?}{=} Z^2_i \overset{?}{=} Z^3_i & \text{Groupes fonctionnels} \end{align*}
2 Lecture en cours
2.1 OT
2.2 Inférence de graphes
- ✅ Matchado et al. (2021) ➡️ Nos données étant compositionnelles il faut utiliser:
- CCLasso et SparCC
- HARMONIES pour zéro inflation (Binomiale négative), COZINE centered log ratio transformation compositionnalité, zéro inflation et forte précision
- MixMPLN pour générer K réseaux issus de K Poisson log Normal
- mLDM peut enlever les arêtes indirectes.
- NetComi agrège plusieurs méthodes tout en permettant l’analyse différentielle !
Si pas compositionnelles :
- Meta-Network pour arêtes indirectes et non linéaires
- Environmentally-Driven Edge detection pour corriger les effets de l’environnement
3 A discuter
3.1 Inférence
- pbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)
Combine networks at different taxonomic levels
- Inférence + GREMLINS