1 TODO List
- Petites opérations sur les OTUs (regarder la matrice dans les yeux):
- Ranger les OTUs par variances (i.e.
sd(OTU_j))- HMC sur-dispersés (au-dessus bissectrice)
- Enterotype phyloseq sous-disp
- Regarder la proportion de 1. taxon rares, 2. zeros.
- Faire des coupures selon niveaux taxonomiques et regarder si \mathbb{V}_{\text{intra}} \approx \mathbb{V}_{\text{inter}}
- Bonus: faire ça dans qmd et voir si forge permet gitlab pages
- Ranger les OTUs par variances (i.e.
- ✅ Avec blockmodels, codé un LBM-Séquentiel. Des différences contrastées…
- Relire Peixoto (2014)
- Regarder les gens qui citent les travaux de Peixoto
- Utiliser graphtools en initialisant la recherche Nested avec le partitionnement donné par l’arbre phylogénétique.
- ⌛ En cours Implémentation
blockmodelsLBM avec covariables sur proportions (voir ?@eq-modele-covar-prop)
- Trouver manière de faire un compromis : \ell(Y,Z,W;\theta) - \lambda d(C(W),C_0) avec C(W) le clustering seulement sur la base de la structure LBM et C_0 le clustering de l’arbre. Problème d est une distance entre partition, comment optimiser dessus ?
- ⌛ Mise à jour partielle des \tau : ce qui pose soucis c’est les gros calculs matriciels (c’est vraiment vrai?). Donc sorte de “stochastic” VEM où on update seulement une partie des \tau à chaque itération. Et échantillonnage stratifié selon l’arbre ?
- ⌛ Simulations avec n_2 croissant lancée sur Migale
- Réimplementé VE Bernoulli dans colSBM pour Bipartite et début implémentation Stochastic VE. En fait le problème des calculs matriciels Y\times(\tau^{(1)})^{\top} (n_2^2) donc besoin de sous-échantillonner les noeuds de l’autre dimension à mettre à jour.
Clustering unipartite j’ai cassé une fonction de distance à vérifier et réparer
Codes pour le papier :
- Nettoyer les scripts
- Faire un joli README
- ❓Faire des notebooks
Réussir à reproduire résultat de Abramov et al. (s. d.)
Maitriser graphtools de Peixoto pour essayer d’utiliser l’arbre taxonomique sur graphe de cooccurence inférer par SparCC
Maitriser SparCC
👶 (délégué à Mona) Clustering sur Doré :
- Ajouter Chao1 et 2, colonne par colonne (site par site), et faire indice moyen et la variance.
1.1 Inférence et microbes
- ⌛ (En cours) Possible en modifiant lbm.h et sbm.h d’obtenir un modèle utilisant les covariables de groupes (de blocs ?). Car besoin de changer
membership.m_step()pour mettre à jour \pmb\pi et \pmb{\rho} en utilisant les \pmb B^{\top}\pmb X et en renvoyant l’ELBO adaptée.😄 Avantage s’inscrit directement dans blockmodels et permet d’avoir toutes les lois d’émissions déjà codées et compatibles !
😢 Besoin de réfléchir a une bonne implémentation.
J’ai codé l’optimisation et les transferts mais il faut que je vérifie que tout fonctionne
- ✅ Appliqué multipartite sur \forall i, OTU_i \times Sample:
1.1.1 Bibliographie: à lire, à faire
- Lire article multi-niveaux Saint-Clair
- 🆕 🔎 Trouver des papiers:
- LBM Negative Binomial
- Network inference through sample comparison
- Idée des groupes sur la base de distance phylogénétique:
- En train de comprendre les distances que phyloseq permet de calculer sur notre exemple
- En train de lire sur Principle coordinate analysis : https://openplantpathology.github.io/OPP_Workshop_Multivariate/2-MV_PCO.html
- Parametric t-SNE pour avoir une unique représentation latente (inconvénient utilise du Deep Learning)
- Lire Papier UniFrac
1.1.2 Écrire et faire tourner
- 🆕 SparCC à différent niveaux
- 🆕⌛ Tree-PLN à différents niveaux
1.1.3 Causalité
Plus sur le temps long, à regarder
- GT causalité
- Daria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)
2 A discuter
- 🆕 Voir pour des Réseaux / GDR ou aller
- 🆕 Chercher des cours à suivre
3 Biblio à faire
- Regarder Transport optimal graphes bipartite.
4 Lectures en cours 📚
4.1 HDR Vincent Brault
- ⌛ Chap 2 : Creuser l’idée de maximiser l’énergie libre, très intéressant regarder le critère CARI et lire Robert et al 2021. Actuellement p32 du manuscrit
- Chap 3
4.2 OT
4.3 Inférence de graphes
4.4 Causalité
- ❗📖 Bystrova (s. d.)