TODO List
Finir le papier :
- Re-structurer le plan, mon plan, Donnet et Barbillon, échelle méso et comparaison inter réseau et noeuds non partagés.
- ✅ Écrire en annexe le BIC-L, faire attention à ajouter l’entropie à la toute fin en mentionnant
- ⌛ Fusionner VGAE et information transfer (missing links seulement) donc refaire tourner sur même données qu’en R. A adapter pour Python et pouvoir intégrer dans la figure. (raccourcit).
- Faire sep-VGAE (seulement sur le réseaux avec missing links) et VGAE avec les 4 réseaux. En train de reproduire les résultats, AUC stable autour de 0.7
- Remplacer Information tranfer on simu par Network partitioning.
- ⌛ Écrire le poster avec un titre aguicheur “Are my pollinators your pollinators: …”: Commencé contenu à déterminer avec Pierre et Sophie
Maitriser graphtools de Peixoto pour essayer d’utiliser l’arbre taxonomique sur graphe de cooccurence inférer par SparCC
Maitriser SparCC
Faire LBM sur niveau taxonomique grossier, initialiser avec le résultat pour un niveau plus fin et ainsi de suite.
Clustering unipartite j’ai cassé une fonction de distance à vérifier et réparer
- Pour clustering de collections sur données
réelles:
→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).- ❓Je n’arrive plus à reproduire le bug pour l’inférence…
- 😫 bug encore. S’assurer que ça marche et relancer
- ⌛ A Roscoff avec Julie et Pierre nous avons constaté que c’était l’extraction des dyades pour le calcul des métriques qui était incorrecte. Maintenant c’est corrigé et ça fonctionne ! En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :
- Donner la matrice identité comme features
- Corriger les degrés calculés.
- ⚠️ Discuter intersection simulations
- Clustering sur Doré :
- Regarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)
- ⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown
- Clusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)
- Si M > 10, alors voir si je retrouve les mêmes résultats que dans les études.
- Regarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)
- Regarder les codes Mangal database pour \delta
- Voir \delta mais additif
En Bernoulli pas de forme analytique non plus : Pour \alpha_{qr}: \sum_{m=1}^M \sum_{i=1}^{n_1^m} \sum_{j=1}^{n_2^m} \tau_{iq}^{1,m}\tau_{jr}^{2,m}(\frac{X_{ij}^m}{\alpha_{qr}} + \frac{(1-X_{ij}^m)}{\alpha_{qr} + \delta_m -1}) = 0 \Leftrightarrow \sum_m \frac{e^m_{qr}}{\alpha_{qr}} + \frac{1}{\alpha_{qr}+\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0
Et pour \delta_m: \sum_{i=1}^{n_1^m} \sum_{j=1}^{n_2^m} \sum_{q=1}^{Q_1} \sum_{r=1}^{Q_2} \tau_{iq}^{1,m}\tau_{jr}^{2,m}(\frac{X_{ij}^m}{\delta_{m}} + \frac{(1-X_{ij}^m)}{\alpha_{qr} + \delta_m -1}) = 0
Forme analytique mais risque de confusion ? \widehat{\delta_m} = \frac{\sum_{q,r} e^m_{qr}}{\sum_{q,r} n^m_{qr}},~\widehat{\alpha_{qr}} = \frac{\sum_{m} e^m_{qr}}{\sum_{m} n^m_{qr}}
Regarder la liste des cours du MathSV et de l’Université Paris-Saclay.
⌛ Plutôt regarder pour introduire un modèle \delta-colBiSBM.
- Ajouter le produit par \delta là où nécessaire
- Ajouter les modèles \delta, \delta\pi, \dots et les blocs conditionnels
- Ajouter les tests unitaires adéquats et les vérifier
Regarder Largest gap sur réseaux Doré
Essayer clustering sur
supinfoHomogénéiser notations dans les supplementaries
- Faire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu
Inférence et microbes
- easy16s : se renseigner sur
- \alpha, \beta diversité
- Heatmap
- Voir avec Mahendra à l’occasion du CSI
- Lancer colBiSBM sur OTU\times Sample → problème du chargement en mémoire des données à voir
- Lancer colSBM sur OTU\times OTU
- TabNet pratiquer les exercices
- Regarder SPARTA Rennes
- Lire Papiers compositional data (Aitchison et al. intro)
- Lire article multi-niveaux Saint-Clair
- Ecrire et étudier les modèles pour différents niveaux taxonomiques. \begin{align*} i \rightarrow &~N^1_i \subseteq N^2_i \subseteq N^3_i & \text{Taxonomie}\\ Z^0_i \overset{?}{=} & Z^1_i \overset{?}{=} Z^2_i \overset{?}{=} Z^3_i & \text{Groupes fonctionnels} \end{align*}
Causalité
Plus sur le temps long, à regarder
- GT causalité
- Daria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)
Biblio à faire
- Regarder Transport optimal graphes bipartite.
Lectures en cours 📚
HDR Vincent Brault
- ⌛ Chap 2 : Creuser l’idée de maximiser l’énergie libre, très intéressant regarder le critère CARI et lire Robert et al 2021. Actuellement p32 du manuscrit
- Chap 3
OT
Inférence de graphes
Causalité
- ❗📖 Bystrova (s. d.)
Largest Gaps
A discuter
Congés P&S
Thèse
- Faire préz CSI
- Faire rapport CSI
Inférence
- pbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)
Combine networks at different taxonomic levels
- Inférence + GREMLINS