1 TODO List
Pour clustering de collections sur données
réelles:
→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).- ❓Je n’arrive plus à reproduire le bug pour l’inférence…
- 😫 bug encore. S’assurer que ça marche et relancer
⌛ En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :
- Donner la matrice identité comme features
- Corriger les degrés calculés.
✅ Ajouter au tableau comparatif sep BiSBM
Pour s’assurer que colBiSBM marche, il faut comparer avec une proportion de :
- Missing links, ie des faux zéros
- NA en Missing at random (MAR)
Faible performances de l’inférence :
- Vérifier que les conditions d’identifiabilité des modèles fautifs sont bien remplies.
- Récupérer des jeux de paramètres et essayer de reproduire les résultats.
Clustering sur Doré :
- Désaggréger les réseaux et relancer le clustering sur certains auteurs.
- Regarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)
- Clusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)
- Si M > 10, alors voir si je retrouve les mêmes résultats que dans les études.
| City | colBiSBM | sep-BiSBM | Untuned VGAE |
|---|---|---|---|
| Bristol | 0.841 | 0.824 | 1 |
| Edinburgh | 0.882 | 0.883 | 1 |
| Leeds | 0.873 | 0.852 | 1 |
| Reading | 0.845 | 0.837 | 1 |
- Regarder les codes Mangal database pour \delta
- Voir \delta mais additif
En Bernoulli pas de forme analytique non plus : Pour \alpha_{qr}: \sum_{m=1}^M \sum_{i=1}^{n_1^m} \sum_{j=1}^{n_2^m} \tau_{iq}^{1,m}\tau_{jr}^{2,m}(\frac{X_{ij}^m}{\alpha_{qr}} + \frac{(1-X_{ij}^m)}{\alpha_{qr} + \delta_m -1}) = 0 \Leftrightarrow \sum_m \frac{e^m_{qr}}{\alpha_{qr}} + \frac{1}{\alpha_{qr}+\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0
Et pour \delta_m: \sum_{i=1}^{n_1^m} \sum_{j=1}^{n_2^m} \sum_{q=1}^{Q_1} \sum_{r=1}^{Q_2} \tau_{iq}^{1,m}\tau_{jr}^{2,m}(\frac{X_{ij}^m}{\delta_{m}} + \frac{(1-X_{ij}^m)}{\alpha_{qr} + \delta_m -1}) = 0
Forme analytique mais risque de confusion ? \widehat{\delta_m} = \frac{\sum_{q,r} e^m_{qr}}{\sum_{q,r} n^m_{qr}},~\widehat{\alpha_{qr}} = \frac{\sum_{m} e^m_{qr}}{\sum_{m} n^m_{qr}}
Attente retour Pierre pour faire d’autres clustering
Regarder la liste des cours du MathSV et de l’Université Paris-Saclay.
Inférence finie mais résultats pas fous:
| \epsilon_{\alpha} | \bm{1}_{\widehat{Q_1} \lt 4} | \bm{1}_{\widehat{Q_1} = 4} | \bm{1}_{\widehat{Q_1} \gt 4} | \bm{1}_{\widehat{Q_2} \lt 4} | \bm{1}_{\widehat{Q_2} = 4} | \bm{1}_{\widehat{Q_2} \gt 4} | \bm{1}_{\widehat{Q_1} \lt 4} | \bm{1}_{\widehat{Q_1} = 4} | \bm{1}_{\widehat{Q_1} \gt 4} | \bm{1}_{\widehat{Q_2} \lt 4} | \bm{1}_{\widehat{Q_2} = 4} | \bm{1}_{\widehat{Q_2} \gt 4} | \bm{1}_{\widehat{Q_1} \lt 4} | \bm{1}_{\widehat{Q_1} = 4} | \bm{1}_{\widehat{Q_1} \gt 4} | \bm{1}_{\widehat{Q_2} \lt 4} | \bm{1}_{\widehat{Q_2} = 4} | \bm{1}_{\widehat{Q_2} \gt 4} | \bm{1}_{\widehat{Q_1} \lt 4} | \bm{1}_{\widehat{Q_1} = 4} | \bm{1}_{\widehat{Q_1} \gt 4} | \bm{1}_{\widehat{Q_2} \lt 4} | \bm{1}_{\widehat{Q_2} = 4} | \bm{1}_{\widehat{Q_2} \gt 4} |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0.00 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 |
| 0.03 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 |
| 0.06 | 0.19 \pm 0.04 | 0.81 \pm 0.04 | 0 | 0.24 \pm 0.04 | 0.76 \pm 0.04 | 0 | 0.02 \pm 0.01 | 0.33 \pm 0.05 | 0.65 \pm 0.05 | 0.26 \pm 0.04 | 0.74 \pm 0.04 | 0 | 0.17 \pm 0.04 | 0.83 \pm 0.04 | 0 | 0.02 \pm 0.01 | 0.2 \pm 0.04 | 0.78 \pm 0.04 | 0.06 \pm 0.02 | 0.87 \pm 0.03 | 0.06 \pm 0.02 | 0.01 \pm 0.01 | 0.88 \pm 0.03 | 0.11 \pm 0.03 |
| 0.09 | 0 | 0.94 \pm 0.02 | 0.06 \pm 0.02 | 0 | 0.91 \pm 0.03 | 0.09 \pm 0.03 | 0 | 0.1 \pm 0.03 | 0.9 \pm 0.03 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0.13 \pm 0.03 | 0.87 \pm 0.03 | 0 | 0.87 \pm 0.03 | 0.13 \pm 0.03 | 0 | 0.87 \pm 0.03 | 0.13 \pm 0.03 |
| 0.12 | 0 | 0.94 \pm 0.02 | 0.06 \pm 0.02 | 0 | 0.91 \pm 0.03 | 0.09 \pm 0.03 | 0 | 0.26 \pm 0.04 | 0.74 \pm 0.04 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0.3 \pm 0.04 | 0.7 \pm 0.04 | 0 | 0.84 \pm 0.04 | 0.16 \pm 0.04 | 0 | 0.83 \pm 0.04 | 0.17 \pm 0.04 |
| 0.15 | 0 | 0.85 \pm 0.03 | 0.15 \pm 0.03 | 0 | 0.86 \pm 0.03 | 0.14 \pm 0.03 | 0 | 0.34 \pm 0.05 | 0.66 \pm 0.05 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0.3 \pm 0.04 | 0.7 \pm 0.04 | 0 | 0.81 \pm 0.04 | 0.19 \pm 0.04 | 0 | 0.8 \pm 0.04 | 0.2 \pm 0.04 |
| 0.18 | 0 | 0.87 \pm 0.03 | 0.13 \pm 0.03 | 0 | 0.84 \pm 0.04 | 0.16 \pm 0.04 | 0 | 0.36 \pm 0.05 | 0.64 \pm 0.05 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0.35 \pm 0.05 | 0.65 \pm 0.05 | 0 | 0.87 \pm 0.03 | 0.13 \pm 0.03 | 0 | 0.82 \pm 0.04 | 0.18 \pm 0.04 |
| 0.21 | 0 | 0.92 \pm 0.03 | 0.08 \pm 0.03 | 0 | 0.89 \pm 0.03 | 0.11 \pm 0.03 | 0 | 0.4 \pm 0.05 | 0.6 \pm 0.05 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0.39 \pm 0.05 | 0.61 \pm 0.05 | 0 | 0.84 \pm 0.04 | 0.16 \pm 0.04 | 0 | 0.84 \pm 0.04 | 0.16 \pm 0.04 |
| 0.24 | 0 | 0.88 \pm 0.03 | 0.12 \pm 0.03 | 0 | 0.85 \pm 0.03 | 0.15 \pm 0.03 | 0 | 0.47 \pm 0.05 | 0.53 \pm 0.05 | 0 | 1 | 0 | 0 | 0.99 \pm 0.01 | 0.01 \pm 0.01 | 0 | 0.4 \pm 0.05 | 0.6 \pm 0.05 | 0 | 0.85 \pm 0.03 | 0.15 \pm 0.03 | 0 | 0.82 \pm 0.04 | 0.18 \pm 0.04 |
⌛ Plutôt regarder pour introduire un modèle \delta-colBiSBM.
- Ajouter le produit par \delta là où nécessaire
- Ajouter les modèles \delta, \delta\pi, \dots et les blocs conditionnels
- Ajouter les tests unitaires adéquats et les vérifier
Regarder Largest gap sur réseaux Doré
Essayer clustering sur
supinfoHomogénéiser notations dans les supplementaries
- Faire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu
- Creuser et explorer avec easy16s !
1.1 Inférence et microbes
- Lancer colBiSBM sur OTU\times Sample → problème du chargement en mémoire des données à voir
- Lancer colSBM sur OTU\times OTU
- TabNet pratiquer les exercices
- Regarder SPARTA Rennes
- Lire Papiers compositional data (Aitchison et al. intro)
- Lire article multi-niveaux Saint-Clair
- Ecrire et étudier les modèles pour différents niveaux taxonomiques. \begin{align*} i \rightarrow &~N^1_i \subseteq N^2_i \subseteq N^3_i & \text{Taxonomie}\\ Z^0_i \overset{?}{=} & Z^1_i \overset{?}{=} Z^2_i \overset{?}{=} Z^3_i & \text{Groupes fonctionnels} \end{align*}
1.1.1 Causalité
Plus sur le temps long, à regarder
- GT causalité
- Daria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)
2 Biblio à faire
- Regarder Transport optimal graphes bipartite.
- HDR VB, chapitre de modèle à blocs latents, bcp travaillé sur bipartite OT, comparaison clustering, adaption ARI, Largest Gap
3 Lectures en cours 📚
3.1 OT
3.2 Inférence de graphes
3.3 Causalité
- ❗📖 Bystrova (s. d.)
3.4 Largest Gaps
4 A discuter
4.1 Congés P&S
4.2 Thèse
- Faire préz CSI
- Faire rapport CSI
4.3 Interprétation écologiques résultats de Baldock
- ⌛ Point avec Elisa, oui on relance
4.4 Inférence
- pbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)
Combine networks at different taxonomic levels
- Inférence + GREMLINS