diff --git a/suivi/2025-19/2025-19.qmd b/suivi/2025-19/2025-19.qmd index 072bf56..211aeef 100644 --- a/suivi/2025-19/2025-19.qmd +++ b/suivi/2025-19/2025-19.qmd @@ -10,10 +10,11 @@ date: 2025 05 09 - Clustering : Relancer simulations de clustering avec $M = 30$ où $M_i = 10, \forall i$. En attente retour MIGALE Relancer simus clustering avec VEM steps = 10 000 et plus nombreux init pour spectral. Ajouter simu clustering métriques nb sous-collections obtenues. - Vérifier les résultats obtenus si ARI = 0. Et augmenter la taille $M = 30$ avec $M_1 = M_2 = M_3 = 10$. -> BUG, dois creuser mais juste des problèmes techniques + Vérifier les résultats obtenus si ARI = 0. Et augmenter la taille $M = 30$ avec $M_1 = M_2 = M_3 = 10$. ~~-> BUG, dois creuser mais juste des problèmes techniques.~~ + Le bug venait probablement d'une inadéquation entre la version de *future* et *future.callr*, les résultats temporaires sont encourageant. - Inférence : Relancer simus d'inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j'ai relancé avec M = 4 au lieu de M = 2. - En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques + En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d'autres problèmes que juste le plan de parallélisation. ### Applications @@ -23,12 +24,13 @@ Car densités déséquilibrées. :::{#ref-kmeans-vae} - Faire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l'espace latent +J'ai commencé à regarder un peu ::: ### Présentations LSD, JdS et ML@Aussois -- PRÉSENTATION JDS (LSD), durée introuvable, adapter en anglais les slides et voir avec PB et SD. +- ~~PRÉSENTATION JDS (LSD), durée introuvable, adapter en anglais les slides~~ et voir avec PB et SD. - Quel plan ? - Quels résultats ? Baldock, Traveset ... (sub-Doré) @@ -45,6 +47,7 @@ Car densités déséquilibrées. ## A discuter - Voir pour TT période du 11 au 14 août +- Voir pour date CSI car congés avec parents prévu du 29/08 au 12/09. ## A faire @@ -52,7 +55,7 @@ Car densités déséquilibrées. ### Inférence - Papier pour comprendre données - - Faust et al. lu + - ~~Faust et al.~~ - Abdill et al. - Bashan et al. diff --git a/suivi/2025-20/2025-20.qmd b/suivi/2025-20/2025-20.qmd new file mode 100644 index 0000000..f850efb --- /dev/null +++ b/suivi/2025-20/2025-20.qmd @@ -0,0 +1,151 @@ +--- +title: "Bilan semaine 20 2025 : 12 mai - 16 mai" +categories: [colBiSBM, inférence] +--- + +## TOP PRIORITÉ + +- Débugguer les simulations : + + - Clustering : Relancer simulations de clustering avec $M = 30$ où $M_i = 10, \forall i$. En attente retour MIGALE + Relancer simus clustering avec VEM steps = 10 000 et plus nombreux init pour spectral. Ajouter simu clustering métriques nb sous-collections obtenues. + Vérifier les résultats obtenus si ARI = 0. Et augmenter la taille $M = 30$ avec $M_1 = M_2 = M_3 = 10$. ~~-> BUG, dois creuser mais juste des problèmes techniques.~~ + Le bug venait probablement d'une inadéquation entre la version de *future* et *future.callr*, les résultats temporaires sont encourageants. + +| epsilon|model |ARI |nb_collections | +|-------:|:-----|:---------------|:---------------| +| 0.1|iid |0.41 $\pm$ 0.12 |2.8 $\pm$ 0.44 | +| 0.1|pi |0.03 $\pm$ 0.03 |1.8 $\pm$ 0.42 | +| 0.1|pirho |0.04 $\pm$ 0.02 |3.3 $\pm$ 0.54 | +| 0.1|rho |0.09 $\pm$ 0.04 |3.5 $\pm$ 0.58 | +| 0.2|iid |0.91 $\pm$ 0.06 |2.8 $\pm$ 0.13 | +| 0.2|pi |0.59 $\pm$ 0.12 |3 $\pm$ 0.55 | +| 0.2|pirho |0.57 $\pm$ 0.14 |4.5 $\pm$ 0.67 | +| 0.2|rho |0.55 $\pm$ 0.23 |2.8 $\pm$ 0.8 | +| 0.3|iid |1 |3 | +| 0.3|pi |0.97 $\pm$ 0.01 |3.57 $\pm$ 0.2 | +| 0.3|pirho |0.94 $\pm$ 0.03 |4 $\pm$ 0.32 | +| 0.3|rho |0.89 $\pm$ 0.09 |3 $\pm$ 0.32 | +| 0.4|iid |1 |3 | +| 0.4|pi |1 |3 | +| 0.4|pirho |0.86 $\pm$ 0.11 |3.33 $\pm$ 0.41 | +| 0.4|rho |0.99 $\pm$ 0.01 |3.29 $\pm$ 0.29 | + +- Inférence : Relancer simus d'inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j'ai relancé avec M = 4 au lieu de M = 2. + En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d'autres problèmes que juste le plan de parallélisation. + +### Applications + +- Kmeans sur la densité des réseaux subdoré pour pré-partitionner et *clusteriser*. +Car densités déséquilibrées. + +:::{#ref-kmeans-vae} + +- Faire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l'espace latent +J'ai commencé à regarder un peu + +::: + +### Présentations LSD, JdS et ML@Aussois + +- ~~PRÉSENTATION JDS (LSD), durée introuvable, adapter en anglais les slides~~ et voir avec PB et SD. +- Quel plan ? +- Quels résultats ? Baldock, Traveset ... (sub-Doré) + + +### Inférence et microbes + +- Lire Papiers compositional data (Aitchison et al. intro) +- Se renseigner techniques d'inférence de réseaux : + - covariance (base corrélation et seuil) + - GraphicalLASSO + - Co-occurence +- Lire article multi-niveaux Saint-Clair + +## A discuter + +- Voir pour TT période du 11 au 14 août +- Voir pour date CSI car congés avec parents prévu du 29/08 au 12/09. + + +## A faire + +### Inférence + +- Papier pour comprendre données + - ~~Faust et al.~~ + - Abdill et al. + - Bashan et al. + +- pbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU ...) + +> Combine networks at different taxonomic levels + +- Inférence + GREMLINS + +### Rédaction article + +- Relire intro St Clair +- S'inspirer structure pour mon intro +- Trouver biblio intro +- Rédiger l'intro +- Dire résultats nettement meilleurs et variabilités inférieures. + + +## J'ai fait + +## A continuer + +### Applications + +- Idée Sophie: Regarder clustering de données plantes-pollinisateur selon gradient d'urbanisation + +> Sophie a fait une appli qui marche bien et va dans le sens de l'analyse faite +(à savoir pas d'effet du gradien d'urbanisation). À continuer pour l'intégrer dans l'article ! + +### Axe inférence + +- Lire biblio fournie Julie, Inférence de réseaux : co-occurence + +> J'ai lu Faust et al. +> Je lis Abdill et al. + +## Repoussés ou abandonnés +:::{.callout-note collapse="true"} +## Déplier pour voir + - Résultats simus NA **Erreur pour certaines conditions** : Pour NA robustness générer `nb_rep` collections de taille $M=2$ et prélever +$\epsilon_{max}n_r n_c$ liens à retirer puis pour les $\epsilon < \epsilon_{max}$ prélever dans la liste des indices afin d'avoir des perturbations emboitées. +Il faut que j'ajoute un mécanisme pour reprendre des conditions qui ont plantés et que je skip dans le future_lapply les conditions déjà traitées (pour avoir la même seed quand je vais exécuter le code). +Implémenté les missing steps. + +> Je n'arrive pas à comprendre les erreurs qui arrivent + +- Lire Biological Networks - François Képès + +- Regarder les applications pour les collections de réseaux recommender system *Pas pertinents et trop gros* + +:::{#lst-reco-systems lst-cap="Recommender systems data"} +Par exemple : + +- [Liste de recommendation data](https://cseweb.ucsd.edu/~jmcauley/datasets.html) +::: + + +### Papier plus multi-applications +- Données d'Elisa herbivore ? +- Données urbanisations ? + +### Autour de l'article et du package + +- Créer des vignettes illustrant par exemple des cas de simulations. **Possible de mettre l'exemple d'application de Sophie sur les réseaux avec gradient d'urbanisation**. + +### Simulations article + +- Comparer sur clustering unipartite avec versions symétriser des par blocs des matrices d'adjacences. + +- Corriger structure de simus : + - Pour noisy $\alpha$ : + - Logit pour envoyer la gaussienne vers (0,1) + - Beta contrainte dans (0,1) + - Pour noisy links : Générer `nb_clustering` collections de taille M puis prélever $\epsilon_{max}n_r n_c$ liens à inverser puis pour les $\epsilon < \epsilon_{max}$ prélever dans la liste des indices afin d'avoir des perturbations emboitées. +::: \ No newline at end of file