diff --git a/suivi/2025-17/2025-17.qmd b/suivi/2025-17/2025-17.qmd new file mode 100644 index 0000000..e3dbcba --- /dev/null +++ b/suivi/2025-17/2025-17.qmd @@ -0,0 +1,123 @@ +--- +title: "Bilan semaine 17 2025 : 24 avril - 25 avril" +categories: + - colBiSBM +--- + +## A faire + +### Rédaction article + +- Relire intro St Clair +- S'inspirer structure pour mon intro +- Trouver biblio intro +- Rédiger l'intro +- Regarder les applications pour les collections de réseaux recommender system +- Lire les papiers de Baldock Traveset Souza Cordeniz Trojelsgaard et Gibson + +- Dire résultats nettement meilleurs et variabilités inférieures. + +### Simulations article + + +- Relancer simus clustering avec VEM steps = 10 000 et plus nombreux init pour spectral + +- Ajouter simu clustering métriques nb sous-collections obtenues. +Vérifier les résultats obtenus si ARI = 0. Et augmenter la taille $M = 30$ avec $M_1 = M_2 = M_3 = 10$. + +- Comparer sur clustering unipartite avec versions symétriser des par blocs des matrices d'adjacences. + +- Corriger structure de simus : + - Pour noisy $\alpha$ : + - Logit pour envoyer la gaussienne vers (0,1) + - Beta contrainte dans (0,1) + - Pour noisy links : Générer `nb_clustering` collections de taille M puis prélever $\epsilon_{max}n_r n_c$ liens à inverser puis pour les $\epsilon < \epsilon_{max}$ prélever dans la liste des indices afin d'avoir des perturbations emboitées. + +### Applications + +- Kmeans sur la densité des réseaux subdoré pour pré-partitionner et *clusteriser*. + +### Autour de l'article et du package + +- Créer des vignettes illustrant par exemple des cas de simulations. **Possible de mettre l'exemple d'application de Sophie sur les réseaux avec gradient d'urbanisation**. + +## J'ai fait + +- Créer un README descriptif du dépôt des codes pour l'article. + +- Remonter figure sélection de modèle dans le corps de l'article +- Enrichir légende de la figure 7 et 8 +- Supprimer p_NA des autres cadrans des proportions de NA + +- Basculer le code du clustering pour utiliser hclust et mis l'argument method de hclust avec single par défaut + +- Ajouter pipeline qui knit README.Rmd à chaque merge dans main colSBM + +## A continuer + + - Résultats simus NA **Erreur pour certaines conditions** : Pour NA robustness générer `nb_rep` collections de taille $M=2$ et prélever +$\epsilon_{max}n_r n_c$ liens à retirer puis pour les $\epsilon < \epsilon_{max}$ prélever dans la liste des indices afin d'avoir des perturbations emboitées. +Il faut que j'ajoute un mécanisme pour reprendre des conditions qui ont plantés et que je skip dans le future_lapply les conditions déjà traitées (pour avoir la même seed quand je vais exécuter le code). +Implémenté les missing steps *en attente des résultats MIGALE*. + +- Lire Biological Networks - François Képès + +- J'ai esquissé des bouts d'intro + +- Relancer simus d'inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j'ai relancé avec M = 4 au lieu de M = 2. +En attente résultats MIGALE + + +### Correction méthodo +- Idée Pierre : Regarder la contribution au BICL de la collection des réseaux +et comparer au sep BICL pour essayer de repérer les outliers. En regardant la vbound (pas la pénalité) de chaque réseau dans le joint vs sa vbound dans le sep +-> Résultats : pas de différences majeures entre les réseaux avec le rapport vbound_joint/vbound_sep, les outliers ne sont pas marqués. + +- Regarder si plutôt que k médioid possible meilleurs résultats avec d'autres distances hclust avec min, max etc... +-> L'algo PAM donne des clusters équilibrés sans séparer les outliers +Je regarde avec plutôt des hclust avec métrique single pour séparer les outliers. + +- Voir si in fine possible de repérer des outliers à partir de ces nouvelles métriques + +- Regarder la répartition de densité dans les réseaux sub-doré -> déséquilibrée + +![](figs/density-subdore.png) + + + En faisant des clusterings par densité on constate qu'avec un modèle iid pour des réseaux dont la densité est entre : + - 0 et 0.05 : Baldock et Souza tout le monde se retrouvait ensemble avec *Partitioning around medoids* + +### Applications + +- Idée Sophie: Regarder clustering de données plantes-pollinisateur selon gradient d'urbanisation + +> Sophie a fait une appli qui marche bien et va dans le sens de l'analyse faite +(à savoir pas d'effet du gradien d'urbanisation). À continuer pour l'intégrer dans l'article ! + + +### Lancer clustering auteur par auteur du sub-Doré : 5 collections différentes dans l'idée. + +Une fois fait, Sophie ne trouve pas que ce soit le plus pertinent pour illustrer le clustering. +Plus intéressant de garder le clustering de données simulées ($M = 30$) et se +servir des exemples dessous et des parcours exhaustif des possibilités de partitionnement comme comparatif. + +#### Baldock + +![Alluvial Baldock](figs/subdore-per-author/subdore_baldock_alluvial_clusterings.png) + +#### Gibson +![Alluvial Gibson](figs/subdore-per-author/subdore_gibson_alluvial_clusterings.png) + + +#### Souza + +![Alluvial Souza](figs/subdore-per-author/subdore_souza_alluvial_clusterings.png) + +#### Traveset + +![Alluvial Traveset](figs/subdore-per-author/subdore_traveset_alluvial_clusterings.png) + +#### Trojelsgaard + +![Alluvial Trojelgaard](figs/subdore-per-author/subdore_trojelsgaard_alluvial_clusterings.png) +