---
title: "Bilan semaine 17 2025 : 24 avril - 25 avril"
categories: 
  - colBiSBM

date: 25 04 2025
---

## A faire

### Rédaction article

- Relire intro St Clair
- S'inspirer structure pour mon intro
- Trouver biblio intro
- Rédiger l'intro
- Regarder les applications pour les collections de réseaux recommender system
- Lire les papiers de Baldock Traveset Souza Cordeniz Trojelsgaard et Gibson

- Dire résultats nettement meilleurs et variabilités inférieures.

### Simulations article


- Relancer simus clustering avec VEM steps = 10 000 et plus nombreux init pour spectral

- Ajouter simu clustering métriques nb sous-collections obtenues. 
Vérifier les résultats obtenus si ARI = 0. Et augmenter la taille $M = 30$ avec $M_1 = M_2 = M_3 = 10$.

- Comparer sur clustering unipartite avec versions symétriser des par blocs des matrices d'adjacences.

- Corriger structure de simus :
    - Pour noisy $\alpha$ : 
        - Logit pour envoyer la gaussienne vers (0,1)
        - Beta contrainte dans (0,1)
    - Pour noisy links : Générer `nb_clustering` collections de taille M puis prélever $\epsilon_{max}n_r n_c$ liens à inverser puis pour les $\epsilon < \epsilon_{max}$ prélever dans la liste des indices afin d'avoir des perturbations emboitées. 

### Applications

- Kmeans sur la densité des réseaux subdoré pour pré-partitionner et *clusteriser*.

### Autour de l'article et du package

- Créer des vignettes illustrant par exemple des cas de simulations. **Possible de mettre l'exemple d'application de Sophie sur les réseaux avec gradient d'urbanisation**.

## J'ai fait

- Créer un README descriptif du dépôt des codes pour l'article.

- Remonter figure sélection de modèle dans le corps de l'article
- Enrichir légende de la figure 7 et 8
- Supprimer p_NA des autres cadrans des proportions de NA

- Basculer le code du clustering pour utiliser hclust et mis l'argument method de hclust avec single par défaut

- Ajouter pipeline qui knit README.Rmd à chaque merge dans main colSBM 

## A continuer

 - Résultats simus NA **Erreur pour certaines conditions** : Pour NA robustness générer `nb_rep` collections de taille $M=2$ et prélever 
$\epsilon_{max}n_r n_c$ liens à retirer puis pour les $\epsilon < \epsilon_{max}$ prélever dans la liste des indices afin d'avoir des perturbations emboitées.
Il faut que j'ajoute un mécanisme pour reprendre des conditions qui ont plantés et que je skip dans le future_lapply les conditions déjà traitées (pour avoir la même seed quand je vais exécuter le code). 
Implémenté les missing steps *en attente des résultats MIGALE*. 

- Lire Biological Networks -  François Képès

- J'ai esquissé des bouts d'intro

- Relancer simus d'inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j'ai relancé avec M = 4 au lieu de M = 2.
En attente résultats MIGALE


### Correction méthodo
- Idée Pierre : Regarder la contribution au BICL de la collection des réseaux 
et comparer au sep BICL pour essayer de repérer les outliers. En regardant la vbound (pas la pénalité) de chaque réseau dans le joint vs sa vbound dans le sep
-> Résultats : pas de différences majeures entre les réseaux avec le rapport vbound_joint/vbound_sep, les outliers ne sont pas marqués. 

- Regarder si plutôt que k médioid possible meilleurs résultats avec d'autres distances hclust avec min, max etc...
-> L'algo PAM donne des clusters équilibrés sans séparer les outliers
Je regarde avec plutôt des hclust avec métrique single pour séparer les outliers.

- Voir si in fine possible de repérer des outliers à partir de ces nouvelles métriques

- Regarder la répartition de densité dans les réseaux sub-doré -> déséquilibrée

![](figs/density-subdore.png)


    En faisant des clusterings par densité on constate qu'avec un modèle iid pour des réseaux dont la densité est entre :
    - 0 et 0.05 : Baldock et Souza tout le monde se retrouvait ensemble avec *Partitioning around medoids*

### Applications

- Idée Sophie: Regarder clustering de données plantes-pollinisateur selon gradient d'urbanisation

> Sophie a fait une appli qui marche bien et va dans le sens de l'analyse faite
(à savoir pas d'effet du gradien d'urbanisation). À continuer pour l'intégrer dans l'article !


### Lancer clustering auteur par auteur du sub-Doré : 5 collections différentes dans l'idée.

Une fois fait, Sophie ne trouve pas que ce soit le plus pertinent pour illustrer le clustering.
Plus intéressant de garder le clustering de données simulées ($M = 30$) et se 
servir des exemples dessous et des parcours exhaustif des possibilités de partitionnement comme comparatif. 

#### Baldock

![Alluvial Baldock](figs/subdore-per-author/subdore_baldock_alluvial_clusterings.png)

#### Gibson
![Alluvial Gibson](figs/subdore-per-author/subdore_gibson_alluvial_clusterings.png)


#### Souza

![Alluvial Souza](figs/subdore-per-author/subdore_souza_alluvial_clusterings.png)

#### Traveset

![Alluvial Traveset](figs/subdore-per-author/subdore_traveset_alluvial_clusterings.png)

#### Trojelsgaard

![Alluvial Trojelgaard](figs/subdore-per-author/subdore_trojelsgaard_alluvial_clusterings.png)