Bilan semaine 17 2025 : 24 avril - 25 avril

colBiSBM
Auteur·rice
Affiliation

Louis Lacoste

MIA Paris-Saclay, INRAE, AgroParisTech, Université Paris-Saclay

Date de publication

25 avril 2025

Modifié

2 juillet 2025

A faire

Rédaction article

  • Relire intro St Clair

  • S’inspirer structure pour mon intro

  • Trouver biblio intro

  • Rédiger l’intro

  • Regarder les applications pour les collections de réseaux recommender system

  • Lire les papiers de Baldock Traveset Souza Cordeniz Trojelsgaard et Gibson

  • Dire résultats nettement meilleurs et variabilités inférieures.

Simulations article

  • Relancer simus clustering avec VEM steps = 10 000 et plus nombreux init pour spectral

  • Ajouter simu clustering métriques nb sous-collections obtenues. Vérifier les résultats obtenus si ARI = 0. Et augmenter la taille M = 30 avec M_1 = M_2 = M_3 = 10.

  • Comparer sur clustering unipartite avec versions symétriser des par blocs des matrices d’adjacences.

  • Corriger structure de simus :

    • Pour noisy \alpha :
      • Logit pour envoyer la gaussienne vers (0,1)
      • Beta contrainte dans (0,1)
    • Pour noisy links : Générer nb_clustering collections de taille M puis prélever \epsilon_{max}n_r n_c liens à inverser puis pour les \epsilon < \epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées.

Applications

  • Kmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser.

Autour de l’article et du package

  • Créer des vignettes illustrant par exemple des cas de simulations. Possible de mettre l’exemple d’application de Sophie sur les réseaux avec gradient d’urbanisation.

J’ai fait

  • Créer un README descriptif du dépôt des codes pour l’article.

  • Remonter figure sélection de modèle dans le corps de l’article

  • Enrichir légende de la figure 7 et 8

  • Supprimer p_NA des autres cadrans des proportions de NA

  • Basculer le code du clustering pour utiliser hclust et mis l’argument method de hclust avec single par défaut

  • Ajouter pipeline qui knit README.Rmd à chaque merge dans main colSBM

A continuer

  • Résultats simus NA Erreur pour certaines conditions : Pour NA robustness générer nb_rep collections de taille M=2 et prélever \epsilon_{max}n_r n_c liens à retirer puis pour les \epsilon < \epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées. Il faut que j’ajoute un mécanisme pour reprendre des conditions qui ont plantés et que je skip dans le future_lapply les conditions déjà traitées (pour avoir la même seed quand je vais exécuter le code). Implémenté les missing steps en attente des résultats MIGALE.

  • Lire Biological Networks - François Képès

  • J’ai esquissé des bouts d’intro

  • Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE

Correction méthodo

  • Idée Pierre : Regarder la contribution au BICL de la collection des réseaux et comparer au sep BICL pour essayer de repérer les outliers. En regardant la vbound (pas la pénalité) de chaque réseau dans le joint vs sa vbound dans le sep -> Résultats : pas de différences majeures entre les réseaux avec le rapport vbound_joint/vbound_sep, les outliers ne sont pas marqués.

  • Regarder si plutôt que k médioid possible meilleurs résultats avec d’autres distances hclust avec min, max etc… -> L’algo PAM donne des clusters équilibrés sans séparer les outliers Je regarde avec plutôt des hclust avec métrique single pour séparer les outliers.

  • Voir si in fine possible de repérer des outliers à partir de ces nouvelles métriques

  • Regarder la répartition de densité dans les réseaux sub-doré -> déséquilibrée

En faisant des clusterings par densité on constate qu'avec un modèle iid pour des réseaux dont la densité est entre :
- 0 et 0.05 : Baldock et Souza tout le monde se retrouvait ensemble avec *Partitioning around medoids*

Applications

  • Idée Sophie: Regarder clustering de données plantes-pollinisateur selon gradient d’urbanisation

Sophie a fait une appli qui marche bien et va dans le sens de l’analyse faite (à savoir pas d’effet du gradien d’urbanisation). À continuer pour l’intégrer dans l’article !

Lancer clustering auteur par auteur du sub-Doré : 5 collections différentes dans l’idée.

Une fois fait, Sophie ne trouve pas que ce soit le plus pertinent pour illustrer le clustering. Plus intéressant de garder le clustering de données simulées (M = 30) et se servir des exemples dessous et des parcours exhaustif des possibilités de partitionnement comme comparatif.

Baldock

Alluvial Baldock

Gibson

Alluvial Gibson

Souza

Alluvial Souza

Traveset

Alluvial Traveset

Trojelsgaard

Alluvial Trojelgaard