diff --git a/index.html b/index.html index 6ef09a6..8fb680b 100644 --- a/index.html +++ b/index.html @@ -194,7 +194,7 @@ window.Quarto = {
  • Journaux
  • -
    Catégories
    Tous (22)
    colBiSBM (22)
    GNN (15)
    inférence (17)
    +
    Catégories
    Tous (23)
    colBiSBM (23)
    GNN (16)
    inférence (18)
    @@ -263,7 +263,41 @@ Agenda

    Journaux

    -
    +
    + + + +
    +
    -
    +
    -
    +
    -
    +
    -
    +
    -
    +
    -
    +
    -
    +
    -
    +
    -
    +
    -
    +
    -
    +
    -
    +
    -
    +
    -
    +
    -
    +
    -
    +
    -
    +
    -
    +
    -
    +
    -
    +
    -
    +

    Baldock iid

    diff --git a/listings.json b/listings.json index dff2613..148abe6 100644 --- a/listings.json +++ b/listings.json @@ -2,6 +2,7 @@ { "listing": "/index.html", "items": [ + "/suivi/2025-51/2025-51.html", "/suivi/2025-50/2025-50.html", "/suivi/2025-45/2025-45.html", "/suivi/2025-44/2025-44.html", diff --git a/search.json b/search.json index e4b1f17..5e1e97c 100644 --- a/search.json +++ b/search.json @@ -11,7 +11,7 @@ "href": "index.html#journaux", "title": "Journal suivi de la thèse", "section": "Journaux", - "text": "Journaux\n\n\n\n\n\n\n\n\n\n\nBilan semaine 50 2025 : 08 décembre - 12 décembre\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n12 déc. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 45 2025 : 03 novembre - 06 novembre\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n3 nov. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 44 2025 : 27 octobre - 31 octobre\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n27 oct. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 43 2025 : 20 octobre - 24 octobre\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n20 oct. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 38 2025 : 15 septembre - 19 septembre\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n19 sept. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 35 2025 : 25 août - 29 août\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n29 août 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 33 2025 : 11 août - 15 août\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n14 août 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 29 2025 : 15 juillet - 18 juillet\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n15 juil. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 28 2025 : 07 juillet - 11 juillet\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n7 juil. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 27 2025 : 30 juin - 4 juillet\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n30 juin 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 25 2025 : 16 juin - 20 juin\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n20 juin 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 24 2025 : 10 juin - 13 juin\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n13 juin 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 22 2025 : 26 mai - 30 mai\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n28 mai 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 21 2025 : 26 mai - 30 mai\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n23 mai 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 20 2025 : 12 mai - 16 mai\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n16 mai 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 19 2025 : 5 mai - 9 mai\n\n\n\ncolBiSBM\n\ninférence\n\n\n\n\n\n\n\n\n\n9 mai 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 18 2025 : 28 avril - 2 mai\n\n\n\ncolBiSBM\n\ninférence\n\n\n\n\n\n\n\n\n\n2 mai 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 17 2025 : 24 avril - 25 avril\n\n\n\ncolBiSBM\n\n\n\n\n\n\n\n\n\n25 avr. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 16 2025\n\n\n\ncolBiSBM\n\n\n\n\n\n\n\n\n\n18 avr. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 15 2025 : 31 mars-4 avril\n\n\n\ncolBiSBM\n\n\n\n\n\n\n\n\n\n4 avr. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 14 2025 : 24-28 mars\n\n\n\ncolBiSBM\n\n\n\n\n\n\n\n\n\n28 mars 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 13 2025 : 17-21 mars\n\n\n\ncolBiSBM\n\n\n\n\n\n\n\n\n\n17 mars 2025\n\n\nLouis Lacoste\n\n\n\n\n\nAucun article correspondant" + "text": "Journaux\n\n\n\n\n\n\n\n\n\n\nBilan semaine 51 2025 : 15 décembre - 19 décembre\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n19 déc. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 50 2025 : 08 décembre - 12 décembre\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n12 déc. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 45 2025 : 03 novembre - 06 novembre\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n3 nov. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 44 2025 : 27 octobre - 31 octobre\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n27 oct. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 43 2025 : 20 octobre - 24 octobre\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n20 oct. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 38 2025 : 15 septembre - 19 septembre\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n19 sept. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 35 2025 : 25 août - 29 août\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n29 août 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 33 2025 : 11 août - 15 août\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n14 août 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 29 2025 : 15 juillet - 18 juillet\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n15 juil. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 28 2025 : 07 juillet - 11 juillet\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n7 juil. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 27 2025 : 30 juin - 4 juillet\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n30 juin 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 25 2025 : 16 juin - 20 juin\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n20 juin 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 24 2025 : 10 juin - 13 juin\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n13 juin 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 22 2025 : 26 mai - 30 mai\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n28 mai 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 21 2025 : 26 mai - 30 mai\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n23 mai 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 20 2025 : 12 mai - 16 mai\n\n\n\ncolBiSBM\n\ninférence\n\nGNN\n\n\n\n\n\n\n\n\n\n16 mai 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 19 2025 : 5 mai - 9 mai\n\n\n\ncolBiSBM\n\ninférence\n\n\n\n\n\n\n\n\n\n9 mai 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 18 2025 : 28 avril - 2 mai\n\n\n\ncolBiSBM\n\ninférence\n\n\n\n\n\n\n\n\n\n2 mai 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 17 2025 : 24 avril - 25 avril\n\n\n\ncolBiSBM\n\n\n\n\n\n\n\n\n\n25 avr. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 16 2025\n\n\n\ncolBiSBM\n\n\n\n\n\n\n\n\n\n18 avr. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 15 2025 : 31 mars-4 avril\n\n\n\ncolBiSBM\n\n\n\n\n\n\n\n\n\n4 avr. 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 14 2025 : 24-28 mars\n\n\n\ncolBiSBM\n\n\n\n\n\n\n\n\n\n28 mars 2025\n\n\nLouis Lacoste\n\n\n\n\n\n\n\n\n\n\n\n\nBilan semaine 13 2025 : 17-21 mars\n\n\n\ncolBiSBM\n\n\n\n\n\n\n\n\n\n17 mars 2025\n\n\nLouis Lacoste\n\n\n\n\n\nAucun article correspondant" }, { "objectID": "suivi/2025-45/2025-45.html", @@ -161,193 +161,242 @@ "text": "Repoussés ou abandonnés\n\n\n\n\n\n\nDéplier pour voir\n\n\n\n\n\n\nRésultats simus NA Erreur pour certaines conditions : Pour NA robustness générer nb_rep collections de taille M=2 et prélever \\epsilon_{max}n_r n_c liens à retirer puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées. Il faut que j’ajoute un mécanisme pour reprendre des conditions qui ont plantés et que je skip dans le future_lapply les conditions déjà traitées (pour avoir la même seed quand je vais exécuter le code). Implémenté les missing steps.\n\n\nJe n’arrive pas à comprendre les erreurs qui arrivent\n\n\nLire Biological Networks - François Képès\nRegarder les applications pour les collections de réseaux recommender system Pas pertinents et trop gros\n\n\n\n\nListing 1: Recommender systems data\n\n\nPar exemple :\n\nListe de recommendation data\n\n\n\n\n\nPapier plus multi-applications\n\nDonnées d’Elisa herbivore ?\nDonnées urbanisations ?\n\n\n\nAutour de l’article et du package\n\nCréer des vignettes illustrant par exemple des cas de simulations. Possible de mettre l’exemple d’application de Sophie sur les réseaux avec gradient d’urbanisation.\n\n\n\nSimulations article\n\nComparer sur clustering unipartite avec versions symétriser des par blocs des matrices d’adjacences.\nCorriger structure de simus :\n\nPour noisy \\alpha :\n\nLogit pour envoyer la gaussienne vers (0,1)\nBeta contrainte dans (0,1)\n\nPour noisy links : Générer nb_clustering collections de taille M puis prélever \\epsilon_{max}n_r n_c liens à inverser puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées." }, { - "objectID": "suivi/2025-27/2025-27.html", - "href": "suivi/2025-27/2025-27.html", - "title": "Bilan semaine 27 2025 : 30 juin - 4 juillet", + "objectID": "suivi/2025-38/2025-38.html", + "href": "suivi/2025-38/2025-38.html", + "title": "Bilan semaine 38 2025 : 15 septembre - 19 septembre", "section": "", - "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\nS’assurer que ça marche et relancer\n\nCreuser et explorer avec easy16s !\n✅ Ajouter le tableau de comparaison du VGAE avec colBiSBM\n⌛ Calcul du score F1Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\nDé-bugger les simulations :\n\n⌛ Inférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.\n\n⌛Bon le bug ne se reproduit plus… les jobs sont juste trop longs (> 120h) j’ai relancé, il ne reste que 182/972 conditions.\n\n\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM. Kmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser. Car densités déséquilibrées.\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\n✅ Creuser TabNet de Christophe Regouby\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" + "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n😫 bug encore. S’assurer que ça marche et relancer\n\n⌛ A Roscoff avec Julie et Pierre nous avons constaté que c’était l’extraction des dyades pour le calcul des métriques qui était incorrecte. Maintenant c’est corrigé et ça fonctionne ! En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :\n\nDonner la matrice identité comme features\nCorriger les degrés calculés.\n\n⚠️ Discuter intersection simulations\nClustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\n\nRegarder les codes Mangal database pour \\delta\nVoir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\nVoir avec Mahendra à l’occasion du CSI\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" }, { - "objectID": "suivi/2025-27/2025-27.html#todo-list", - "href": "suivi/2025-27/2025-27.html#todo-list", - "title": "Bilan semaine 27 2025 : 30 juin - 4 juillet", + "objectID": "suivi/2025-38/2025-38.html#todo-list", + "href": "suivi/2025-38/2025-38.html#todo-list", + "title": "Bilan semaine 38 2025 : 15 septembre - 19 septembre", "section": "", - "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\nS’assurer que ça marche et relancer\n\nCreuser et explorer avec easy16s !\n✅ Ajouter le tableau de comparaison du VGAE avec colBiSBM\n⌛ Calcul du score F1Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\nDé-bugger les simulations :\n\n⌛ Inférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.\n\n⌛Bon le bug ne se reproduit plus… les jobs sont juste trop longs (> 120h) j’ai relancé, il ne reste que 182/972 conditions.\n\n\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM. Kmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser. Car densités déséquilibrées.\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\n✅ Creuser TabNet de Christophe Regouby\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" + "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n😫 bug encore. S’assurer que ça marche et relancer\n\n⌛ A Roscoff avec Julie et Pierre nous avons constaté que c’était l’extraction des dyades pour le calcul des métriques qui était incorrecte. Maintenant c’est corrigé et ça fonctionne ! En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :\n\nDonner la matrice identité comme features\nCorriger les degrés calculés.\n\n⚠️ Discuter intersection simulations\nClustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\n\nRegarder les codes Mangal database pour \\delta\nVoir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\nVoir avec Mahendra à l’occasion du CSI\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" }, { - "objectID": "suivi/2025-27/2025-27.html#lectures-en-cours", - "href": "suivi/2025-27/2025-27.html#lectures-en-cours", - "title": "Bilan semaine 27 2025 : 30 juin - 4 juillet", + "objectID": "suivi/2025-38/2025-38.html#biblio-à-faire", + "href": "suivi/2025-38/2025-38.html#biblio-à-faire", + "title": "Bilan semaine 38 2025 : 15 septembre - 19 septembre", + "section": "Biblio à faire", + "text": "Biblio à faire\n\nRegarder Transport optimal graphes bipartite." + }, + { + "objectID": "suivi/2025-38/2025-38.html#lectures-en-cours", + "href": "suivi/2025-38/2025-38.html#lectures-en-cours", + "title": "Bilan semaine 38 2025 : 15 septembre - 19 septembre", "section": "Lectures en cours 📚", - "text": "Lectures en cours 📚\n\nOT\n\n⌛ Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes\n⌛ Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.\n⌛ Nenna (s. d.a)\n\n\n\nInférence de graphes\n\n✅ Morton et al. (2021) VAE with Multinomial Logistic Normal distribution using Isometric Log Ratio tranform. Plus rapide que les autres méthodes et performances équivalentes\n⌛ Aitchison (1982)\n❗📖 Payne et al. (2023) sur MixMPLN\n\n\n\nCausalité\n\n❗📖 Bystrova (s. d.)" + "text": "Lectures en cours 📚\n\nHDR Vincent Brault\n\n⌛ Chap 2 : Creuser l’idée de maximiser l’énergie libre, très intéressant regarder le critère CARI et lire Robert et al 2021. Actuellement p32 du manuscrit\nChap 3\n\n\n\nOT\n\n⌛ Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes | Regarder si regularization entropique ne marche pas bien pour le graphe.\n⌛ Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.\n⌛ Nenna (s. d.a)\n\n\n\nInférence de graphes\n\n⌛ Aitchison (1982), en cours\n❗📖 Payne et al. (2023) sur MixMPLN\n\n\n\nCausalité\n\n❗📖 Bystrova (s. d.)\n\n\n\nLargest Gaps\n\n❗📖 Brault et Channarond (2023)\n❗📖 Channarond, Daudin, et Robin (2012) le papier qui introduit le Largest Gaps" }, { - "objectID": "suivi/2025-27/2025-27.html#a-discuter", - "href": "suivi/2025-27/2025-27.html#a-discuter", - "title": "Bilan semaine 27 2025 : 30 juin - 4 juillet", + "objectID": "suivi/2025-38/2025-38.html#a-discuter", + "href": "suivi/2025-38/2025-38.html#a-discuter", + "title": "Bilan semaine 38 2025 : 15 septembre - 19 septembre", "section": "A discuter", - "text": "A discuter\n\nCongés P&S\n\n✅ Quand est-ce qu’on ne se voit pas ? Et donc quand est-ce qu’on se voit après ?\n✅ Calendrier partagé\n\n\n\nThèse\n\n✅ Que prévoir pour le CSI\n\n👍 Un petit rapport\n👍 Une présentation\n\n👨‍🏫 Demander à Pierre Comment valider les enseignements comme formations Adum ?\n✅ Des recommandations de formations, voir les cours du MathSV\n\n\n\nInterprétation écologiques résultats de Baldock\n\n⌛ Point avec Elisa, oui on relance\n\n\n\nInférence\n\npbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)\n\n\nCombine networks at different taxonomic levels\n\n\nInférence + GREMLINS" + "text": "A discuter\n\nCongés P&S\n\n\nThèse\n\nFaire préz CSI\nFaire rapport CSI\n\n\n\nInférence\n\npbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)\n\n\nCombine networks at different taxonomic levels\n\n\nInférence + GREMLINS" }, { - "objectID": "suivi/2025-25/2025-25.html", - "href": "suivi/2025-25/2025-25.html", - "title": "Bilan semaine 25 2025 : 16 juin - 20 juin", + "objectID": "suivi/2025-35/2025-35.html", + "href": "suivi/2025-35/2025-35.html", + "title": "Bilan semaine 35 2025 : 25 août - 29 août", "section": "", - "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n✅ Si plusieurs clustering possibles les tester et sélectionner le meilleur\n✅ Ré-ajuster les bonnes partitions.\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n\n✅ Oui c’est bien le cas Clustering descendant & ascendant : vérifier qu’au cours du temps le BICL_{asc} \\geq BICL_{desc}\nCreuser et explorer avec easy16s !\n✅ Comparer les perfs du VAE sur Baldock avec colBiSBM par exemple\n\n\n\nAUC values for colBiSBM and VGAE models across cities\n\n\n\n\n\n\n\nAUC\n\n\n\n\n\nCity\n\n\ncolBiSBM\n\n\nUntuned VGAE\n\n\n\n\n\n\nBristol\n\n\n0.798\n\n\n0.755\n\n\n\n\nEdinburgh\n\n\n0.836\n\n\n0.774\n\n\n\n\nLeeds\n\n\n0.854\n\n\n0.760\n\n\n\n\nReading\n\n\n0.867\n\n\n0.740\n\n\n\n\n\nDé-bugger les simulations :\n\n⌛ Inférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.\n\n✅ Non ça n’a pas l’air d’être ça. Vérifier si problème de version tidyverse pour vapply sur l’inférence.\n⌛Bon le bug ne se reproduit plus… les jobs sont juste trop longs (> 120h) j’ai relancé, il ne reste que 182/972 conditions.\n\n\n✅ Il suffisait de faire la màj soit même… Si problème de parallélisation vient de pb de version future.callr le signaler à MIGALE.\nKmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser. Car densités déséquilibrées.\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nCreuser TabNet de Christophe Regouby et les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nDemander à JA si elle connaît des réseaux d’interactions connus par les experts (idée d’intégrer une connaissance experte et de voir les différences de structure par rapport à celle attendue)\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}" + "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n😫 bug encore. S’assurer que ça marche et relancer\n\n⌛ A Roscoff avec Julie et Pierre nous avons constaté que c’était l’extraction des dyades pour le calcul des métriques qui était incorrecte. Maintenant c’est corrigé et ça fonctionne ! En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :\n\nDonner la matrice identité comme features\nCorriger les degrés calculés.\n\nFaible performances de l’inférence :\n\nVérifier que les conditions d’identifiabilité des modèles fautifs sont bien remplies.\nRécupérer des jeux de paramètres et essayer de reproduire les résultats.\n\nClustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\n\nRegarder les codes Mangal database pour \\delta\nVoir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\nVoir avec Mahendra à l’occasion du CSI\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" }, { - "objectID": "suivi/2025-25/2025-25.html#todo-list", - "href": "suivi/2025-25/2025-25.html#todo-list", - "title": "Bilan semaine 25 2025 : 16 juin - 20 juin", + "objectID": "suivi/2025-35/2025-35.html#todo-list", + "href": "suivi/2025-35/2025-35.html#todo-list", + "title": "Bilan semaine 35 2025 : 25 août - 29 août", "section": "", - "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n✅ Si plusieurs clustering possibles les tester et sélectionner le meilleur\n✅ Ré-ajuster les bonnes partitions.\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n\n✅ Oui c’est bien le cas Clustering descendant & ascendant : vérifier qu’au cours du temps le BICL_{asc} \\geq BICL_{desc}\nCreuser et explorer avec easy16s !\n✅ Comparer les perfs du VAE sur Baldock avec colBiSBM par exemple\n\n\n\nAUC values for colBiSBM and VGAE models across cities\n\n\n\n\n\n\n\nAUC\n\n\n\n\n\nCity\n\n\ncolBiSBM\n\n\nUntuned VGAE\n\n\n\n\n\n\nBristol\n\n\n0.798\n\n\n0.755\n\n\n\n\nEdinburgh\n\n\n0.836\n\n\n0.774\n\n\n\n\nLeeds\n\n\n0.854\n\n\n0.760\n\n\n\n\nReading\n\n\n0.867\n\n\n0.740\n\n\n\n\n\nDé-bugger les simulations :\n\n⌛ Inférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.\n\n✅ Non ça n’a pas l’air d’être ça. Vérifier si problème de version tidyverse pour vapply sur l’inférence.\n⌛Bon le bug ne se reproduit plus… les jobs sont juste trop longs (> 120h) j’ai relancé, il ne reste que 182/972 conditions.\n\n\n✅ Il suffisait de faire la màj soit même… Si problème de parallélisation vient de pb de version future.callr le signaler à MIGALE.\nKmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser. Car densités déséquilibrées.\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nCreuser TabNet de Christophe Regouby et les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nDemander à JA si elle connaît des réseaux d’interactions connus par les experts (idée d’intégrer une connaissance experte et de voir les différences de structure par rapport à celle attendue)\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}" + "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n😫 bug encore. S’assurer que ça marche et relancer\n\n⌛ A Roscoff avec Julie et Pierre nous avons constaté que c’était l’extraction des dyades pour le calcul des métriques qui était incorrecte. Maintenant c’est corrigé et ça fonctionne ! En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :\n\nDonner la matrice identité comme features\nCorriger les degrés calculés.\n\nFaible performances de l’inférence :\n\nVérifier que les conditions d’identifiabilité des modèles fautifs sont bien remplies.\nRécupérer des jeux de paramètres et essayer de reproduire les résultats.\n\nClustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\n\nRegarder les codes Mangal database pour \\delta\nVoir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\nVoir avec Mahendra à l’occasion du CSI\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" }, { - "objectID": "suivi/2025-25/2025-25.html#lecture-en-cours", - "href": "suivi/2025-25/2025-25.html#lecture-en-cours", - "title": "Bilan semaine 25 2025 : 16 juin - 20 juin", - "section": "Lecture en cours", - "text": "Lecture en cours\n\nOT\n\n⌛ Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes\n⌛ Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.\n⌛ Nenna (s. d.a)\n\n\n\nInférence de graphes\n\n✅ Matchado et al. (2021) ➡️ Nos données étant compositionnelles il faut utiliser:\n\nCCLasso et SparCC\nHARMONIES pour zéro inflation (Binomiale négative), COZINE centered log ratio transformation compositionnalité, zéro inflation et forte précision\nMixMPLN pour générer K réseaux issus de K Poisson log Normal\nmLDM peut enlever les arêtes indirectes.\n\nNetComi agrège plusieurs méthodes tout en permettant l’analyse différentielle !\n\nSi pas compositionnelles :\n\nMeta-Network pour arêtes indirectes et non linéaires\nEnvironmentally-Driven Edge detection pour corriger les effets de l’environnement" + "objectID": "suivi/2025-35/2025-35.html#biblio-à-faire", + "href": "suivi/2025-35/2025-35.html#biblio-à-faire", + "title": "Bilan semaine 35 2025 : 25 août - 29 août", + "section": "Biblio à faire", + "text": "Biblio à faire\n\nRegarder Transport optimal graphes bipartite." }, { - "objectID": "suivi/2025-25/2025-25.html#a-discuter", - "href": "suivi/2025-25/2025-25.html#a-discuter", - "title": "Bilan semaine 25 2025 : 16 juin - 20 juin", + "objectID": "suivi/2025-35/2025-35.html#lectures-en-cours", + "href": "suivi/2025-35/2025-35.html#lectures-en-cours", + "title": "Bilan semaine 35 2025 : 25 août - 29 août", + "section": "Lectures en cours 📚", + "text": "Lectures en cours 📚\n\nHDR Vincent Brault\n\n⌛ Chap 2 : Creuser l’idée de maximiser l’énergie libre, très intéressant regarder le critère CARI et lire Robert et al 2021. Actuellement p32 du manuscrit\nChap 3\n\n\n\nOT\n\n⌛ Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes | Regarder si regularization entropique ne marche pas bien pour le graphe.\n⌛ Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.\n⌛ Nenna (s. d.a)\n\n\n\nInférence de graphes\n\n⌛ Aitchison (1982), en cours\n❗📖 Payne et al. (2023) sur MixMPLN\n\n\n\nCausalité\n\n❗📖 Bystrova (s. d.)\n\n\n\nLargest Gaps\n\n❗📖 Brault et Channarond (2023)\n❗📖 Channarond, Daudin, et Robin (2012) le papier qui introduit le Largest Gaps" + }, + { + "objectID": "suivi/2025-35/2025-35.html#a-discuter", + "href": "suivi/2025-35/2025-35.html#a-discuter", + "title": "Bilan semaine 35 2025 : 25 août - 29 août", "section": "A discuter", - "text": "A discuter\n\nInférence\n\npbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)\n\n\nCombine networks at different taxonomic levels\n\n\nInférence + GREMLINS" + "text": "A discuter\n\nCongés P&S\n\n\nThèse\n\nFaire préz CSI\nFaire rapport CSI\n\n\n\nInférence\n\npbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)\n\n\nCombine networks at different taxonomic levels\n\n\nInférence + GREMLINS" }, { - "objectID": "suivi/2025-20/2025-20.html", - "href": "suivi/2025-20/2025-20.html", - "title": "Bilan semaine 20 2025 : 12 mai - 16 mai", + "objectID": "suivi/2025-29/2025-29.html", + "href": "suivi/2025-29/2025-29.html", + "title": "Bilan semaine 29 2025 : 15 juillet - 18 juillet", "section": "", - "text": "Pour clustering de collections sur données réelles :\n\nRelâcher la pénalité pour les coupes pour proposer modèles.\n\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\nFaire le hclust avec diverses distances et voir si les coupes proposées diffèrent sensiblement\nSi plusieurs clustering possibles les tester et sélectionner le meilleur\nRé-ajuster les bonnes partitions.\n\nDonnées simulées tester diverses distances.\nDé-bugger les simulations :\n\nInférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.\n\nVérifier si problème de version tidyverse pour vapply sur l’inférence.\nSi problème de parallélisation vient de pb de version future.callr le signaler à MIGALE.\n\n\n\n\nPRÉSENTATION JDS (LSD), durée introuvable, adapter en anglais les slides et voir avec PB et SD.\nQuel plan ?\nQuels résultats ? Baldock, Traveset … (sub-Doré)\nPas la peine de préciser l’algo de clustering\nIndiquer sur une slide le problème de support pour \\pi\\rho à faire s’il y a le temps.\nRésultats sur les réseaux Baldock, regarder le positionnement par bloc des espèces communes, regarder les probas d’appartenance aux blocs par espèces communes et par réseau.\n\n\n\n\n\nKmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser. Car densités déséquilibrées.\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample\nSe renseigner techniques d’inférence de réseaux :\n\ncovariance (base corrélation et seuil)\nGraphicalLASSO\nCo-occurence\n\nLancer colSBM sur OTU\\times OTU\nCreuser TabNet de Christophe Regouby et les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair" + "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n😫 bug encore. S’assurer que ça marche et relancer\n\n⌛ En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :\n\nDonner la matrice identité comme features\nCorriger les degrés calculés.\n\n✅ Ajouter au tableau comparatif sep BiSBM\nPour s’assurer que colBiSBM marche, il faut comparer avec une proportion de :\n\nMissing links, ie des faux zéros\nNA en Missing at random (MAR)\n\nFaible performances de l’inférence :\n\nVérifier que les conditions d’identifiabilité des modèles fautifs sont bien remplies.\nRécupérer des jeux de paramètres et essayer de reproduire les résultats.\n\nClustering sur Doré :\n\nDésaggréger les réseaux et relancer le clustering sur certains auteurs.\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\n\n\n\n\nAUC values for colBiSBM, sep-BiSBM and VGAE models across cities\n\n\n\n\n\n\n\nAUC\n\n\n\n\n\nCity\n\n\ncolBiSBM\n\n\nsep-BiSBM\n\n\nUntuned VGAE\n\n\n\n\n\n\nBristol\n\n\n0.841\n\n\n0.824\n\n\n1\n\n\n\n\nEdinburgh\n\n\n0.882\n\n\n0.883\n\n\n1\n\n\n\n\nLeeds\n\n\n0.873\n\n\n0.852\n\n\n1\n\n\n\n\nReading\n\n\n0.845\n\n\n0.837\n\n\n1\n\n\n\n\n\nRegarder les codes Mangal database pour \\delta\nVoir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nAttente retour Pierre pour faire d’autres clustering\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\nInférence finie mais résultats pas fous:\n\n\n\nThe proportion of dataset where the correct number of blocks is selected.\n\n\n\n\n\n\n\niid\n\n\n\n\n\\pi\n\n\n\n\n\\rho\n\n\n\n\n\\pi\\rho\n\n\n\n\n\n\\epsilon_{\\alpha}\n\n\n\\bm{1}_{\\widehat{Q_1} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} = 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} = 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} = 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} = 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} = 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} = 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} = 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} = 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\gt 4}\n\n\n\n\n\n\n0.00\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n\n\n0.03\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n\n\n0.06\n\n\n0.19 \\pm 0.04\n\n\n0.81 \\pm 0.04\n\n\n0\n\n\n0.24 \\pm 0.04\n\n\n0.76 \\pm 0.04\n\n\n0\n\n\n0.02 \\pm 0.01\n\n\n0.33 \\pm 0.05\n\n\n0.65 \\pm 0.05\n\n\n0.26 \\pm 0.04\n\n\n0.74 \\pm 0.04\n\n\n0\n\n\n0.17 \\pm 0.04\n\n\n0.83 \\pm 0.04\n\n\n0\n\n\n0.02 \\pm 0.01\n\n\n0.2 \\pm 0.04\n\n\n0.78 \\pm 0.04\n\n\n0.06 \\pm 0.02\n\n\n0.87 \\pm 0.03\n\n\n0.06 \\pm 0.02\n\n\n0.01 \\pm 0.01\n\n\n0.88 \\pm 0.03\n\n\n0.11 \\pm 0.03\n\n\n\n\n0.09\n\n\n0\n\n\n0.94 \\pm 0.02\n\n\n0.06 \\pm 0.02\n\n\n0\n\n\n0.91 \\pm 0.03\n\n\n0.09 \\pm 0.03\n\n\n0\n\n\n0.1 \\pm 0.03\n\n\n0.9 \\pm 0.03\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.13 \\pm 0.03\n\n\n0.87 \\pm 0.03\n\n\n0\n\n\n0.87 \\pm 0.03\n\n\n0.13 \\pm 0.03\n\n\n0\n\n\n0.87 \\pm 0.03\n\n\n0.13 \\pm 0.03\n\n\n\n\n0.12\n\n\n0\n\n\n0.94 \\pm 0.02\n\n\n0.06 \\pm 0.02\n\n\n0\n\n\n0.91 \\pm 0.03\n\n\n0.09 \\pm 0.03\n\n\n0\n\n\n0.26 \\pm 0.04\n\n\n0.74 \\pm 0.04\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.3 \\pm 0.04\n\n\n0.7 \\pm 0.04\n\n\n0\n\n\n0.84 \\pm 0.04\n\n\n0.16 \\pm 0.04\n\n\n0\n\n\n0.83 \\pm 0.04\n\n\n0.17 \\pm 0.04\n\n\n\n\n0.15\n\n\n0\n\n\n0.85 \\pm 0.03\n\n\n0.15 \\pm 0.03\n\n\n0\n\n\n0.86 \\pm 0.03\n\n\n0.14 \\pm 0.03\n\n\n0\n\n\n0.34 \\pm 0.05\n\n\n0.66 \\pm 0.05\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.3 \\pm 0.04\n\n\n0.7 \\pm 0.04\n\n\n0\n\n\n0.81 \\pm 0.04\n\n\n0.19 \\pm 0.04\n\n\n0\n\n\n0.8 \\pm 0.04\n\n\n0.2 \\pm 0.04\n\n\n\n\n0.18\n\n\n0\n\n\n0.87 \\pm 0.03\n\n\n0.13 \\pm 0.03\n\n\n0\n\n\n0.84 \\pm 0.04\n\n\n0.16 \\pm 0.04\n\n\n0\n\n\n0.36 \\pm 0.05\n\n\n0.64 \\pm 0.05\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.35 \\pm 0.05\n\n\n0.65 \\pm 0.05\n\n\n0\n\n\n0.87 \\pm 0.03\n\n\n0.13 \\pm 0.03\n\n\n0\n\n\n0.82 \\pm 0.04\n\n\n0.18 \\pm 0.04\n\n\n\n\n0.21\n\n\n0\n\n\n0.92 \\pm 0.03\n\n\n0.08 \\pm 0.03\n\n\n0\n\n\n0.89 \\pm 0.03\n\n\n0.11 \\pm 0.03\n\n\n0\n\n\n0.4 \\pm 0.05\n\n\n0.6 \\pm 0.05\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.39 \\pm 0.05\n\n\n0.61 \\pm 0.05\n\n\n0\n\n\n0.84 \\pm 0.04\n\n\n0.16 \\pm 0.04\n\n\n0\n\n\n0.84 \\pm 0.04\n\n\n0.16 \\pm 0.04\n\n\n\n\n0.24\n\n\n0\n\n\n0.88 \\pm 0.03\n\n\n0.12 \\pm 0.03\n\n\n0\n\n\n0.85 \\pm 0.03\n\n\n0.15 \\pm 0.03\n\n\n0\n\n\n0.47 \\pm 0.05\n\n\n0.53 \\pm 0.05\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.99 \\pm 0.01\n\n\n0.01 \\pm 0.01\n\n\n0\n\n\n0.4 \\pm 0.05\n\n\n0.6 \\pm 0.05\n\n\n0\n\n\n0.85 \\pm 0.03\n\n\n0.15 \\pm 0.03\n\n\n0\n\n\n0.82 \\pm 0.04\n\n\n0.18 \\pm 0.04\n\n\n\n\n\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\nCreuser et explorer avec easy16s !\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" }, { - "objectID": "suivi/2025-20/2025-20.html#top-priorité", - "href": "suivi/2025-20/2025-20.html#top-priorité", - "title": "Bilan semaine 20 2025 : 12 mai - 16 mai", + "objectID": "suivi/2025-29/2025-29.html#todo-list", + "href": "suivi/2025-29/2025-29.html#todo-list", + "title": "Bilan semaine 29 2025 : 15 juillet - 18 juillet", "section": "", - "text": "Pour clustering de collections sur données réelles :\n\nRelâcher la pénalité pour les coupes pour proposer modèles.\n\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\nFaire le hclust avec diverses distances et voir si les coupes proposées diffèrent sensiblement\nSi plusieurs clustering possibles les tester et sélectionner le meilleur\nRé-ajuster les bonnes partitions.\n\nDonnées simulées tester diverses distances.\nDé-bugger les simulations :\n\nInférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.\n\nVérifier si problème de version tidyverse pour vapply sur l’inférence.\nSi problème de parallélisation vient de pb de version future.callr le signaler à MIGALE.\n\n\n\n\nPRÉSENTATION JDS (LSD), durée introuvable, adapter en anglais les slides et voir avec PB et SD.\nQuel plan ?\nQuels résultats ? Baldock, Traveset … (sub-Doré)\nPas la peine de préciser l’algo de clustering\nIndiquer sur une slide le problème de support pour \\pi\\rho à faire s’il y a le temps.\nRésultats sur les réseaux Baldock, regarder le positionnement par bloc des espèces communes, regarder les probas d’appartenance aux blocs par espèces communes et par réseau.\n\n\n\n\n\nKmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser. Car densités déséquilibrées.\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample\nSe renseigner techniques d’inférence de réseaux :\n\ncovariance (base corrélation et seuil)\nGraphicalLASSO\nCo-occurence\n\nLancer colSBM sur OTU\\times OTU\nCreuser TabNet de Christophe Regouby et les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair" + "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n😫 bug encore. S’assurer que ça marche et relancer\n\n⌛ En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :\n\nDonner la matrice identité comme features\nCorriger les degrés calculés.\n\n✅ Ajouter au tableau comparatif sep BiSBM\nPour s’assurer que colBiSBM marche, il faut comparer avec une proportion de :\n\nMissing links, ie des faux zéros\nNA en Missing at random (MAR)\n\nFaible performances de l’inférence :\n\nVérifier que les conditions d’identifiabilité des modèles fautifs sont bien remplies.\nRécupérer des jeux de paramètres et essayer de reproduire les résultats.\n\nClustering sur Doré :\n\nDésaggréger les réseaux et relancer le clustering sur certains auteurs.\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\n\n\n\n\nAUC values for colBiSBM, sep-BiSBM and VGAE models across cities\n\n\n\n\n\n\n\nAUC\n\n\n\n\n\nCity\n\n\ncolBiSBM\n\n\nsep-BiSBM\n\n\nUntuned VGAE\n\n\n\n\n\n\nBristol\n\n\n0.841\n\n\n0.824\n\n\n1\n\n\n\n\nEdinburgh\n\n\n0.882\n\n\n0.883\n\n\n1\n\n\n\n\nLeeds\n\n\n0.873\n\n\n0.852\n\n\n1\n\n\n\n\nReading\n\n\n0.845\n\n\n0.837\n\n\n1\n\n\n\n\n\nRegarder les codes Mangal database pour \\delta\nVoir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nAttente retour Pierre pour faire d’autres clustering\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\nInférence finie mais résultats pas fous:\n\n\n\nThe proportion of dataset where the correct number of blocks is selected.\n\n\n\n\n\n\n\niid\n\n\n\n\n\\pi\n\n\n\n\n\\rho\n\n\n\n\n\\pi\\rho\n\n\n\n\n\n\\epsilon_{\\alpha}\n\n\n\\bm{1}_{\\widehat{Q_1} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} = 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} = 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} = 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} = 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} = 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} = 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} = 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} = 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\gt 4}\n\n\n\n\n\n\n0.00\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n\n\n0.03\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n\n\n0.06\n\n\n0.19 \\pm 0.04\n\n\n0.81 \\pm 0.04\n\n\n0\n\n\n0.24 \\pm 0.04\n\n\n0.76 \\pm 0.04\n\n\n0\n\n\n0.02 \\pm 0.01\n\n\n0.33 \\pm 0.05\n\n\n0.65 \\pm 0.05\n\n\n0.26 \\pm 0.04\n\n\n0.74 \\pm 0.04\n\n\n0\n\n\n0.17 \\pm 0.04\n\n\n0.83 \\pm 0.04\n\n\n0\n\n\n0.02 \\pm 0.01\n\n\n0.2 \\pm 0.04\n\n\n0.78 \\pm 0.04\n\n\n0.06 \\pm 0.02\n\n\n0.87 \\pm 0.03\n\n\n0.06 \\pm 0.02\n\n\n0.01 \\pm 0.01\n\n\n0.88 \\pm 0.03\n\n\n0.11 \\pm 0.03\n\n\n\n\n0.09\n\n\n0\n\n\n0.94 \\pm 0.02\n\n\n0.06 \\pm 0.02\n\n\n0\n\n\n0.91 \\pm 0.03\n\n\n0.09 \\pm 0.03\n\n\n0\n\n\n0.1 \\pm 0.03\n\n\n0.9 \\pm 0.03\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.13 \\pm 0.03\n\n\n0.87 \\pm 0.03\n\n\n0\n\n\n0.87 \\pm 0.03\n\n\n0.13 \\pm 0.03\n\n\n0\n\n\n0.87 \\pm 0.03\n\n\n0.13 \\pm 0.03\n\n\n\n\n0.12\n\n\n0\n\n\n0.94 \\pm 0.02\n\n\n0.06 \\pm 0.02\n\n\n0\n\n\n0.91 \\pm 0.03\n\n\n0.09 \\pm 0.03\n\n\n0\n\n\n0.26 \\pm 0.04\n\n\n0.74 \\pm 0.04\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.3 \\pm 0.04\n\n\n0.7 \\pm 0.04\n\n\n0\n\n\n0.84 \\pm 0.04\n\n\n0.16 \\pm 0.04\n\n\n0\n\n\n0.83 \\pm 0.04\n\n\n0.17 \\pm 0.04\n\n\n\n\n0.15\n\n\n0\n\n\n0.85 \\pm 0.03\n\n\n0.15 \\pm 0.03\n\n\n0\n\n\n0.86 \\pm 0.03\n\n\n0.14 \\pm 0.03\n\n\n0\n\n\n0.34 \\pm 0.05\n\n\n0.66 \\pm 0.05\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.3 \\pm 0.04\n\n\n0.7 \\pm 0.04\n\n\n0\n\n\n0.81 \\pm 0.04\n\n\n0.19 \\pm 0.04\n\n\n0\n\n\n0.8 \\pm 0.04\n\n\n0.2 \\pm 0.04\n\n\n\n\n0.18\n\n\n0\n\n\n0.87 \\pm 0.03\n\n\n0.13 \\pm 0.03\n\n\n0\n\n\n0.84 \\pm 0.04\n\n\n0.16 \\pm 0.04\n\n\n0\n\n\n0.36 \\pm 0.05\n\n\n0.64 \\pm 0.05\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.35 \\pm 0.05\n\n\n0.65 \\pm 0.05\n\n\n0\n\n\n0.87 \\pm 0.03\n\n\n0.13 \\pm 0.03\n\n\n0\n\n\n0.82 \\pm 0.04\n\n\n0.18 \\pm 0.04\n\n\n\n\n0.21\n\n\n0\n\n\n0.92 \\pm 0.03\n\n\n0.08 \\pm 0.03\n\n\n0\n\n\n0.89 \\pm 0.03\n\n\n0.11 \\pm 0.03\n\n\n0\n\n\n0.4 \\pm 0.05\n\n\n0.6 \\pm 0.05\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.39 \\pm 0.05\n\n\n0.61 \\pm 0.05\n\n\n0\n\n\n0.84 \\pm 0.04\n\n\n0.16 \\pm 0.04\n\n\n0\n\n\n0.84 \\pm 0.04\n\n\n0.16 \\pm 0.04\n\n\n\n\n0.24\n\n\n0\n\n\n0.88 \\pm 0.03\n\n\n0.12 \\pm 0.03\n\n\n0\n\n\n0.85 \\pm 0.03\n\n\n0.15 \\pm 0.03\n\n\n0\n\n\n0.47 \\pm 0.05\n\n\n0.53 \\pm 0.05\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.99 \\pm 0.01\n\n\n0.01 \\pm 0.01\n\n\n0\n\n\n0.4 \\pm 0.05\n\n\n0.6 \\pm 0.05\n\n\n0\n\n\n0.85 \\pm 0.03\n\n\n0.15 \\pm 0.03\n\n\n0\n\n\n0.82 \\pm 0.04\n\n\n0.18 \\pm 0.04\n\n\n\n\n\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\nCreuser et explorer avec easy16s !\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" }, { - "objectID": "suivi/2025-20/2025-20.html#a-discuter", - "href": "suivi/2025-20/2025-20.html#a-discuter", - "title": "Bilan semaine 20 2025 : 12 mai - 16 mai", - "section": "A discuter", - "text": "A discuter" - }, - { - "objectID": "suivi/2025-20/2025-20.html#a-faire", - "href": "suivi/2025-20/2025-20.html#a-faire", - "title": "Bilan semaine 20 2025 : 12 mai - 16 mai", - "section": "A faire", - "text": "A faire\n\nInférence\n\nPapier pour comprendre données\n\nFaust et al.\nAbdill et al.\nBashan et al.\n\npbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)\n\n\nCombine networks at different taxonomic levels\n\n\nInférence + GREMLINS\n\n\n\nRédaction article\n\nRelire intro St Clair\nS’inspirer structure pour mon intro\nTrouver biblio intro\nRédiger l’intro\nDire résultats nettement meilleurs et variabilités inférieures." - }, - { - "objectID": "suivi/2025-20/2025-20.html#jai-fait", - "href": "suivi/2025-20/2025-20.html#jai-fait", - "title": "Bilan semaine 20 2025 : 12 mai - 16 mai", - "section": "J’ai fait", - "text": "J’ai fait\n\nDé-bugger les simulations :\n\nClustering : Relancer simulations de clustering avec M = 30 où M_i = 10, \\forall i. En attente retour MIGALE Relancer simus clustering avec VEM steps = 10 000 et plus nombreux init pour spectral. Ajouter simu clustering métriques nb sous-collections obtenues. Vérifier les résultats obtenus si ARI = 0. Et augmenter la taille M = 30 avec M_1 = M_2 = M_3 = 10. -> BUG, dois creuser mais juste des problèmes techniques. Le bug venait probablement d’une inadéquation entre la version de future et future.callr, les résultats temporaires sont encourageants. J’ai mis les résultats dans l’article.\n\n\n\nPrésentations LSD, JdS et ML@Aussois\n\nPRÉSENTATION JDS (LSD), durée introuvable, adapter en anglais les slides et voir avec PB et SD.\nQuel plan ?\nQuels résultats ? Baldock, Traveset … (sub-Doré)\nMettre le détails des formules et des algos pour VE et sélection de modèle en annexe.\nPréciser simplement que l’on utilise un algo VE et un critère type BIC.\n\n\n\nVGAE\n\nDé-bugger pourquoi BipartiteInnerProductDecoder.forward() -> NaN -> C’était parce que les features en entrée n’était pas normalisée par les couches de convolutions. Les meilleurs résultats d’AUC et de précisions que j’obtiens par VGAE sont autour de 0.80.\n\n\n\nInférence et microbes\n\nHuman Gut Compendium télécharger et préparé les données. Mises au format edgelist et liste de matrices et extrait les infos supplémentaires. → trop lourd en RAM pour tourner sur machine perso (optim colSBM…) ## A continuer\n\n\n\nApplications\n\nIdée Sophie: Regarder clustering de données plantes-pollinisateur selon gradient d’urbanisation\n\n\nSophie a fait une appli qui marche bien et va dans le sens de l’analyse faite (à savoir pas d’effet du gradien d’urbanisation). À continuer pour l’intégrer dans l’article !\n\n\n\nAxe inférence\n\nLire biblio fournie Julie, Inférence de réseaux : co-occurence\n\n\nJ’ai lu Faust et al.  Je lis Abdill et al." - }, - { - "objectID": "suivi/2025-20/2025-20.html#repoussés-ou-abandonnés", - "href": "suivi/2025-20/2025-20.html#repoussés-ou-abandonnés", - "title": "Bilan semaine 20 2025 : 12 mai - 16 mai", - "section": "Repoussés ou abandonnés", - "text": "Repoussés ou abandonnés\n\n\n\n\n\n\nDéplier pour voir\n\n\n\n\n\n\nRésultats simus NA Erreur pour certaines conditions : Pour NA robustness générer nb_rep collections de taille M=2 et prélever \\epsilon_{max}n_r n_c liens à retirer puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées. Il faut que j’ajoute un mécanisme pour reprendre des conditions qui ont plantés et que je skip dans le future_lapply les conditions déjà traitées (pour avoir la même seed quand je vais exécuter le code). Implémenté les missing steps.\n\n\nJe n’arrive pas à comprendre les erreurs qui arrivent\n\n\nLire Biological Networks - François Képès\nRegarder les applications pour les collections de réseaux recommender system Pas pertinents et trop gros\n\n\n\n\nListing 1: Recommender systems data\n\n\nPar exemple :\n\nListe de recommendation data\n\n\n\n\n\nPapier plus multi-applications\n\nDonnées d’Elisa herbivore ?\nDonnées urbanisations ?\n\n\n\nAutour de l’article et du package\n\nCréer des vignettes illustrant par exemple des cas de simulations. Possible de mettre l’exemple d’application de Sophie sur les réseaux avec gradient d’urbanisation.\n\n\n\nSimulations article\n\nComparer sur clustering unipartite avec versions symétriser des par blocs des matrices d’adjacences.\nCorriger structure de simus :\n\nPour noisy \\alpha :\n\nLogit pour envoyer la gaussienne vers (0,1)\nBeta contrainte dans (0,1)\n\nPour noisy links : Générer nb_clustering collections de taille M puis prélever \\epsilon_{max}n_r n_c liens à inverser puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées." - }, - { - "objectID": "suivi/2025-15/2025-15.html", - "href": "suivi/2025-15/2025-15.html", - "title": "Bilan semaine 15 2025 : 31 mars-4 avril", - "section": "", - "text": "Relire intro St Clair\nS’inspirer structure pour mon intro\nTrouver biblio intro\nRédiger l’intro\nLire les papiers de Baldock Traveset Souza Cordeniz Trojelsgaard et Gibson\nCorriger structure de simus :\n\nPour noisy \\alpha :\n\nLogit pour envoyer la gaussienne vers (0,1)\nBeta contrainte dans (0,1)\n\nPour noisy links : Générer nb_clustering collections de taille M puis prélever \\epsilon_{max}n_r n_c liens à inverser puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées.\n\nExtraire les nombres de liens communs et déplacer le tableau en annexes en faisant juste un paragraphe dans le corps de texte.\n\nPour VENDREDI\n\nRédiger et modifier les cadres de simulations dans le papier pour qu’ils soient raccord avec les données obtenues.\nÉtoffer la partie simulations studies en mettant plusieurs points pour présenter les simus et les résultats succintement.\n\n\nje pense qu’il faudrait étoffer en mettrant plusieurs points répartis en paragraphe. genre vérif selection de modèle verif clustering réseau, verif transfer leraning et de dire les résultats en qq mots\n\n\nIdée Sophie: Regarder clustering de données plantes-pollinisateur selon gradient d’urbanisation" - }, - { - "objectID": "suivi/2025-15/2025-15.html#a-faire", - "href": "suivi/2025-15/2025-15.html#a-faire", - "title": "Bilan semaine 15 2025 : 31 mars-4 avril", - "section": "", - "text": "Relire intro St Clair\nS’inspirer structure pour mon intro\nTrouver biblio intro\nRédiger l’intro\nLire les papiers de Baldock Traveset Souza Cordeniz Trojelsgaard et Gibson\nCorriger structure de simus :\n\nPour noisy \\alpha :\n\nLogit pour envoyer la gaussienne vers (0,1)\nBeta contrainte dans (0,1)\n\nPour noisy links : Générer nb_clustering collections de taille M puis prélever \\epsilon_{max}n_r n_c liens à inverser puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées.\n\nExtraire les nombres de liens communs et déplacer le tableau en annexes en faisant juste un paragraphe dans le corps de texte.\n\nPour VENDREDI\n\nRédiger et modifier les cadres de simulations dans le papier pour qu’ils soient raccord avec les données obtenues.\nÉtoffer la partie simulations studies en mettant plusieurs points pour présenter les simus et les résultats succintement.\n\n\nje pense qu’il faudrait étoffer en mettrant plusieurs points répartis en paragraphe. genre vérif selection de modèle verif clustering réseau, verif transfer leraning et de dire les résultats en qq mots\n\n\nIdée Sophie: Regarder clustering de données plantes-pollinisateur selon gradient d’urbanisation" - }, - { - "objectID": "suivi/2025-15/2025-15.html#jai-fait", - "href": "suivi/2025-15/2025-15.html#jai-fait", - "title": "Bilan semaine 15 2025 : 31 mars-4 avril", - "section": "J’ai fait", - "text": "J’ai fait\n\nClustering sub-doré pas de stabilité à la répétition malheureusement \nVérifier si les Baldock anglais ont des espèces en communs “Do they involve common species?”. Oui environ 70/250 soit plus de 20%.\nPrésenter le réseau Afrique du Sud dès l’intro des réseaux anglais de Baldock" - }, - { - "objectID": "suivi/2025-15/2025-15.html#a-continuer", - "href": "suivi/2025-15/2025-15.html#a-continuer", - "title": "Bilan semaine 15 2025 : 31 mars-4 avril", - "section": "A continuer", - "text": "A continuer\n\nRésultats simus NA Erreur pour certaines conditions : Pour NA robustness générer nb_rep collections de taille M=2 et prélever \\epsilon_{max}n_r n_c liens à retirer puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées. Il faut que j’ajoute un mécanisme pour reprendre des conditions qui ont plantés et que je skip dans le future_lapply les conditions déjà traitées (pour avoir la même seed quand je vais exécuter le code). Implémenté les missing steps en attente des résultats MIGALE.\nJ’ai lancé le clustering iid ascendant sur données sub-Doré. en attente des résultats MIGALE" - }, - { - "objectID": "suivi/2025-28/2025-28.html", - "href": "suivi/2025-28/2025-28.html", - "title": "Bilan semaine 28 2025 : 07 juillet - 11 juillet", - "section": "", - "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\nS’assurer que ça marche et relancer\n\nCreuser et explorer avec easy16s !\n⌛ Calcul du score F1Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant\nAjouter au tableau comparatif sep BiSBM\nRegarder les codes Mangal database pour \\delta\n✅ Formules ci-dessous. Voir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nAttente retour Pierre pour faire d’autres clustering\n✅ Implémenter décodeur Generalized Random Dot Product.\n✅ Réimplémentation propre et évolutive du DeepBVGAE (suivi des guidelines PyTorch Geometric)\nVérifier si il n’y a pas de data leakage (ie je prends aussi les données de val et de test pour prédire ?)\nDé-bugger les simulations :\n\n✅ Inférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.\n\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\n🛑D’abord je lis la biblio dessus Regarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" - }, - { - "objectID": "suivi/2025-28/2025-28.html#todo-list", - "href": "suivi/2025-28/2025-28.html#todo-list", - "title": "Bilan semaine 28 2025 : 07 juillet - 11 juillet", - "section": "", - "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\nS’assurer que ça marche et relancer\n\nCreuser et explorer avec easy16s !\n⌛ Calcul du score F1Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant\nAjouter au tableau comparatif sep BiSBM\nRegarder les codes Mangal database pour \\delta\n✅ Formules ci-dessous. Voir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nAttente retour Pierre pour faire d’autres clustering\n✅ Implémenter décodeur Generalized Random Dot Product.\n✅ Réimplémentation propre et évolutive du DeepBVGAE (suivi des guidelines PyTorch Geometric)\nVérifier si il n’y a pas de data leakage (ie je prends aussi les données de val et de test pour prédire ?)\nDé-bugger les simulations :\n\n✅ Inférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.\n\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\n🛑D’abord je lis la biblio dessus Regarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" - }, - { - "objectID": "suivi/2025-28/2025-28.html#biblio-à-faire", - "href": "suivi/2025-28/2025-28.html#biblio-à-faire", - "title": "Bilan semaine 28 2025 : 07 juillet - 11 juillet", + "objectID": "suivi/2025-29/2025-29.html#biblio-à-faire", + "href": "suivi/2025-29/2025-29.html#biblio-à-faire", + "title": "Bilan semaine 29 2025 : 15 juillet - 18 juillet", "section": "Biblio à faire", "text": "Biblio à faire\n\nRegarder Transport optimal graphes bipartite.\nHDR VB, chapitre de modèle à blocs latents, bcp travaillé sur bipartite OT, comparaison clustering, adaption ARI, Largest Gap" }, { - "objectID": "suivi/2025-28/2025-28.html#lectures-en-cours", - "href": "suivi/2025-28/2025-28.html#lectures-en-cours", - "title": "Bilan semaine 28 2025 : 07 juillet - 11 juillet", + "objectID": "suivi/2025-29/2025-29.html#lectures-en-cours", + "href": "suivi/2025-29/2025-29.html#lectures-en-cours", + "title": "Bilan semaine 29 2025 : 15 juillet - 18 juillet", "section": "Lectures en cours 📚", - "text": "Lectures en cours 📚\n\nOT\n\n⌛ Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes | Regarder si regularization entropique ne marche pas bien pour le graphe.\n⌛ Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.\n⌛ Nenna (s. d.a)\n\n\n\nInférence de graphes\n\n⌛ Aitchison (1982), en cours\n❗📖 Payne et al. (2023) sur MixMPLN\n\n\n\nCausalité\n\n❗📖 Bystrova (s. d.)\n\n\n\nLargest Gaps\n\n✅ Brault, Channarond, et Robert (s. d.) petit résumé de l’algo de Brault et Channarond (2023)\n❗📖 Brault et Channarond (2023)\n❗📖 Channarond, Daudin, et Robin (2012) le papier qui introduit le Largest Gaps" + "text": "Lectures en cours 📚\n\nOT\n\n⌛ Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes | Regarder si regularization entropique ne marche pas bien pour le graphe.\n⌛ Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.\n⌛ Nenna (s. d.a)\n\n\n\nInférence de graphes\n\n⌛ Aitchison (1982), en cours\n❗📖 Payne et al. (2023) sur MixMPLN\n\n\n\nCausalité\n\n❗📖 Bystrova (s. d.)\n\n\n\nLargest Gaps\n\n❗📖 Brault et Channarond (2023)\n❗📖 Channarond, Daudin, et Robin (2012) le papier qui introduit le Largest Gaps" }, { - "objectID": "suivi/2025-28/2025-28.html#a-discuter", - "href": "suivi/2025-28/2025-28.html#a-discuter", - "title": "Bilan semaine 28 2025 : 07 juillet - 11 juillet", + "objectID": "suivi/2025-29/2025-29.html#a-discuter", + "href": "suivi/2025-29/2025-29.html#a-discuter", + "title": "Bilan semaine 29 2025 : 15 juillet - 18 juillet", "section": "A discuter", "text": "A discuter\n\nCongés P&S\n\n\nThèse\n\nFaire préz CSI\nFaire rapport CSI\n\n\n\nInterprétation écologiques résultats de Baldock\n\n⌛ Point avec Elisa, oui on relance\n\n\n\nInférence\n\npbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)\n\n\nCombine networks at different taxonomic levels\n\n\nInférence + GREMLINS" }, { - "objectID": "suivi/2025-18/2025-18.html", - "href": "suivi/2025-18/2025-18.html", - "title": "Bilan semaine 18 2025 : 28 avril - 2 mai", + "objectID": "suivi/2025-44/2025-44.html", + "href": "suivi/2025-44/2025-44.html", + "title": "Bilan semaine 44 2025 : 27 octobre - 31 octobre", "section": "", - "text": "Lire biblio fournie Julie, Inférence de réseaux : co-occurence\nPapier pour comprendre données\npbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)\n\n\nCombine networks at different taxonomic levels\n\n\nInférence + GREMLINS\n\n\n\n\n\nRelire intro St Clair\nS’inspirer structure pour mon intro\nTrouver biblio intro\nRédiger l’intro\nRegarder les applications pour les collections de réseaux recommender system\nLire les papiers de Baldock Traveset Souza Cordeniz Trojelsgaard et Gibson\nDire résultats nettement meilleurs et variabilités inférieures.\nIntégrer les retours de Sophie\n\n\n\n\n\nComparer sur clustering unipartite avec versions symétriser des par blocs des matrices d’adjacences.\nCorriger structure de simus :\n\nPour noisy \\alpha :\n\nLogit pour envoyer la gaussienne vers (0,1)\nBeta contrainte dans (0,1)\n\nPour noisy links : Générer nb_clustering collections de taille M puis prélever \\epsilon_{max}n_r n_c liens à inverser puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées.\n\n\n\n\n\n\nKmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser. Car densités déséquilibrées.\n\n\n\n\n\n\nCréer des vignettes illustrant par exemple des cas de simulations. Possible de mettre l’exemple d’application de Sophie sur les réseaux avec gradient d’urbanisation." + "text": "Finir le papier :\n\nRe-structurer le plan, mon plan, Donnet et Barbillon, échelle méso et comparaison inter réseau et noeuds non partagés.\nPartie Baldock: Ajouter l’ordre des modèles préférés\nEnvoyer Info transfer en annexe et remplacer par Network partitioning\n✅ Fusionner VGAE et information transfer (missing links seulement) donc refaire tourner sur même données qu’en R. A adapter pour Python et pouvoir intégrer dans la figure. (raccourcit).\n✅ Faire sep-VGAE (seulement sur le réseaux avec missing links) et VGAE avec les 4 réseaux. En train de reproduire les résultats, AUC stable autour de 0.7\nRemplacer Information tranfer on simu par Network partitioning.\n✅ Écrire le poster avec un titre aguicheur “Are my pollinators your pollinators: …”:\n\nMaitriser graphtools de Peixoto pour essayer d’utiliser l’arbre taxonomique sur graphe de cooccurence inférer par SparCC\nMaitriser SparCC\nFaire LBM sur niveau taxonomique grossier, initialiser avec le résultat pour un niveau plus fin et ainsi de suite.\nClustering unipartite j’ai cassé une fonction de distance à vérifier et réparer\n\n\n\nPour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n👶 (délégué à stagiaire) Clustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\n\n✅ Homogénéiser notations dans les supplementaries\n\n\n\n\n\n\nLire article multi-niveaux Saint-Clair\n🆕⌛ Papier Julie Negative Binomiale\n🆕 🔎 Trouver des papiers:\n\nLBM Negative Binomial\nNetwork inference through sample comparison\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\n\nRegarder SPARTA Rennes\nEcrire et étudier les modèles pour différents niveaux taxonomiques.\n🆕 Regarder NetComi\n🆕 Regarder OneNet car aggrégation plus robuste\n🆕 Réfléchir sens d’aggréger les données ou de les diviser\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\n🆕 SparCC à différent niveaux\n🆕 SBM à différent niveaux\n🆕⌛ Tree-PLN à différents niveaux\n\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" }, { - "objectID": "suivi/2025-18/2025-18.html#a-faire", - "href": "suivi/2025-18/2025-18.html#a-faire", - "title": "Bilan semaine 18 2025 : 28 avril - 2 mai", + "objectID": "suivi/2025-44/2025-44.html#todo-list", + "href": "suivi/2025-44/2025-44.html#todo-list", + "title": "Bilan semaine 44 2025 : 27 octobre - 31 octobre", "section": "", - "text": "Lire biblio fournie Julie, Inférence de réseaux : co-occurence\nPapier pour comprendre données\npbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)\n\n\nCombine networks at different taxonomic levels\n\n\nInférence + GREMLINS\n\n\n\n\n\nRelire intro St Clair\nS’inspirer structure pour mon intro\nTrouver biblio intro\nRédiger l’intro\nRegarder les applications pour les collections de réseaux recommender system\nLire les papiers de Baldock Traveset Souza Cordeniz Trojelsgaard et Gibson\nDire résultats nettement meilleurs et variabilités inférieures.\nIntégrer les retours de Sophie\n\n\n\n\n\nComparer sur clustering unipartite avec versions symétriser des par blocs des matrices d’adjacences.\nCorriger structure de simus :\n\nPour noisy \\alpha :\n\nLogit pour envoyer la gaussienne vers (0,1)\nBeta contrainte dans (0,1)\n\nPour noisy links : Générer nb_clustering collections de taille M puis prélever \\epsilon_{max}n_r n_c liens à inverser puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées.\n\n\n\n\n\n\nKmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser. Car densités déséquilibrées.\n\n\n\n\n\n\nCréer des vignettes illustrant par exemple des cas de simulations. Possible de mettre l’exemple d’application de Sophie sur les réseaux avec gradient d’urbanisation." + "text": "Finir le papier :\n\nRe-structurer le plan, mon plan, Donnet et Barbillon, échelle méso et comparaison inter réseau et noeuds non partagés.\nPartie Baldock: Ajouter l’ordre des modèles préférés\nEnvoyer Info transfer en annexe et remplacer par Network partitioning\n✅ Fusionner VGAE et information transfer (missing links seulement) donc refaire tourner sur même données qu’en R. A adapter pour Python et pouvoir intégrer dans la figure. (raccourcit).\n✅ Faire sep-VGAE (seulement sur le réseaux avec missing links) et VGAE avec les 4 réseaux. En train de reproduire les résultats, AUC stable autour de 0.7\nRemplacer Information tranfer on simu par Network partitioning.\n✅ Écrire le poster avec un titre aguicheur “Are my pollinators your pollinators: …”:\n\nMaitriser graphtools de Peixoto pour essayer d’utiliser l’arbre taxonomique sur graphe de cooccurence inférer par SparCC\nMaitriser SparCC\nFaire LBM sur niveau taxonomique grossier, initialiser avec le résultat pour un niveau plus fin et ainsi de suite.\nClustering unipartite j’ai cassé une fonction de distance à vérifier et réparer\n\n\n\nPour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n👶 (délégué à stagiaire) Clustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\n\n✅ Homogénéiser notations dans les supplementaries\n\n\n\n\n\n\nLire article multi-niveaux Saint-Clair\n🆕⌛ Papier Julie Negative Binomiale\n🆕 🔎 Trouver des papiers:\n\nLBM Negative Binomial\nNetwork inference through sample comparison\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\n\nRegarder SPARTA Rennes\nEcrire et étudier les modèles pour différents niveaux taxonomiques.\n🆕 Regarder NetComi\n🆕 Regarder OneNet car aggrégation plus robuste\n🆕 Réfléchir sens d’aggréger les données ou de les diviser\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\n🆕 SparCC à différent niveaux\n🆕 SBM à différent niveaux\n🆕⌛ Tree-PLN à différents niveaux\n\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" }, { - "objectID": "suivi/2025-18/2025-18.html#jai-fait", - "href": "suivi/2025-18/2025-18.html#jai-fait", - "title": "Bilan semaine 18 2025 : 28 avril - 2 mai", + "objectID": "suivi/2025-44/2025-44.html#a-discuter", + "href": "suivi/2025-44/2025-44.html#a-discuter", + "title": "Bilan semaine 44 2025 : 27 octobre - 31 octobre", + "section": "A discuter", + "text": "A discuter\n\n🆕 Voir pour des Réseaux / GDR ou aller\n🆕 Chercher des cours à suivre" + }, + { + "objectID": "suivi/2025-44/2025-44.html#biblio-à-faire", + "href": "suivi/2025-44/2025-44.html#biblio-à-faire", + "title": "Bilan semaine 44 2025 : 27 octobre - 31 octobre", + "section": "Biblio à faire", + "text": "Biblio à faire\n\nRegarder Transport optimal graphes bipartite." + }, + { + "objectID": "suivi/2025-44/2025-44.html#lectures-en-cours", + "href": "suivi/2025-44/2025-44.html#lectures-en-cours", + "title": "Bilan semaine 44 2025 : 27 octobre - 31 octobre", + "section": "Lectures en cours 📚", + "text": "Lectures en cours 📚\n\nHDR Vincent Brault\n\n⌛ Chap 2 : Creuser l’idée de maximiser l’énergie libre, très intéressant regarder le critère CARI et lire Robert et al 2021. Actuellement p32 du manuscrit\nChap 3\n\n\n\nOT\n\n⌛ Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes | Regarder si regularization entropique ne marche pas bien pour le graphe.\n⌛ Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.\n⌛ Nenna (s. d.a)\n\n\n\nInférence de graphes\n\n⌛ Aitchison (1982), en cours\n❗📖 Payne et al. (2023) sur MixMPLN\n\n\n\nCausalité\n\n❗📖 Bystrova (s. d.)\n\n\n\nLargest Gaps\n\n❗📖 Brault et Channarond (2023)\n❗📖 Channarond, Daudin, et Robin (2012) le papier qui introduit le Largest Gaps" + }, + { + "objectID": "suivi/2025-33/2025-33.html", + "href": "suivi/2025-33/2025-33.html", + "title": "Bilan semaine 33 2025 : 11 août - 15 août", + "section": "", + "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n😫 bug encore. S’assurer que ça marche et relancer\n\n⌛ En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :\n\nDonner la matrice identité comme features\nCorriger les degrés calculés.\n\n✅ Ajouter au tableau comparatif sep BiSBM\n✅ Pour s’assurer que colBiSBM marche, il faut comparer avec une proportion de :\n\nMissing links, ie des faux zéros\nNA en Missing at random (MAR)\n\n\nFaible performances de l’inférence :\n\nVérifier que les conditions d’identifiabilité des modèles fautifs sont bien remplies.\nRécupérer des jeux de paramètres et essayer de reproduire les résultats.\n\nClustering sur Doré :\n\n✅ Désaggréger les réseaux et relancer le clustering sur certains auteurs.\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder !\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\n\nRegarder les codes Mangal database pour \\delta\nVoir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\n✅ Ouvert les donnés Compendium Europe avec easy16s, premières remarques : en dessous de famille peu d’information\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" + }, + { + "objectID": "suivi/2025-33/2025-33.html#todo-list", + "href": "suivi/2025-33/2025-33.html#todo-list", + "title": "Bilan semaine 33 2025 : 11 août - 15 août", + "section": "", + "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n😫 bug encore. S’assurer que ça marche et relancer\n\n⌛ En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :\n\nDonner la matrice identité comme features\nCorriger les degrés calculés.\n\n✅ Ajouter au tableau comparatif sep BiSBM\n✅ Pour s’assurer que colBiSBM marche, il faut comparer avec une proportion de :\n\nMissing links, ie des faux zéros\nNA en Missing at random (MAR)\n\n\nFaible performances de l’inférence :\n\nVérifier que les conditions d’identifiabilité des modèles fautifs sont bien remplies.\nRécupérer des jeux de paramètres et essayer de reproduire les résultats.\n\nClustering sur Doré :\n\n✅ Désaggréger les réseaux et relancer le clustering sur certains auteurs.\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder !\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\n\nRegarder les codes Mangal database pour \\delta\nVoir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\n✅ Ouvert les donnés Compendium Europe avec easy16s, premières remarques : en dessous de famille peu d’information\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" + }, + { + "objectID": "suivi/2025-33/2025-33.html#biblio-à-faire", + "href": "suivi/2025-33/2025-33.html#biblio-à-faire", + "title": "Bilan semaine 33 2025 : 11 août - 15 août", + "section": "Biblio à faire", + "text": "Biblio à faire\n\nRegarder Transport optimal graphes bipartite." + }, + { + "objectID": "suivi/2025-33/2025-33.html#lectures-en-cours", + "href": "suivi/2025-33/2025-33.html#lectures-en-cours", + "title": "Bilan semaine 33 2025 : 11 août - 15 août", + "section": "Lectures en cours 📚", + "text": "Lectures en cours 📚\n\nHDR Vincent Brault\n\n✅ Intro : Présentation de toutes les recherches, très diversifiée et de l’application aux propriétées théoriques en passant par des codes efficients. Creuser le lien entre les modèles à var latentes et le transport optimal. Le chap 4 a l’air intéressant notamment le mélange de modèles de segmentation.\n⌛ Chap 2 : Creuser l’idée de maximiser l’énergie libre, très intéressant regarder le critère CARI et lire Robert et al 2021. Actuellement p32 du manuscrit\nChap 3\n\n\n\nOT\n\n⌛ Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes | Regarder si regularization entropique ne marche pas bien pour le graphe.\n⌛ Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.\n⌛ Nenna (s. d.a)\n\n\n\nInférence de graphes\n\n⌛ Aitchison (1982), en cours\n❗📖 Payne et al. (2023) sur MixMPLN\n\n\n\nCausalité\n\n❗📖 Bystrova (s. d.)\n\n\n\nLargest Gaps\n\n❗📖 Brault et Channarond (2023)\n❗📖 Channarond, Daudin, et Robin (2012) le papier qui introduit le Largest Gaps" + }, + { + "objectID": "suivi/2025-33/2025-33.html#a-discuter", + "href": "suivi/2025-33/2025-33.html#a-discuter", + "title": "Bilan semaine 33 2025 : 11 août - 15 août", + "section": "A discuter", + "text": "A discuter\n\nCongés P&S\n\n\nThèse\n\nFaire préz CSI\nFaire rapport CSI\n\n\n\nInterprétation écologiques résultats de Baldock\n\n⌛ Point avec Elisa, oui on relance\n\n\n\nInférence\n\npbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)\n\n\nCombine networks at different taxonomic levels\n\n\nInférence + GREMLINS" + }, + { + "objectID": "suivi/2025-14/2025-14.html", + "href": "suivi/2025-14/2025-14.html", + "title": "Bilan semaine 14 2025 : 24-28 mars", + "section": "", + "text": "Relire intro St Clair\nS’inspirer structure pour mon intro\nTrouver biblio intro\nRédiger l’intro\nAgrandir la collection d’application, pas seulement Baldock mais aussi Trojelsgaard par ex\nLire les papiers de Baldock Traveset Souza Cordeniz Trojelsgaard et Gibson\nPrésenter le réseau Afrique du Sud dès l’intro des réseaux anglais de Baldock\nCorriger structure de simus :\n\nPour noisy \\alpha :\n\nLogit pour envoyer la gaussienne vers (0,1)\nBeta contrainte dans (0,1)\n\nPour noisy links : Générer nb_clustering collections de taille M puis prélever \\epsilon_{max}n_r n_c liens à inverser puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées.\n\nRédiger et modifier les cadres de simulations dans le papier pour qu’ils soient raccord avec les données obtenues.\nLancer clustering iid ascendant sur données sub-Doré.\nVérifier si les Baldock anglais ont des espèces en communs “Do they involve common species?”." + }, + { + "objectID": "suivi/2025-14/2025-14.html#a-faire", + "href": "suivi/2025-14/2025-14.html#a-faire", + "title": "Bilan semaine 14 2025 : 24-28 mars", + "section": "", + "text": "Relire intro St Clair\nS’inspirer structure pour mon intro\nTrouver biblio intro\nRédiger l’intro\nAgrandir la collection d’application, pas seulement Baldock mais aussi Trojelsgaard par ex\nLire les papiers de Baldock Traveset Souza Cordeniz Trojelsgaard et Gibson\nPrésenter le réseau Afrique du Sud dès l’intro des réseaux anglais de Baldock\nCorriger structure de simus :\n\nPour noisy \\alpha :\n\nLogit pour envoyer la gaussienne vers (0,1)\nBeta contrainte dans (0,1)\n\nPour noisy links : Générer nb_clustering collections de taille M puis prélever \\epsilon_{max}n_r n_c liens à inverser puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées.\n\nRédiger et modifier les cadres de simulations dans le papier pour qu’ils soient raccord avec les données obtenues.\nLancer clustering iid ascendant sur données sub-Doré.\nVérifier si les Baldock anglais ont des espèces en communs “Do they involve common species?”." + }, + { + "objectID": "suivi/2025-14/2025-14.html#jai-fait", + "href": "suivi/2025-14/2025-14.html#jai-fait", + "title": "Bilan semaine 14 2025 : 24-28 mars", "section": "J’ai fait", - "text": "J’ai fait\n\nJdS\n\ncolDEM CSE\n\n\n\nClustering exhaustif Baldock\n\nLe clustering de toutes les 52 partitions s’est fait en 5h30 ! (Mémoïsation)\nPour iid la meilleure partition avec BICL=-9466.911 contre BICL_{algo} = -9466.873 \\pm 0.02205 trouvé avec l’algo \nPour \\pi\\rho la meilleure partition avec BICL = -9497.92 contre BICL_{algo} =-9497.92 \\pm 0.00009" + "text": "J’ai fait\n\nCorriger structure de simus :\n\nPour NA robustness\n\nDéfinir dans la section 3 :\n\n\nRemark that for iid-colBiSBM, \\pi_q, \\rho_r > 0, and thus the blocks exist and are represented in all networks. For the other models, some blocks may not exist in some networks and this is why \\pi_q^m, \\rho_r^m \\geq 0. Using S^{(1)} and S^{(2)} we can define the restricted parameters for each network and we denote them as \\widetilde{\\bm{\\pi}}^m, \\widetilde{\\bm{\\rho}}^m and \\widetilde{\\bm{\\alpha}}^m. The restrictions thus indicate the blocks that are represented in the network m.\n\n\nÉcrire la partie preuve pour identif \\pi-colBiSBM et \\rho-colBiSBM. Identif : \\pi et \\rho en attente retours Pierre et Sophie\nSaint-Clair va passer colSBM sous GrossSBM\nAgrandir la collection d’application, pas seulement Baldock mais aussi Trojelsgaard par ex : Collection agrandie avec Baldock Traveset Souza Cordeniz Trojelsgaard et Gibson, en attente MIGALE. Clustering instable" }, { - "objectID": "suivi/2025-18/2025-18.html#a-continuer", - "href": "suivi/2025-18/2025-18.html#a-continuer", - "title": "Bilan semaine 18 2025 : 28 avril - 2 mai", + "objectID": "suivi/2025-14/2025-14.html#a-continuer", + "href": "suivi/2025-14/2025-14.html#a-continuer", + "title": "Bilan semaine 14 2025 : 24-28 mars", "section": "A continuer", - "text": "A continuer\n\nRésultats simus NA Erreur pour certaines conditions : Pour NA robustness générer nb_rep collections de taille M=2 et prélever \\epsilon_{max}n_r n_c liens à retirer puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées. Il faut que j’ajoute un mécanisme pour reprendre des conditions qui ont plantés et que je skip dans le future_lapply les conditions déjà traitées (pour avoir la même seed quand je vais exécuter le code). Implémenté les missing steps en attente des résultats MIGALE.\nLire Biological Networks - François Képès\nRelancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE\n\n\nApplications\n\nIdée Sophie: Regarder clustering de données plantes-pollinisateur selon gradient d’urbanisation\n\n\nSophie a fait une appli qui marche bien et va dans le sens de l’analyse faite (à savoir pas d’effet du gradien d’urbanisation). À continuer pour l’intégrer dans l’article !\n\n\n\nSimulations article\n\nRelancer simulations de clustering avec M = 30 où M_i = 10, \\forall i. En attente retour MIGALE Relancer simus clustering avec VEM steps = 10 000 et plus nombreux init pour spectral. Ajouter simu clustering métriques nb sous-collections obtenues. Vérifier les résultats obtenus si ARI = 0. Et augmenter la taille M = 30 avec M_1 = M_2 = M_3 = 10." + "text": "A continuer\n\nRésultats simus NA Erreur pour certaines conditions : Pour NA robustness générer nb_rep collections de taille M=2 et prélever \\epsilon_{max}n_r n_c liens à retirer puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées. Il faut que j’ajoute un mécanisme pour reprendre des conditions qui ont plantés et que je skip dans le future_lapply les conditions déjà traitées (pour avoir la même seed quand je vais exécuter le code). Implémenté les missing steps en attente des résultats MIGALE.\nPour sub doré en attente MIGALE augmenter le nbre de répèt de la procédure." + }, + { + "objectID": "suivi/2025-50/2025-50.html", + "href": "suivi/2025-50/2025-50.html", + "title": "Bilan semaine 50 2025 : 08 décembre - 12 décembre", + "section": "", + "text": "⚠️ IL Y A UNE TYPO SUR LE SIGNE DE L’ENTROPIE POUR LE PAPIER: - \\mathcal{H} au lieu de +\\mathcal{H}\nCodes pour le papier :\n\nNettoyer les scripts\nFaire un joli README\n❓Faire des notebooks\n\nFaire tourner clustering sur Trojelsgaard\nRéussir à reproduire résultat de Abramov et al. (s. d.)\nMaitriser graphtools de Peixoto pour essayer d’utiliser l’arbre taxonomique sur graphe de cooccurence inférer par SparCC\nMaitriser SparCC\nFaire LBM sur niveau taxonomique grossier, initialiser avec le résultat pour un niveau plus fin et ainsi de suite.\nClustering unipartite j’ai cassé une fonction de distance à vérifier et réparer\nPour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n👶 (délégué à Mona) Clustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\nRegarder Largest gap sur réseaux Doré\n⌛ Essayer clustering sur supinfo\n\nCAH et Kmeans tendent vers faire K = 13 clusters sur les supinfos\nEnrichir avec des métriques sur les réseaux (nestedness, connectance autres ?)\nDemander à Elisa pour la signification des métadonnées\nDemander à Elisa une fois vu cohérences de groupe voir pour interprétation écologiques ?\nAlgo de clustering sur les groupes trouvés\n\n\n\n\n\n\n\nToujours modèle LBM mais avec probas d’appartenance pour les colonnes variables:\n\\begin{align*}\nZ_i &\\sim \\mathcal{M}(1; \\pi_1, \\dots, \\pi_Q), \\sum_{q=1}^{Q} \\pi_q = 1\\\\\nW_j &\\sim \\mathcal{M}(1; \\rho_1^j, \\dots, \\rho_R^j), \\sum_{r=1}^{R} \\rho_r^j = 1\\\\\nY_{i,j}&\\mid Z_i = q, W_j = r \\sim \\mathcal{F}(\\alpha_{qr})\n\\end{align*}\nInférence variationnelle donc \\ell(Y;\\pmb{\\theta}) \\geq \\mathcal{J}(\\mathcal{R},\\pmb{\\theta}) avec\n\n\\mathcal{J}(\\mathcal{R},\\pmb{\\theta})= \\sum_{i = 1}^{n_1}\\sum_{j=1}^{n_2}\\sum_{q \\in \\mathcal{Q}_1} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{iq}^{1} \\tau_{jr}^{2} \\log f(Y_{ij}; \\alpha_{qr})\n + \\sum_{i=1}^{n_1} \\sum_{q \\in \\mathcal{Q}_1} \\tau_{iq}^{1} \\log \\pi_{\\color{black}q} + \\sum_{j=1}^{n_2} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{jr}^{2} \\log \\rho_{\\color{black}r} \\\\\n - \\sum_{i=1}^{n_1} \\tau_{iq}^{1} \\log \\tau_{iq}^{1} - \\sum_{j=1}^{n_2} \\tau_{jr}^{2} \\log \\tau_{jr}^{2}\n\nPlusieurs possibilités pour la définition de \\rho_r^j\n\n\nDénominateur pas correct, ne somme pas à 1.\n\\rho_r^j = \\frac{\\exp{\\beta_r X_j\\mathbf{1}_{\\{r\\neq R\\}}}}{1+\\sum_{s=1}^{R-1} \\beta_s X_j}, \\beta_R = 0 et \\rho_R^{j} = \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} (pas de compréhension intuitive)\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j \\mathbb{1}_{r\\neq R} - \\log (1+\\sum_{s=1}^{R-1} \\beta_s X_j))]\n\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j}{1+\\sum_{s=1}^{R-1} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} \\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_R^j \\bigr) X_j\\biggr]\n\\end{align*}\n❓ Gradient mesure l’écart entre probas a posteriori et la proba a priori du groupe de référence ?\nConclusion: Il manque l’exponentielle cette formulation ne somme pas à 1.\n\n\n\nAvec \\rho_r^j = \\frac{\\exp{\\beta_r X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} = \\sigma(\\pmb{\\beta} \\pmb{X})_{r,j}, où \\sigma désigne le softmax. Mais il y a besoin de poser une contrainte sur l’un des (\\beta_r)_{r=1,\\dots,R}, ici \\beta_R = 0.\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j - \\log (\\sum_{s=1}^{R} \\exp{\\beta_s X_j}))]\n\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j \\exp{\\beta_t X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\sigma(\\pmb{\\beta} \\pmb{X})_{t,j}\\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_t^j \\bigr) X_j\\biggr]\n\\end{align*}\n\n\n\n\n\nLire article multi-niveaux Saint-Clair\n🆕 🔎 Trouver des papiers:\n\nLBM Negative Binomial\nNetwork inference through sample comparison\n\nIdée des groupes sur la base de distance phylogénétique:\n\nEn train de comprendre les distances que phyloseq permet de calculer sur notre exemple\nEn train de lire sur Principle coordinate analysis : https://openplantpathology.github.io/OPP_Workshop_Multivariate/2-MV_PCO.html\nParametric t-SNE pour avoir une unique représentation latente (inconvénient utilise du Deep Learning)\nLire Papier UniFrac\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\n\nRegarder SPARTA Rennes\nEcrire et étudier les modèles pour différents niveaux taxonomiques.\n🆕 Regarder NetComi\n🆕 Regarder OneNet car aggrégation plus robuste\n🆕 Réfléchir sens d’aggréger les données ou de les diviser\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\n🆕 SparCC à différent niveaux\n🆕 SBM à différent niveaux\n🆕⌛ Tree-PLN à différents niveaux\n\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" + }, + { + "objectID": "suivi/2025-50/2025-50.html#todo-list", + "href": "suivi/2025-50/2025-50.html#todo-list", + "title": "Bilan semaine 50 2025 : 08 décembre - 12 décembre", + "section": "", + "text": "⚠️ IL Y A UNE TYPO SUR LE SIGNE DE L’ENTROPIE POUR LE PAPIER: - \\mathcal{H} au lieu de +\\mathcal{H}\nCodes pour le papier :\n\nNettoyer les scripts\nFaire un joli README\n❓Faire des notebooks\n\nFaire tourner clustering sur Trojelsgaard\nRéussir à reproduire résultat de Abramov et al. (s. d.)\nMaitriser graphtools de Peixoto pour essayer d’utiliser l’arbre taxonomique sur graphe de cooccurence inférer par SparCC\nMaitriser SparCC\nFaire LBM sur niveau taxonomique grossier, initialiser avec le résultat pour un niveau plus fin et ainsi de suite.\nClustering unipartite j’ai cassé une fonction de distance à vérifier et réparer\nPour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n👶 (délégué à Mona) Clustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\nRegarder Largest gap sur réseaux Doré\n⌛ Essayer clustering sur supinfo\n\nCAH et Kmeans tendent vers faire K = 13 clusters sur les supinfos\nEnrichir avec des métriques sur les réseaux (nestedness, connectance autres ?)\nDemander à Elisa pour la signification des métadonnées\nDemander à Elisa une fois vu cohérences de groupe voir pour interprétation écologiques ?\nAlgo de clustering sur les groupes trouvés\n\n\n\n\n\n\n\nToujours modèle LBM mais avec probas d’appartenance pour les colonnes variables:\n\\begin{align*}\nZ_i &\\sim \\mathcal{M}(1; \\pi_1, \\dots, \\pi_Q), \\sum_{q=1}^{Q} \\pi_q = 1\\\\\nW_j &\\sim \\mathcal{M}(1; \\rho_1^j, \\dots, \\rho_R^j), \\sum_{r=1}^{R} \\rho_r^j = 1\\\\\nY_{i,j}&\\mid Z_i = q, W_j = r \\sim \\mathcal{F}(\\alpha_{qr})\n\\end{align*}\nInférence variationnelle donc \\ell(Y;\\pmb{\\theta}) \\geq \\mathcal{J}(\\mathcal{R},\\pmb{\\theta}) avec\n\n\\mathcal{J}(\\mathcal{R},\\pmb{\\theta})= \\sum_{i = 1}^{n_1}\\sum_{j=1}^{n_2}\\sum_{q \\in \\mathcal{Q}_1} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{iq}^{1} \\tau_{jr}^{2} \\log f(Y_{ij}; \\alpha_{qr})\n + \\sum_{i=1}^{n_1} \\sum_{q \\in \\mathcal{Q}_1} \\tau_{iq}^{1} \\log \\pi_{\\color{black}q} + \\sum_{j=1}^{n_2} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{jr}^{2} \\log \\rho_{\\color{black}r} \\\\\n - \\sum_{i=1}^{n_1} \\tau_{iq}^{1} \\log \\tau_{iq}^{1} - \\sum_{j=1}^{n_2} \\tau_{jr}^{2} \\log \\tau_{jr}^{2}\n\nPlusieurs possibilités pour la définition de \\rho_r^j\n\n\nDénominateur pas correct, ne somme pas à 1.\n\\rho_r^j = \\frac{\\exp{\\beta_r X_j\\mathbf{1}_{\\{r\\neq R\\}}}}{1+\\sum_{s=1}^{R-1} \\beta_s X_j}, \\beta_R = 0 et \\rho_R^{j} = \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} (pas de compréhension intuitive)\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j \\mathbb{1}_{r\\neq R} - \\log (1+\\sum_{s=1}^{R-1} \\beta_s X_j))]\n\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j}{1+\\sum_{s=1}^{R-1} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} \\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_R^j \\bigr) X_j\\biggr]\n\\end{align*}\n❓ Gradient mesure l’écart entre probas a posteriori et la proba a priori du groupe de référence ?\nConclusion: Il manque l’exponentielle cette formulation ne somme pas à 1.\n\n\n\nAvec \\rho_r^j = \\frac{\\exp{\\beta_r X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} = \\sigma(\\pmb{\\beta} \\pmb{X})_{r,j}, où \\sigma désigne le softmax. Mais il y a besoin de poser une contrainte sur l’un des (\\beta_r)_{r=1,\\dots,R}, ici \\beta_R = 0.\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j - \\log (\\sum_{s=1}^{R} \\exp{\\beta_s X_j}))]\n\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j \\exp{\\beta_t X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\sigma(\\pmb{\\beta} \\pmb{X})_{t,j}\\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_t^j \\bigr) X_j\\biggr]\n\\end{align*}\n\n\n\n\n\nLire article multi-niveaux Saint-Clair\n🆕 🔎 Trouver des papiers:\n\nLBM Negative Binomial\nNetwork inference through sample comparison\n\nIdée des groupes sur la base de distance phylogénétique:\n\nEn train de comprendre les distances que phyloseq permet de calculer sur notre exemple\nEn train de lire sur Principle coordinate analysis : https://openplantpathology.github.io/OPP_Workshop_Multivariate/2-MV_PCO.html\nParametric t-SNE pour avoir une unique représentation latente (inconvénient utilise du Deep Learning)\nLire Papier UniFrac\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\n\nRegarder SPARTA Rennes\nEcrire et étudier les modèles pour différents niveaux taxonomiques.\n🆕 Regarder NetComi\n🆕 Regarder OneNet car aggrégation plus robuste\n🆕 Réfléchir sens d’aggréger les données ou de les diviser\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\n🆕 SparCC à différent niveaux\n🆕 SBM à différent niveaux\n🆕⌛ Tree-PLN à différents niveaux\n\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" + }, + { + "objectID": "suivi/2025-50/2025-50.html#a-discuter", + "href": "suivi/2025-50/2025-50.html#a-discuter", + "title": "Bilan semaine 50 2025 : 08 décembre - 12 décembre", + "section": "A discuter", + "text": "A discuter\n\n🆕 Voir pour des Réseaux / GDR ou aller\n🆕 Chercher des cours à suivre" + }, + { + "objectID": "suivi/2025-50/2025-50.html#biblio-à-faire", + "href": "suivi/2025-50/2025-50.html#biblio-à-faire", + "title": "Bilan semaine 50 2025 : 08 décembre - 12 décembre", + "section": "Biblio à faire", + "text": "Biblio à faire\n\nRegarder Transport optimal graphes bipartite." + }, + { + "objectID": "suivi/2025-50/2025-50.html#lectures-en-cours", + "href": "suivi/2025-50/2025-50.html#lectures-en-cours", + "title": "Bilan semaine 50 2025 : 08 décembre - 12 décembre", + "section": "Lectures en cours 📚", + "text": "Lectures en cours 📚\n\nHDR Vincent Brault\n\n⌛ Chap 2 : Creuser l’idée de maximiser l’énergie libre, très intéressant regarder le critère CARI et lire Robert et al 2021. Actuellement p32 du manuscrit\nChap 3\n\n\n\nOT\n\n⌛ Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes | Regarder si regularization entropique ne marche pas bien pour le graphe.\n⌛ Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.\n⌛ Nenna (s. d.a)\n\n\n\nInférence de graphes\n\n⌛ Aitchison (1982), en cours\n❗📖 Payne et al. (2023) sur MixMPLN\n\n\n\nCausalité\n\n❗📖 Bystrova (s. d.)\n\n\n\nLargest Gaps\n\n❗📖 Brault et Channarond (2023)\n❗📖 Channarond, Daudin, et Robin (2012) le papier qui introduit le Largest Gaps" }, { "objectID": "suivi/2025-21/2025-21.html", @@ -392,243 +441,229 @@ "text": "Repoussés ou abandonnés\n\n\n\n\n\n\nDéplier pour voir\n\n\n\n\n\n\nRésultats simus NA Erreur pour certaines conditions : Pour NA robustness générer nb_rep collections de taille M=2 et prélever \\epsilon_{max}n_r n_c liens à retirer puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées. Il faut que j’ajoute un mécanisme pour reprendre des conditions qui ont plantés et que je skip dans le future_lapply les conditions déjà traitées (pour avoir la même seed quand je vais exécuter le code). Implémenté les missing steps.\n\n\nJe n’arrive pas à comprendre les erreurs qui arrivent\n\n\nLire Biological Networks - François Képès\nRegarder les applications pour les collections de réseaux recommender system Pas pertinents et trop gros\n\n\n\n\nListing 1: Recommender systems data\n\n\nPar exemple :\n\nListe de recommendation data\n\n\n\n\n\nPapier plus multi-applications\n\nDonnées d’Elisa herbivore ?\nDonnées urbanisations ?\n\n\n\nAutour de l’article et du package\n\nCréer des vignettes illustrant par exemple des cas de simulations. Possible de mettre l’exemple d’application de Sophie sur les réseaux avec gradient d’urbanisation.\n\n\n\nSimulations article\n\nComparer sur clustering unipartite avec versions symétriser des par blocs des matrices d’adjacences.\nCorriger structure de simus :\n\nPour noisy \\alpha :\n\nLogit pour envoyer la gaussienne vers (0,1)\nBeta contrainte dans (0,1)\n\nPour noisy links : Générer nb_clustering collections de taille M puis prélever \\epsilon_{max}n_r n_c liens à inverser puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées." }, { - "objectID": "suivi/2025-50/2025-50.html", - "href": "suivi/2025-50/2025-50.html", - "title": "Bilan semaine 50 2025 : 08 décembre - 12 décembre", + "objectID": "suivi/2025-18/2025-18.html", + "href": "suivi/2025-18/2025-18.html", + "title": "Bilan semaine 18 2025 : 28 avril - 2 mai", "section": "", - "text": "⚠️ IL Y A UNE TYPO SUR LE SIGNE DE L’ENTROPIE POUR LE PAPIER: - \\mathcal{H} au lieu de +\\mathcal{H}\nCodes pour le papier :\n\nNettoyer les scripts\nFaire un joli README\n❓Faire des notebooks\n\nFaire tourner clustering sur Trojelsgaard\nRéussir à reproduire résultat de Abramov et al. (s. d.)\nMaitriser graphtools de Peixoto pour essayer d’utiliser l’arbre taxonomique sur graphe de cooccurence inférer par SparCC\nMaitriser SparCC\nFaire LBM sur niveau taxonomique grossier, initialiser avec le résultat pour un niveau plus fin et ainsi de suite.\nClustering unipartite j’ai cassé une fonction de distance à vérifier et réparer\nPour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n👶 (délégué à Mona) Clustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\nRegarder Largest gap sur réseaux Doré\n⌛ Essayer clustering sur supinfo\n\nCAH et Kmeans tendent vers faire K = 13 clusters sur les supinfos\nEnrichir avec des métriques sur les réseaux (nestedness, connectance autres ?)\nDemander à Elisa pour la signification des métadonnées\nDemander à Elisa une fois vu cohérences de groupe voir pour interprétation écologiques ?\nAlgo de clustering sur les groupes trouvés\n\n\n\n\n\n\n\nToujours modèle LBM mais avec probas d’appartenance pour les colonnes variables:\n\\begin{align*}\nZ_i &\\sim \\mathcal{M}(1; \\pi_1, \\dots, \\pi_Q), \\sum_{q=1}^{Q} \\pi_q = 1\\\\\nW_j &\\sim \\mathcal{M}(1; \\rho_1^j, \\dots, \\rho_R^j), \\sum_{r=1}^{R} \\rho_r^j = 1\\\\\nY_{i,j}&\\mid Z_i = q, W_j = r \\sim \\mathcal{F}(\\alpha_{qr})\n\\end{align*}\nInférence variationnelle donc \\ell(Y;\\pmb{\\theta}) \\geq \\mathcal{J}(\\mathcal{R},\\pmb{\\theta}) avec\n\n\\mathcal{J}(\\mathcal{R},\\pmb{\\theta})= \\sum_{i = 1}^{n_1}\\sum_{j=1}^{n_2}\\sum_{q \\in \\mathcal{Q}_1} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{iq}^{1} \\tau_{jr}^{2} \\log f(Y_{ij}; \\alpha_{qr})\n + \\sum_{i=1}^{n_1} \\sum_{q \\in \\mathcal{Q}_1} \\tau_{iq}^{1} \\log \\pi_{\\color{black}q} + \\sum_{j=1}^{n_2} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{jr}^{2} \\log \\rho_{\\color{black}r} \\\\\n - \\sum_{i=1}^{n_1} \\tau_{iq}^{1} \\log \\tau_{iq}^{1} - \\sum_{j=1}^{n_2} \\tau_{jr}^{2} \\log \\tau_{jr}^{2}\n\nPlusieurs possibilités pour la définition de \\rho_r^j\n\n\nDénominateur pas correct, ne somme pas à 1.\n\\rho_r^j = \\frac{\\exp{\\beta_r X_j\\mathbf{1}_{\\{r\\neq R\\}}}}{1+\\sum_{s=1}^{R-1} \\beta_s X_j}, \\beta_R = 0 et \\rho_R^{j} = \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} (pas de compréhension intuitive)\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j \\mathbb{1}_{r\\neq R} - \\log (1+\\sum_{s=1}^{R-1} \\beta_s X_j))]\n\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j}{1+\\sum_{s=1}^{R-1} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} \\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_R^j \\bigr) X_j\\biggr]\n\\end{align*}\n❓ Gradient mesure l’écart entre probas a posteriori et la proba a priori du groupe de référence ?\nConclusion: Il manque l’exponentielle cette formulation ne somme pas à 1.\n\n\n\nAvec \\rho_r^j = \\frac{\\exp{\\beta_r X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} = \\sigma(\\pmb{\\beta} \\pmb{X})_{r,j}, où \\sigma désigne le softmax. Mais il y a besoin de poser une contrainte sur l’un des (\\beta_r)_{r=1,\\dots,R}, ici \\beta_R = 0.\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j - \\log (\\sum_{s=1}^{R} \\exp{\\beta_s X_j}))]\n\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j \\exp{\\beta_t X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\sigma(\\pmb{\\beta} \\pmb{X})_{t,j}\\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_t^j \\bigr) X_j\\biggr]\n\\end{align*}\n\n\n\n\n\nLire article multi-niveaux Saint-Clair\n🆕 🔎 Trouver des papiers:\n\nLBM Negative Binomial\nNetwork inference through sample comparison\n\nIdée des groupes sur la base de distance phylogénétique:\n\nEn train de comprendre les distances que phyloseq permet de calculer sur notre exemple\nEn train de lire sur Principle coordinate analysis : https://openplantpathology.github.io/OPP_Workshop_Multivariate/2-MV_PCO.html\nParametric t-SNE pour avoir une unique représentation latente (inconvénient utilise du Deep Learning)\nLire Papier UniFrac\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\n\nRegarder SPARTA Rennes\nEcrire et étudier les modèles pour différents niveaux taxonomiques.\n🆕 Regarder NetComi\n🆕 Regarder OneNet car aggrégation plus robuste\n🆕 Réfléchir sens d’aggréger les données ou de les diviser\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\n🆕 SparCC à différent niveaux\n🆕 SBM à différent niveaux\n🆕⌛ Tree-PLN à différents niveaux\n\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" + "text": "Lire biblio fournie Julie, Inférence de réseaux : co-occurence\nPapier pour comprendre données\npbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)\n\n\nCombine networks at different taxonomic levels\n\n\nInférence + GREMLINS\n\n\n\n\n\nRelire intro St Clair\nS’inspirer structure pour mon intro\nTrouver biblio intro\nRédiger l’intro\nRegarder les applications pour les collections de réseaux recommender system\nLire les papiers de Baldock Traveset Souza Cordeniz Trojelsgaard et Gibson\nDire résultats nettement meilleurs et variabilités inférieures.\nIntégrer les retours de Sophie\n\n\n\n\n\nComparer sur clustering unipartite avec versions symétriser des par blocs des matrices d’adjacences.\nCorriger structure de simus :\n\nPour noisy \\alpha :\n\nLogit pour envoyer la gaussienne vers (0,1)\nBeta contrainte dans (0,1)\n\nPour noisy links : Générer nb_clustering collections de taille M puis prélever \\epsilon_{max}n_r n_c liens à inverser puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées.\n\n\n\n\n\n\nKmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser. Car densités déséquilibrées.\n\n\n\n\n\n\nCréer des vignettes illustrant par exemple des cas de simulations. Possible de mettre l’exemple d’application de Sophie sur les réseaux avec gradient d’urbanisation." }, { - "objectID": "suivi/2025-50/2025-50.html#todo-list", - "href": "suivi/2025-50/2025-50.html#todo-list", - "title": "Bilan semaine 50 2025 : 08 décembre - 12 décembre", + "objectID": "suivi/2025-18/2025-18.html#a-faire", + "href": "suivi/2025-18/2025-18.html#a-faire", + "title": "Bilan semaine 18 2025 : 28 avril - 2 mai", "section": "", - "text": "⚠️ IL Y A UNE TYPO SUR LE SIGNE DE L’ENTROPIE POUR LE PAPIER: - \\mathcal{H} au lieu de +\\mathcal{H}\nCodes pour le papier :\n\nNettoyer les scripts\nFaire un joli README\n❓Faire des notebooks\n\nFaire tourner clustering sur Trojelsgaard\nRéussir à reproduire résultat de Abramov et al. (s. d.)\nMaitriser graphtools de Peixoto pour essayer d’utiliser l’arbre taxonomique sur graphe de cooccurence inférer par SparCC\nMaitriser SparCC\nFaire LBM sur niveau taxonomique grossier, initialiser avec le résultat pour un niveau plus fin et ainsi de suite.\nClustering unipartite j’ai cassé une fonction de distance à vérifier et réparer\nPour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n👶 (délégué à Mona) Clustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\nRegarder Largest gap sur réseaux Doré\n⌛ Essayer clustering sur supinfo\n\nCAH et Kmeans tendent vers faire K = 13 clusters sur les supinfos\nEnrichir avec des métriques sur les réseaux (nestedness, connectance autres ?)\nDemander à Elisa pour la signification des métadonnées\nDemander à Elisa une fois vu cohérences de groupe voir pour interprétation écologiques ?\nAlgo de clustering sur les groupes trouvés\n\n\n\n\n\n\n\nToujours modèle LBM mais avec probas d’appartenance pour les colonnes variables:\n\\begin{align*}\nZ_i &\\sim \\mathcal{M}(1; \\pi_1, \\dots, \\pi_Q), \\sum_{q=1}^{Q} \\pi_q = 1\\\\\nW_j &\\sim \\mathcal{M}(1; \\rho_1^j, \\dots, \\rho_R^j), \\sum_{r=1}^{R} \\rho_r^j = 1\\\\\nY_{i,j}&\\mid Z_i = q, W_j = r \\sim \\mathcal{F}(\\alpha_{qr})\n\\end{align*}\nInférence variationnelle donc \\ell(Y;\\pmb{\\theta}) \\geq \\mathcal{J}(\\mathcal{R},\\pmb{\\theta}) avec\n\n\\mathcal{J}(\\mathcal{R},\\pmb{\\theta})= \\sum_{i = 1}^{n_1}\\sum_{j=1}^{n_2}\\sum_{q \\in \\mathcal{Q}_1} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{iq}^{1} \\tau_{jr}^{2} \\log f(Y_{ij}; \\alpha_{qr})\n + \\sum_{i=1}^{n_1} \\sum_{q \\in \\mathcal{Q}_1} \\tau_{iq}^{1} \\log \\pi_{\\color{black}q} + \\sum_{j=1}^{n_2} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{jr}^{2} \\log \\rho_{\\color{black}r} \\\\\n - \\sum_{i=1}^{n_1} \\tau_{iq}^{1} \\log \\tau_{iq}^{1} - \\sum_{j=1}^{n_2} \\tau_{jr}^{2} \\log \\tau_{jr}^{2}\n\nPlusieurs possibilités pour la définition de \\rho_r^j\n\n\nDénominateur pas correct, ne somme pas à 1.\n\\rho_r^j = \\frac{\\exp{\\beta_r X_j\\mathbf{1}_{\\{r\\neq R\\}}}}{1+\\sum_{s=1}^{R-1} \\beta_s X_j}, \\beta_R = 0 et \\rho_R^{j} = \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} (pas de compréhension intuitive)\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j \\mathbb{1}_{r\\neq R} - \\log (1+\\sum_{s=1}^{R-1} \\beta_s X_j))]\n\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j}{1+\\sum_{s=1}^{R-1} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} \\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_R^j \\bigr) X_j\\biggr]\n\\end{align*}\n❓ Gradient mesure l’écart entre probas a posteriori et la proba a priori du groupe de référence ?\nConclusion: Il manque l’exponentielle cette formulation ne somme pas à 1.\n\n\n\nAvec \\rho_r^j = \\frac{\\exp{\\beta_r X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} = \\sigma(\\pmb{\\beta} \\pmb{X})_{r,j}, où \\sigma désigne le softmax. Mais il y a besoin de poser une contrainte sur l’un des (\\beta_r)_{r=1,\\dots,R}, ici \\beta_R = 0.\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j - \\log (\\sum_{s=1}^{R} \\exp{\\beta_s X_j}))]\n\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j \\exp{\\beta_t X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\sigma(\\pmb{\\beta} \\pmb{X})_{t,j}\\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_t^j \\bigr) X_j\\biggr]\n\\end{align*}\n\n\n\n\n\nLire article multi-niveaux Saint-Clair\n🆕 🔎 Trouver des papiers:\n\nLBM Negative Binomial\nNetwork inference through sample comparison\n\nIdée des groupes sur la base de distance phylogénétique:\n\nEn train de comprendre les distances que phyloseq permet de calculer sur notre exemple\nEn train de lire sur Principle coordinate analysis : https://openplantpathology.github.io/OPP_Workshop_Multivariate/2-MV_PCO.html\nParametric t-SNE pour avoir une unique représentation latente (inconvénient utilise du Deep Learning)\nLire Papier UniFrac\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\n\nRegarder SPARTA Rennes\nEcrire et étudier les modèles pour différents niveaux taxonomiques.\n🆕 Regarder NetComi\n🆕 Regarder OneNet car aggrégation plus robuste\n🆕 Réfléchir sens d’aggréger les données ou de les diviser\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\n🆕 SparCC à différent niveaux\n🆕 SBM à différent niveaux\n🆕⌛ Tree-PLN à différents niveaux\n\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" + "text": "Lire biblio fournie Julie, Inférence de réseaux : co-occurence\nPapier pour comprendre données\npbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)\n\n\nCombine networks at different taxonomic levels\n\n\nInférence + GREMLINS\n\n\n\n\n\nRelire intro St Clair\nS’inspirer structure pour mon intro\nTrouver biblio intro\nRédiger l’intro\nRegarder les applications pour les collections de réseaux recommender system\nLire les papiers de Baldock Traveset Souza Cordeniz Trojelsgaard et Gibson\nDire résultats nettement meilleurs et variabilités inférieures.\nIntégrer les retours de Sophie\n\n\n\n\n\nComparer sur clustering unipartite avec versions symétriser des par blocs des matrices d’adjacences.\nCorriger structure de simus :\n\nPour noisy \\alpha :\n\nLogit pour envoyer la gaussienne vers (0,1)\nBeta contrainte dans (0,1)\n\nPour noisy links : Générer nb_clustering collections de taille M puis prélever \\epsilon_{max}n_r n_c liens à inverser puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées.\n\n\n\n\n\n\nKmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser. Car densités déséquilibrées.\n\n\n\n\n\n\nCréer des vignettes illustrant par exemple des cas de simulations. Possible de mettre l’exemple d’application de Sophie sur les réseaux avec gradient d’urbanisation." }, { - "objectID": "suivi/2025-50/2025-50.html#a-discuter", - "href": "suivi/2025-50/2025-50.html#a-discuter", - "title": "Bilan semaine 50 2025 : 08 décembre - 12 décembre", - "section": "A discuter", - "text": "A discuter\n\n🆕 Voir pour des Réseaux / GDR ou aller\n🆕 Chercher des cours à suivre" - }, - { - "objectID": "suivi/2025-50/2025-50.html#biblio-à-faire", - "href": "suivi/2025-50/2025-50.html#biblio-à-faire", - "title": "Bilan semaine 50 2025 : 08 décembre - 12 décembre", - "section": "Biblio à faire", - "text": "Biblio à faire\n\nRegarder Transport optimal graphes bipartite." - }, - { - "objectID": "suivi/2025-50/2025-50.html#lectures-en-cours", - "href": "suivi/2025-50/2025-50.html#lectures-en-cours", - "title": "Bilan semaine 50 2025 : 08 décembre - 12 décembre", - "section": "Lectures en cours 📚", - "text": "Lectures en cours 📚\n\nHDR Vincent Brault\n\n⌛ Chap 2 : Creuser l’idée de maximiser l’énergie libre, très intéressant regarder le critère CARI et lire Robert et al 2021. Actuellement p32 du manuscrit\nChap 3\n\n\n\nOT\n\n⌛ Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes | Regarder si regularization entropique ne marche pas bien pour le graphe.\n⌛ Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.\n⌛ Nenna (s. d.a)\n\n\n\nInférence de graphes\n\n⌛ Aitchison (1982), en cours\n❗📖 Payne et al. (2023) sur MixMPLN\n\n\n\nCausalité\n\n❗📖 Bystrova (s. d.)\n\n\n\nLargest Gaps\n\n❗📖 Brault et Channarond (2023)\n❗📖 Channarond, Daudin, et Robin (2012) le papier qui introduit le Largest Gaps" - }, - { - "objectID": "suivi/2025-14/2025-14.html", - "href": "suivi/2025-14/2025-14.html", - "title": "Bilan semaine 14 2025 : 24-28 mars", - "section": "", - "text": "Relire intro St Clair\nS’inspirer structure pour mon intro\nTrouver biblio intro\nRédiger l’intro\nAgrandir la collection d’application, pas seulement Baldock mais aussi Trojelsgaard par ex\nLire les papiers de Baldock Traveset Souza Cordeniz Trojelsgaard et Gibson\nPrésenter le réseau Afrique du Sud dès l’intro des réseaux anglais de Baldock\nCorriger structure de simus :\n\nPour noisy \\alpha :\n\nLogit pour envoyer la gaussienne vers (0,1)\nBeta contrainte dans (0,1)\n\nPour noisy links : Générer nb_clustering collections de taille M puis prélever \\epsilon_{max}n_r n_c liens à inverser puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées.\n\nRédiger et modifier les cadres de simulations dans le papier pour qu’ils soient raccord avec les données obtenues.\nLancer clustering iid ascendant sur données sub-Doré.\nVérifier si les Baldock anglais ont des espèces en communs “Do they involve common species?”." - }, - { - "objectID": "suivi/2025-14/2025-14.html#a-faire", - "href": "suivi/2025-14/2025-14.html#a-faire", - "title": "Bilan semaine 14 2025 : 24-28 mars", - "section": "", - "text": "Relire intro St Clair\nS’inspirer structure pour mon intro\nTrouver biblio intro\nRédiger l’intro\nAgrandir la collection d’application, pas seulement Baldock mais aussi Trojelsgaard par ex\nLire les papiers de Baldock Traveset Souza Cordeniz Trojelsgaard et Gibson\nPrésenter le réseau Afrique du Sud dès l’intro des réseaux anglais de Baldock\nCorriger structure de simus :\n\nPour noisy \\alpha :\n\nLogit pour envoyer la gaussienne vers (0,1)\nBeta contrainte dans (0,1)\n\nPour noisy links : Générer nb_clustering collections de taille M puis prélever \\epsilon_{max}n_r n_c liens à inverser puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées.\n\nRédiger et modifier les cadres de simulations dans le papier pour qu’ils soient raccord avec les données obtenues.\nLancer clustering iid ascendant sur données sub-Doré.\nVérifier si les Baldock anglais ont des espèces en communs “Do they involve common species?”." - }, - { - "objectID": "suivi/2025-14/2025-14.html#jai-fait", - "href": "suivi/2025-14/2025-14.html#jai-fait", - "title": "Bilan semaine 14 2025 : 24-28 mars", + "objectID": "suivi/2025-18/2025-18.html#jai-fait", + "href": "suivi/2025-18/2025-18.html#jai-fait", + "title": "Bilan semaine 18 2025 : 28 avril - 2 mai", "section": "J’ai fait", - "text": "J’ai fait\n\nCorriger structure de simus :\n\nPour NA robustness\n\nDéfinir dans la section 3 :\n\n\nRemark that for iid-colBiSBM, \\pi_q, \\rho_r > 0, and thus the blocks exist and are represented in all networks. For the other models, some blocks may not exist in some networks and this is why \\pi_q^m, \\rho_r^m \\geq 0. Using S^{(1)} and S^{(2)} we can define the restricted parameters for each network and we denote them as \\widetilde{\\bm{\\pi}}^m, \\widetilde{\\bm{\\rho}}^m and \\widetilde{\\bm{\\alpha}}^m. The restrictions thus indicate the blocks that are represented in the network m.\n\n\nÉcrire la partie preuve pour identif \\pi-colBiSBM et \\rho-colBiSBM. Identif : \\pi et \\rho en attente retours Pierre et Sophie\nSaint-Clair va passer colSBM sous GrossSBM\nAgrandir la collection d’application, pas seulement Baldock mais aussi Trojelsgaard par ex : Collection agrandie avec Baldock Traveset Souza Cordeniz Trojelsgaard et Gibson, en attente MIGALE. Clustering instable" + "text": "J’ai fait\n\nJdS\n\ncolDEM CSE\n\n\n\nClustering exhaustif Baldock\n\nLe clustering de toutes les 52 partitions s’est fait en 5h30 ! (Mémoïsation)\nPour iid la meilleure partition avec BICL=-9466.911 contre BICL_{algo} = -9466.873 \\pm 0.02205 trouvé avec l’algo \nPour \\pi\\rho la meilleure partition avec BICL = -9497.92 contre BICL_{algo} =-9497.92 \\pm 0.00009" }, { - "objectID": "suivi/2025-14/2025-14.html#a-continuer", - "href": "suivi/2025-14/2025-14.html#a-continuer", - "title": "Bilan semaine 14 2025 : 24-28 mars", + "objectID": "suivi/2025-18/2025-18.html#a-continuer", + "href": "suivi/2025-18/2025-18.html#a-continuer", + "title": "Bilan semaine 18 2025 : 28 avril - 2 mai", "section": "A continuer", - "text": "A continuer\n\nRésultats simus NA Erreur pour certaines conditions : Pour NA robustness générer nb_rep collections de taille M=2 et prélever \\epsilon_{max}n_r n_c liens à retirer puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées. Il faut que j’ajoute un mécanisme pour reprendre des conditions qui ont plantés et que je skip dans le future_lapply les conditions déjà traitées (pour avoir la même seed quand je vais exécuter le code). Implémenté les missing steps en attente des résultats MIGALE.\nPour sub doré en attente MIGALE augmenter le nbre de répèt de la procédure." + "text": "A continuer\n\nRésultats simus NA Erreur pour certaines conditions : Pour NA robustness générer nb_rep collections de taille M=2 et prélever \\epsilon_{max}n_r n_c liens à retirer puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées. Il faut que j’ajoute un mécanisme pour reprendre des conditions qui ont plantés et que je skip dans le future_lapply les conditions déjà traitées (pour avoir la même seed quand je vais exécuter le code). Implémenté les missing steps en attente des résultats MIGALE.\nLire Biological Networks - François Képès\nRelancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE\n\n\nApplications\n\nIdée Sophie: Regarder clustering de données plantes-pollinisateur selon gradient d’urbanisation\n\n\nSophie a fait une appli qui marche bien et va dans le sens de l’analyse faite (à savoir pas d’effet du gradien d’urbanisation). À continuer pour l’intégrer dans l’article !\n\n\n\nSimulations article\n\nRelancer simulations de clustering avec M = 30 où M_i = 10, \\forall i. En attente retour MIGALE Relancer simus clustering avec VEM steps = 10 000 et plus nombreux init pour spectral. Ajouter simu clustering métriques nb sous-collections obtenues. Vérifier les résultats obtenus si ARI = 0. Et augmenter la taille M = 30 avec M_1 = M_2 = M_3 = 10." }, { - "objectID": "suivi/2025-33/2025-33.html", - "href": "suivi/2025-33/2025-33.html", - "title": "Bilan semaine 33 2025 : 11 août - 15 août", + "objectID": "suivi/2025-28/2025-28.html", + "href": "suivi/2025-28/2025-28.html", + "title": "Bilan semaine 28 2025 : 07 juillet - 11 juillet", "section": "", - "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n😫 bug encore. S’assurer que ça marche et relancer\n\n⌛ En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :\n\nDonner la matrice identité comme features\nCorriger les degrés calculés.\n\n✅ Ajouter au tableau comparatif sep BiSBM\n✅ Pour s’assurer que colBiSBM marche, il faut comparer avec une proportion de :\n\nMissing links, ie des faux zéros\nNA en Missing at random (MAR)\n\n\nFaible performances de l’inférence :\n\nVérifier que les conditions d’identifiabilité des modèles fautifs sont bien remplies.\nRécupérer des jeux de paramètres et essayer de reproduire les résultats.\n\nClustering sur Doré :\n\n✅ Désaggréger les réseaux et relancer le clustering sur certains auteurs.\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder !\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\n\nRegarder les codes Mangal database pour \\delta\nVoir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\n✅ Ouvert les donnés Compendium Europe avec easy16s, premières remarques : en dessous de famille peu d’information\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" + "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\nS’assurer que ça marche et relancer\n\nCreuser et explorer avec easy16s !\n⌛ Calcul du score F1Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant\nAjouter au tableau comparatif sep BiSBM\nRegarder les codes Mangal database pour \\delta\n✅ Formules ci-dessous. Voir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nAttente retour Pierre pour faire d’autres clustering\n✅ Implémenter décodeur Generalized Random Dot Product.\n✅ Réimplémentation propre et évolutive du DeepBVGAE (suivi des guidelines PyTorch Geometric)\nVérifier si il n’y a pas de data leakage (ie je prends aussi les données de val et de test pour prédire ?)\nDé-bugger les simulations :\n\n✅ Inférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.\n\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\n🛑D’abord je lis la biblio dessus Regarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" }, { - "objectID": "suivi/2025-33/2025-33.html#todo-list", - "href": "suivi/2025-33/2025-33.html#todo-list", - "title": "Bilan semaine 33 2025 : 11 août - 15 août", + "objectID": "suivi/2025-28/2025-28.html#todo-list", + "href": "suivi/2025-28/2025-28.html#todo-list", + "title": "Bilan semaine 28 2025 : 07 juillet - 11 juillet", "section": "", - "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n😫 bug encore. S’assurer que ça marche et relancer\n\n⌛ En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :\n\nDonner la matrice identité comme features\nCorriger les degrés calculés.\n\n✅ Ajouter au tableau comparatif sep BiSBM\n✅ Pour s’assurer que colBiSBM marche, il faut comparer avec une proportion de :\n\nMissing links, ie des faux zéros\nNA en Missing at random (MAR)\n\n\nFaible performances de l’inférence :\n\nVérifier que les conditions d’identifiabilité des modèles fautifs sont bien remplies.\nRécupérer des jeux de paramètres et essayer de reproduire les résultats.\n\nClustering sur Doré :\n\n✅ Désaggréger les réseaux et relancer le clustering sur certains auteurs.\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder !\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\n\nRegarder les codes Mangal database pour \\delta\nVoir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\n✅ Ouvert les donnés Compendium Europe avec easy16s, premières remarques : en dessous de famille peu d’information\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" + "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\nS’assurer que ça marche et relancer\n\nCreuser et explorer avec easy16s !\n⌛ Calcul du score F1Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant\nAjouter au tableau comparatif sep BiSBM\nRegarder les codes Mangal database pour \\delta\n✅ Formules ci-dessous. Voir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nAttente retour Pierre pour faire d’autres clustering\n✅ Implémenter décodeur Generalized Random Dot Product.\n✅ Réimplémentation propre et évolutive du DeepBVGAE (suivi des guidelines PyTorch Geometric)\nVérifier si il n’y a pas de data leakage (ie je prends aussi les données de val et de test pour prédire ?)\nDé-bugger les simulations :\n\n✅ Inférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.\n\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\n🛑D’abord je lis la biblio dessus Regarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" }, { - "objectID": "suivi/2025-33/2025-33.html#biblio-à-faire", - "href": "suivi/2025-33/2025-33.html#biblio-à-faire", - "title": "Bilan semaine 33 2025 : 11 août - 15 août", - "section": "Biblio à faire", - "text": "Biblio à faire\n\nRegarder Transport optimal graphes bipartite." - }, - { - "objectID": "suivi/2025-33/2025-33.html#lectures-en-cours", - "href": "suivi/2025-33/2025-33.html#lectures-en-cours", - "title": "Bilan semaine 33 2025 : 11 août - 15 août", - "section": "Lectures en cours 📚", - "text": "Lectures en cours 📚\n\nHDR Vincent Brault\n\n✅ Intro : Présentation de toutes les recherches, très diversifiée et de l’application aux propriétées théoriques en passant par des codes efficients. Creuser le lien entre les modèles à var latentes et le transport optimal. Le chap 4 a l’air intéressant notamment le mélange de modèles de segmentation.\n⌛ Chap 2 : Creuser l’idée de maximiser l’énergie libre, très intéressant regarder le critère CARI et lire Robert et al 2021. Actuellement p32 du manuscrit\nChap 3\n\n\n\nOT\n\n⌛ Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes | Regarder si regularization entropique ne marche pas bien pour le graphe.\n⌛ Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.\n⌛ Nenna (s. d.a)\n\n\n\nInférence de graphes\n\n⌛ Aitchison (1982), en cours\n❗📖 Payne et al. (2023) sur MixMPLN\n\n\n\nCausalité\n\n❗📖 Bystrova (s. d.)\n\n\n\nLargest Gaps\n\n❗📖 Brault et Channarond (2023)\n❗📖 Channarond, Daudin, et Robin (2012) le papier qui introduit le Largest Gaps" - }, - { - "objectID": "suivi/2025-33/2025-33.html#a-discuter", - "href": "suivi/2025-33/2025-33.html#a-discuter", - "title": "Bilan semaine 33 2025 : 11 août - 15 août", - "section": "A discuter", - "text": "A discuter\n\nCongés P&S\n\n\nThèse\n\nFaire préz CSI\nFaire rapport CSI\n\n\n\nInterprétation écologiques résultats de Baldock\n\n⌛ Point avec Elisa, oui on relance\n\n\n\nInférence\n\npbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)\n\n\nCombine networks at different taxonomic levels\n\n\nInférence + GREMLINS" - }, - { - "objectID": "suivi/2025-44/2025-44.html", - "href": "suivi/2025-44/2025-44.html", - "title": "Bilan semaine 44 2025 : 27 octobre - 31 octobre", - "section": "", - "text": "Finir le papier :\n\nRe-structurer le plan, mon plan, Donnet et Barbillon, échelle méso et comparaison inter réseau et noeuds non partagés.\nPartie Baldock: Ajouter l’ordre des modèles préférés\nEnvoyer Info transfer en annexe et remplacer par Network partitioning\n✅ Fusionner VGAE et information transfer (missing links seulement) donc refaire tourner sur même données qu’en R. A adapter pour Python et pouvoir intégrer dans la figure. (raccourcit).\n✅ Faire sep-VGAE (seulement sur le réseaux avec missing links) et VGAE avec les 4 réseaux. En train de reproduire les résultats, AUC stable autour de 0.7\nRemplacer Information tranfer on simu par Network partitioning.\n✅ Écrire le poster avec un titre aguicheur “Are my pollinators your pollinators: …”:\n\nMaitriser graphtools de Peixoto pour essayer d’utiliser l’arbre taxonomique sur graphe de cooccurence inférer par SparCC\nMaitriser SparCC\nFaire LBM sur niveau taxonomique grossier, initialiser avec le résultat pour un niveau plus fin et ainsi de suite.\nClustering unipartite j’ai cassé une fonction de distance à vérifier et réparer\n\n\n\nPour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n👶 (délégué à stagiaire) Clustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\n\n✅ Homogénéiser notations dans les supplementaries\n\n\n\n\n\n\nLire article multi-niveaux Saint-Clair\n🆕⌛ Papier Julie Negative Binomiale\n🆕 🔎 Trouver des papiers:\n\nLBM Negative Binomial\nNetwork inference through sample comparison\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\n\nRegarder SPARTA Rennes\nEcrire et étudier les modèles pour différents niveaux taxonomiques.\n🆕 Regarder NetComi\n🆕 Regarder OneNet car aggrégation plus robuste\n🆕 Réfléchir sens d’aggréger les données ou de les diviser\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\n🆕 SparCC à différent niveaux\n🆕 SBM à différent niveaux\n🆕⌛ Tree-PLN à différents niveaux\n\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" - }, - { - "objectID": "suivi/2025-44/2025-44.html#todo-list", - "href": "suivi/2025-44/2025-44.html#todo-list", - "title": "Bilan semaine 44 2025 : 27 octobre - 31 octobre", - "section": "", - "text": "Finir le papier :\n\nRe-structurer le plan, mon plan, Donnet et Barbillon, échelle méso et comparaison inter réseau et noeuds non partagés.\nPartie Baldock: Ajouter l’ordre des modèles préférés\nEnvoyer Info transfer en annexe et remplacer par Network partitioning\n✅ Fusionner VGAE et information transfer (missing links seulement) donc refaire tourner sur même données qu’en R. A adapter pour Python et pouvoir intégrer dans la figure. (raccourcit).\n✅ Faire sep-VGAE (seulement sur le réseaux avec missing links) et VGAE avec les 4 réseaux. En train de reproduire les résultats, AUC stable autour de 0.7\nRemplacer Information tranfer on simu par Network partitioning.\n✅ Écrire le poster avec un titre aguicheur “Are my pollinators your pollinators: …”:\n\nMaitriser graphtools de Peixoto pour essayer d’utiliser l’arbre taxonomique sur graphe de cooccurence inférer par SparCC\nMaitriser SparCC\nFaire LBM sur niveau taxonomique grossier, initialiser avec le résultat pour un niveau plus fin et ainsi de suite.\nClustering unipartite j’ai cassé une fonction de distance à vérifier et réparer\n\n\n\nPour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n👶 (délégué à stagiaire) Clustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\n\n✅ Homogénéiser notations dans les supplementaries\n\n\n\n\n\n\nLire article multi-niveaux Saint-Clair\n🆕⌛ Papier Julie Negative Binomiale\n🆕 🔎 Trouver des papiers:\n\nLBM Negative Binomial\nNetwork inference through sample comparison\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\n\nRegarder SPARTA Rennes\nEcrire et étudier les modèles pour différents niveaux taxonomiques.\n🆕 Regarder NetComi\n🆕 Regarder OneNet car aggrégation plus robuste\n🆕 Réfléchir sens d’aggréger les données ou de les diviser\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\n🆕 SparCC à différent niveaux\n🆕 SBM à différent niveaux\n🆕⌛ Tree-PLN à différents niveaux\n\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" - }, - { - "objectID": "suivi/2025-44/2025-44.html#a-discuter", - "href": "suivi/2025-44/2025-44.html#a-discuter", - "title": "Bilan semaine 44 2025 : 27 octobre - 31 octobre", - "section": "A discuter", - "text": "A discuter\n\n🆕 Voir pour des Réseaux / GDR ou aller\n🆕 Chercher des cours à suivre" - }, - { - "objectID": "suivi/2025-44/2025-44.html#biblio-à-faire", - "href": "suivi/2025-44/2025-44.html#biblio-à-faire", - "title": "Bilan semaine 44 2025 : 27 octobre - 31 octobre", - "section": "Biblio à faire", - "text": "Biblio à faire\n\nRegarder Transport optimal graphes bipartite." - }, - { - "objectID": "suivi/2025-44/2025-44.html#lectures-en-cours", - "href": "suivi/2025-44/2025-44.html#lectures-en-cours", - "title": "Bilan semaine 44 2025 : 27 octobre - 31 octobre", - "section": "Lectures en cours 📚", - "text": "Lectures en cours 📚\n\nHDR Vincent Brault\n\n⌛ Chap 2 : Creuser l’idée de maximiser l’énergie libre, très intéressant regarder le critère CARI et lire Robert et al 2021. Actuellement p32 du manuscrit\nChap 3\n\n\n\nOT\n\n⌛ Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes | Regarder si regularization entropique ne marche pas bien pour le graphe.\n⌛ Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.\n⌛ Nenna (s. d.a)\n\n\n\nInférence de graphes\n\n⌛ Aitchison (1982), en cours\n❗📖 Payne et al. (2023) sur MixMPLN\n\n\n\nCausalité\n\n❗📖 Bystrova (s. d.)\n\n\n\nLargest Gaps\n\n❗📖 Brault et Channarond (2023)\n❗📖 Channarond, Daudin, et Robin (2012) le papier qui introduit le Largest Gaps" - }, - { - "objectID": "suivi/2025-29/2025-29.html", - "href": "suivi/2025-29/2025-29.html", - "title": "Bilan semaine 29 2025 : 15 juillet - 18 juillet", - "section": "", - "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n😫 bug encore. S’assurer que ça marche et relancer\n\n⌛ En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :\n\nDonner la matrice identité comme features\nCorriger les degrés calculés.\n\n✅ Ajouter au tableau comparatif sep BiSBM\nPour s’assurer que colBiSBM marche, il faut comparer avec une proportion de :\n\nMissing links, ie des faux zéros\nNA en Missing at random (MAR)\n\nFaible performances de l’inférence :\n\nVérifier que les conditions d’identifiabilité des modèles fautifs sont bien remplies.\nRécupérer des jeux de paramètres et essayer de reproduire les résultats.\n\nClustering sur Doré :\n\nDésaggréger les réseaux et relancer le clustering sur certains auteurs.\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\n\n\n\n\nAUC values for colBiSBM, sep-BiSBM and VGAE models across cities\n\n\n\n\n\n\n\nAUC\n\n\n\n\n\nCity\n\n\ncolBiSBM\n\n\nsep-BiSBM\n\n\nUntuned VGAE\n\n\n\n\n\n\nBristol\n\n\n0.841\n\n\n0.824\n\n\n1\n\n\n\n\nEdinburgh\n\n\n0.882\n\n\n0.883\n\n\n1\n\n\n\n\nLeeds\n\n\n0.873\n\n\n0.852\n\n\n1\n\n\n\n\nReading\n\n\n0.845\n\n\n0.837\n\n\n1\n\n\n\n\n\nRegarder les codes Mangal database pour \\delta\nVoir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nAttente retour Pierre pour faire d’autres clustering\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\nInférence finie mais résultats pas fous:\n\n\n\nThe proportion of dataset where the correct number of blocks is selected.\n\n\n\n\n\n\n\niid\n\n\n\n\n\\pi\n\n\n\n\n\\rho\n\n\n\n\n\\pi\\rho\n\n\n\n\n\n\\epsilon_{\\alpha}\n\n\n\\bm{1}_{\\widehat{Q_1} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} = 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} = 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} = 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} = 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} = 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} = 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} = 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} = 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\gt 4}\n\n\n\n\n\n\n0.00\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n\n\n0.03\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n\n\n0.06\n\n\n0.19 \\pm 0.04\n\n\n0.81 \\pm 0.04\n\n\n0\n\n\n0.24 \\pm 0.04\n\n\n0.76 \\pm 0.04\n\n\n0\n\n\n0.02 \\pm 0.01\n\n\n0.33 \\pm 0.05\n\n\n0.65 \\pm 0.05\n\n\n0.26 \\pm 0.04\n\n\n0.74 \\pm 0.04\n\n\n0\n\n\n0.17 \\pm 0.04\n\n\n0.83 \\pm 0.04\n\n\n0\n\n\n0.02 \\pm 0.01\n\n\n0.2 \\pm 0.04\n\n\n0.78 \\pm 0.04\n\n\n0.06 \\pm 0.02\n\n\n0.87 \\pm 0.03\n\n\n0.06 \\pm 0.02\n\n\n0.01 \\pm 0.01\n\n\n0.88 \\pm 0.03\n\n\n0.11 \\pm 0.03\n\n\n\n\n0.09\n\n\n0\n\n\n0.94 \\pm 0.02\n\n\n0.06 \\pm 0.02\n\n\n0\n\n\n0.91 \\pm 0.03\n\n\n0.09 \\pm 0.03\n\n\n0\n\n\n0.1 \\pm 0.03\n\n\n0.9 \\pm 0.03\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.13 \\pm 0.03\n\n\n0.87 \\pm 0.03\n\n\n0\n\n\n0.87 \\pm 0.03\n\n\n0.13 \\pm 0.03\n\n\n0\n\n\n0.87 \\pm 0.03\n\n\n0.13 \\pm 0.03\n\n\n\n\n0.12\n\n\n0\n\n\n0.94 \\pm 0.02\n\n\n0.06 \\pm 0.02\n\n\n0\n\n\n0.91 \\pm 0.03\n\n\n0.09 \\pm 0.03\n\n\n0\n\n\n0.26 \\pm 0.04\n\n\n0.74 \\pm 0.04\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.3 \\pm 0.04\n\n\n0.7 \\pm 0.04\n\n\n0\n\n\n0.84 \\pm 0.04\n\n\n0.16 \\pm 0.04\n\n\n0\n\n\n0.83 \\pm 0.04\n\n\n0.17 \\pm 0.04\n\n\n\n\n0.15\n\n\n0\n\n\n0.85 \\pm 0.03\n\n\n0.15 \\pm 0.03\n\n\n0\n\n\n0.86 \\pm 0.03\n\n\n0.14 \\pm 0.03\n\n\n0\n\n\n0.34 \\pm 0.05\n\n\n0.66 \\pm 0.05\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.3 \\pm 0.04\n\n\n0.7 \\pm 0.04\n\n\n0\n\n\n0.81 \\pm 0.04\n\n\n0.19 \\pm 0.04\n\n\n0\n\n\n0.8 \\pm 0.04\n\n\n0.2 \\pm 0.04\n\n\n\n\n0.18\n\n\n0\n\n\n0.87 \\pm 0.03\n\n\n0.13 \\pm 0.03\n\n\n0\n\n\n0.84 \\pm 0.04\n\n\n0.16 \\pm 0.04\n\n\n0\n\n\n0.36 \\pm 0.05\n\n\n0.64 \\pm 0.05\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.35 \\pm 0.05\n\n\n0.65 \\pm 0.05\n\n\n0\n\n\n0.87 \\pm 0.03\n\n\n0.13 \\pm 0.03\n\n\n0\n\n\n0.82 \\pm 0.04\n\n\n0.18 \\pm 0.04\n\n\n\n\n0.21\n\n\n0\n\n\n0.92 \\pm 0.03\n\n\n0.08 \\pm 0.03\n\n\n0\n\n\n0.89 \\pm 0.03\n\n\n0.11 \\pm 0.03\n\n\n0\n\n\n0.4 \\pm 0.05\n\n\n0.6 \\pm 0.05\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.39 \\pm 0.05\n\n\n0.61 \\pm 0.05\n\n\n0\n\n\n0.84 \\pm 0.04\n\n\n0.16 \\pm 0.04\n\n\n0\n\n\n0.84 \\pm 0.04\n\n\n0.16 \\pm 0.04\n\n\n\n\n0.24\n\n\n0\n\n\n0.88 \\pm 0.03\n\n\n0.12 \\pm 0.03\n\n\n0\n\n\n0.85 \\pm 0.03\n\n\n0.15 \\pm 0.03\n\n\n0\n\n\n0.47 \\pm 0.05\n\n\n0.53 \\pm 0.05\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.99 \\pm 0.01\n\n\n0.01 \\pm 0.01\n\n\n0\n\n\n0.4 \\pm 0.05\n\n\n0.6 \\pm 0.05\n\n\n0\n\n\n0.85 \\pm 0.03\n\n\n0.15 \\pm 0.03\n\n\n0\n\n\n0.82 \\pm 0.04\n\n\n0.18 \\pm 0.04\n\n\n\n\n\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\nCreuser et explorer avec easy16s !\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" - }, - { - "objectID": "suivi/2025-29/2025-29.html#todo-list", - "href": "suivi/2025-29/2025-29.html#todo-list", - "title": "Bilan semaine 29 2025 : 15 juillet - 18 juillet", - "section": "", - "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n😫 bug encore. S’assurer que ça marche et relancer\n\n⌛ En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :\n\nDonner la matrice identité comme features\nCorriger les degrés calculés.\n\n✅ Ajouter au tableau comparatif sep BiSBM\nPour s’assurer que colBiSBM marche, il faut comparer avec une proportion de :\n\nMissing links, ie des faux zéros\nNA en Missing at random (MAR)\n\nFaible performances de l’inférence :\n\nVérifier que les conditions d’identifiabilité des modèles fautifs sont bien remplies.\nRécupérer des jeux de paramètres et essayer de reproduire les résultats.\n\nClustering sur Doré :\n\nDésaggréger les réseaux et relancer le clustering sur certains auteurs.\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\n\n\n\n\nAUC values for colBiSBM, sep-BiSBM and VGAE models across cities\n\n\n\n\n\n\n\nAUC\n\n\n\n\n\nCity\n\n\ncolBiSBM\n\n\nsep-BiSBM\n\n\nUntuned VGAE\n\n\n\n\n\n\nBristol\n\n\n0.841\n\n\n0.824\n\n\n1\n\n\n\n\nEdinburgh\n\n\n0.882\n\n\n0.883\n\n\n1\n\n\n\n\nLeeds\n\n\n0.873\n\n\n0.852\n\n\n1\n\n\n\n\nReading\n\n\n0.845\n\n\n0.837\n\n\n1\n\n\n\n\n\nRegarder les codes Mangal database pour \\delta\nVoir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nAttente retour Pierre pour faire d’autres clustering\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\nInférence finie mais résultats pas fous:\n\n\n\nThe proportion of dataset where the correct number of blocks is selected.\n\n\n\n\n\n\n\niid\n\n\n\n\n\\pi\n\n\n\n\n\\rho\n\n\n\n\n\\pi\\rho\n\n\n\n\n\n\\epsilon_{\\alpha}\n\n\n\\bm{1}_{\\widehat{Q_1} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} = 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} = 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} = 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} = 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} = 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} = 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_1} = 4}\n\n\n\\bm{1}_{\\widehat{Q_1} \\gt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\lt 4}\n\n\n\\bm{1}_{\\widehat{Q_2} = 4}\n\n\n\\bm{1}_{\\widehat{Q_2} \\gt 4}\n\n\n\n\n\n\n0.00\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n\n\n0.03\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n\n\n0.06\n\n\n0.19 \\pm 0.04\n\n\n0.81 \\pm 0.04\n\n\n0\n\n\n0.24 \\pm 0.04\n\n\n0.76 \\pm 0.04\n\n\n0\n\n\n0.02 \\pm 0.01\n\n\n0.33 \\pm 0.05\n\n\n0.65 \\pm 0.05\n\n\n0.26 \\pm 0.04\n\n\n0.74 \\pm 0.04\n\n\n0\n\n\n0.17 \\pm 0.04\n\n\n0.83 \\pm 0.04\n\n\n0\n\n\n0.02 \\pm 0.01\n\n\n0.2 \\pm 0.04\n\n\n0.78 \\pm 0.04\n\n\n0.06 \\pm 0.02\n\n\n0.87 \\pm 0.03\n\n\n0.06 \\pm 0.02\n\n\n0.01 \\pm 0.01\n\n\n0.88 \\pm 0.03\n\n\n0.11 \\pm 0.03\n\n\n\n\n0.09\n\n\n0\n\n\n0.94 \\pm 0.02\n\n\n0.06 \\pm 0.02\n\n\n0\n\n\n0.91 \\pm 0.03\n\n\n0.09 \\pm 0.03\n\n\n0\n\n\n0.1 \\pm 0.03\n\n\n0.9 \\pm 0.03\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.13 \\pm 0.03\n\n\n0.87 \\pm 0.03\n\n\n0\n\n\n0.87 \\pm 0.03\n\n\n0.13 \\pm 0.03\n\n\n0\n\n\n0.87 \\pm 0.03\n\n\n0.13 \\pm 0.03\n\n\n\n\n0.12\n\n\n0\n\n\n0.94 \\pm 0.02\n\n\n0.06 \\pm 0.02\n\n\n0\n\n\n0.91 \\pm 0.03\n\n\n0.09 \\pm 0.03\n\n\n0\n\n\n0.26 \\pm 0.04\n\n\n0.74 \\pm 0.04\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.3 \\pm 0.04\n\n\n0.7 \\pm 0.04\n\n\n0\n\n\n0.84 \\pm 0.04\n\n\n0.16 \\pm 0.04\n\n\n0\n\n\n0.83 \\pm 0.04\n\n\n0.17 \\pm 0.04\n\n\n\n\n0.15\n\n\n0\n\n\n0.85 \\pm 0.03\n\n\n0.15 \\pm 0.03\n\n\n0\n\n\n0.86 \\pm 0.03\n\n\n0.14 \\pm 0.03\n\n\n0\n\n\n0.34 \\pm 0.05\n\n\n0.66 \\pm 0.05\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.3 \\pm 0.04\n\n\n0.7 \\pm 0.04\n\n\n0\n\n\n0.81 \\pm 0.04\n\n\n0.19 \\pm 0.04\n\n\n0\n\n\n0.8 \\pm 0.04\n\n\n0.2 \\pm 0.04\n\n\n\n\n0.18\n\n\n0\n\n\n0.87 \\pm 0.03\n\n\n0.13 \\pm 0.03\n\n\n0\n\n\n0.84 \\pm 0.04\n\n\n0.16 \\pm 0.04\n\n\n0\n\n\n0.36 \\pm 0.05\n\n\n0.64 \\pm 0.05\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.35 \\pm 0.05\n\n\n0.65 \\pm 0.05\n\n\n0\n\n\n0.87 \\pm 0.03\n\n\n0.13 \\pm 0.03\n\n\n0\n\n\n0.82 \\pm 0.04\n\n\n0.18 \\pm 0.04\n\n\n\n\n0.21\n\n\n0\n\n\n0.92 \\pm 0.03\n\n\n0.08 \\pm 0.03\n\n\n0\n\n\n0.89 \\pm 0.03\n\n\n0.11 \\pm 0.03\n\n\n0\n\n\n0.4 \\pm 0.05\n\n\n0.6 \\pm 0.05\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.39 \\pm 0.05\n\n\n0.61 \\pm 0.05\n\n\n0\n\n\n0.84 \\pm 0.04\n\n\n0.16 \\pm 0.04\n\n\n0\n\n\n0.84 \\pm 0.04\n\n\n0.16 \\pm 0.04\n\n\n\n\n0.24\n\n\n0\n\n\n0.88 \\pm 0.03\n\n\n0.12 \\pm 0.03\n\n\n0\n\n\n0.85 \\pm 0.03\n\n\n0.15 \\pm 0.03\n\n\n0\n\n\n0.47 \\pm 0.05\n\n\n0.53 \\pm 0.05\n\n\n0\n\n\n1\n\n\n0\n\n\n0\n\n\n0.99 \\pm 0.01\n\n\n0.01 \\pm 0.01\n\n\n0\n\n\n0.4 \\pm 0.05\n\n\n0.6 \\pm 0.05\n\n\n0\n\n\n0.85 \\pm 0.03\n\n\n0.15 \\pm 0.03\n\n\n0\n\n\n0.82 \\pm 0.04\n\n\n0.18 \\pm 0.04\n\n\n\n\n\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\nCreuser et explorer avec easy16s !\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" - }, - { - "objectID": "suivi/2025-29/2025-29.html#biblio-à-faire", - "href": "suivi/2025-29/2025-29.html#biblio-à-faire", - "title": "Bilan semaine 29 2025 : 15 juillet - 18 juillet", + "objectID": "suivi/2025-28/2025-28.html#biblio-à-faire", + "href": "suivi/2025-28/2025-28.html#biblio-à-faire", + "title": "Bilan semaine 28 2025 : 07 juillet - 11 juillet", "section": "Biblio à faire", "text": "Biblio à faire\n\nRegarder Transport optimal graphes bipartite.\nHDR VB, chapitre de modèle à blocs latents, bcp travaillé sur bipartite OT, comparaison clustering, adaption ARI, Largest Gap" }, { - "objectID": "suivi/2025-29/2025-29.html#lectures-en-cours", - "href": "suivi/2025-29/2025-29.html#lectures-en-cours", - "title": "Bilan semaine 29 2025 : 15 juillet - 18 juillet", + "objectID": "suivi/2025-28/2025-28.html#lectures-en-cours", + "href": "suivi/2025-28/2025-28.html#lectures-en-cours", + "title": "Bilan semaine 28 2025 : 07 juillet - 11 juillet", "section": "Lectures en cours 📚", - "text": "Lectures en cours 📚\n\nOT\n\n⌛ Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes | Regarder si regularization entropique ne marche pas bien pour le graphe.\n⌛ Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.\n⌛ Nenna (s. d.a)\n\n\n\nInférence de graphes\n\n⌛ Aitchison (1982), en cours\n❗📖 Payne et al. (2023) sur MixMPLN\n\n\n\nCausalité\n\n❗📖 Bystrova (s. d.)\n\n\n\nLargest Gaps\n\n❗📖 Brault et Channarond (2023)\n❗📖 Channarond, Daudin, et Robin (2012) le papier qui introduit le Largest Gaps" + "text": "Lectures en cours 📚\n\nOT\n\n⌛ Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes | Regarder si regularization entropique ne marche pas bien pour le graphe.\n⌛ Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.\n⌛ Nenna (s. d.a)\n\n\n\nInférence de graphes\n\n⌛ Aitchison (1982), en cours\n❗📖 Payne et al. (2023) sur MixMPLN\n\n\n\nCausalité\n\n❗📖 Bystrova (s. d.)\n\n\n\nLargest Gaps\n\n✅ Brault, Channarond, et Robert (s. d.) petit résumé de l’algo de Brault et Channarond (2023)\n❗📖 Brault et Channarond (2023)\n❗📖 Channarond, Daudin, et Robin (2012) le papier qui introduit le Largest Gaps" }, { - "objectID": "suivi/2025-29/2025-29.html#a-discuter", - "href": "suivi/2025-29/2025-29.html#a-discuter", - "title": "Bilan semaine 29 2025 : 15 juillet - 18 juillet", + "objectID": "suivi/2025-28/2025-28.html#a-discuter", + "href": "suivi/2025-28/2025-28.html#a-discuter", + "title": "Bilan semaine 28 2025 : 07 juillet - 11 juillet", "section": "A discuter", "text": "A discuter\n\nCongés P&S\n\n\nThèse\n\nFaire préz CSI\nFaire rapport CSI\n\n\n\nInterprétation écologiques résultats de Baldock\n\n⌛ Point avec Elisa, oui on relance\n\n\n\nInférence\n\npbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)\n\n\nCombine networks at different taxonomic levels\n\n\nInférence + GREMLINS" }, { - "objectID": "suivi/2025-35/2025-35.html", - "href": "suivi/2025-35/2025-35.html", - "title": "Bilan semaine 35 2025 : 25 août - 29 août", + "objectID": "suivi/2025-15/2025-15.html", + "href": "suivi/2025-15/2025-15.html", + "title": "Bilan semaine 15 2025 : 31 mars-4 avril", "section": "", - "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n😫 bug encore. S’assurer que ça marche et relancer\n\n⌛ A Roscoff avec Julie et Pierre nous avons constaté que c’était l’extraction des dyades pour le calcul des métriques qui était incorrecte. Maintenant c’est corrigé et ça fonctionne ! En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :\n\nDonner la matrice identité comme features\nCorriger les degrés calculés.\n\nFaible performances de l’inférence :\n\nVérifier que les conditions d’identifiabilité des modèles fautifs sont bien remplies.\nRécupérer des jeux de paramètres et essayer de reproduire les résultats.\n\nClustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\n\nRegarder les codes Mangal database pour \\delta\nVoir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\nVoir avec Mahendra à l’occasion du CSI\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" + "text": "Relire intro St Clair\nS’inspirer structure pour mon intro\nTrouver biblio intro\nRédiger l’intro\nLire les papiers de Baldock Traveset Souza Cordeniz Trojelsgaard et Gibson\nCorriger structure de simus :\n\nPour noisy \\alpha :\n\nLogit pour envoyer la gaussienne vers (0,1)\nBeta contrainte dans (0,1)\n\nPour noisy links : Générer nb_clustering collections de taille M puis prélever \\epsilon_{max}n_r n_c liens à inverser puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées.\n\nExtraire les nombres de liens communs et déplacer le tableau en annexes en faisant juste un paragraphe dans le corps de texte.\n\nPour VENDREDI\n\nRédiger et modifier les cadres de simulations dans le papier pour qu’ils soient raccord avec les données obtenues.\nÉtoffer la partie simulations studies en mettant plusieurs points pour présenter les simus et les résultats succintement.\n\n\nje pense qu’il faudrait étoffer en mettrant plusieurs points répartis en paragraphe. genre vérif selection de modèle verif clustering réseau, verif transfer leraning et de dire les résultats en qq mots\n\n\nIdée Sophie: Regarder clustering de données plantes-pollinisateur selon gradient d’urbanisation" }, { - "objectID": "suivi/2025-35/2025-35.html#todo-list", - "href": "suivi/2025-35/2025-35.html#todo-list", - "title": "Bilan semaine 35 2025 : 25 août - 29 août", + "objectID": "suivi/2025-15/2025-15.html#a-faire", + "href": "suivi/2025-15/2025-15.html#a-faire", + "title": "Bilan semaine 15 2025 : 31 mars-4 avril", "section": "", - "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n😫 bug encore. S’assurer que ça marche et relancer\n\n⌛ A Roscoff avec Julie et Pierre nous avons constaté que c’était l’extraction des dyades pour le calcul des métriques qui était incorrecte. Maintenant c’est corrigé et ça fonctionne ! En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :\n\nDonner la matrice identité comme features\nCorriger les degrés calculés.\n\nFaible performances de l’inférence :\n\nVérifier que les conditions d’identifiabilité des modèles fautifs sont bien remplies.\nRécupérer des jeux de paramètres et essayer de reproduire les résultats.\n\nClustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\n\nRegarder les codes Mangal database pour \\delta\nVoir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\nVoir avec Mahendra à l’occasion du CSI\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" + "text": "Relire intro St Clair\nS’inspirer structure pour mon intro\nTrouver biblio intro\nRédiger l’intro\nLire les papiers de Baldock Traveset Souza Cordeniz Trojelsgaard et Gibson\nCorriger structure de simus :\n\nPour noisy \\alpha :\n\nLogit pour envoyer la gaussienne vers (0,1)\nBeta contrainte dans (0,1)\n\nPour noisy links : Générer nb_clustering collections de taille M puis prélever \\epsilon_{max}n_r n_c liens à inverser puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées.\n\nExtraire les nombres de liens communs et déplacer le tableau en annexes en faisant juste un paragraphe dans le corps de texte.\n\nPour VENDREDI\n\nRédiger et modifier les cadres de simulations dans le papier pour qu’ils soient raccord avec les données obtenues.\nÉtoffer la partie simulations studies en mettant plusieurs points pour présenter les simus et les résultats succintement.\n\n\nje pense qu’il faudrait étoffer en mettrant plusieurs points répartis en paragraphe. genre vérif selection de modèle verif clustering réseau, verif transfer leraning et de dire les résultats en qq mots\n\n\nIdée Sophie: Regarder clustering de données plantes-pollinisateur selon gradient d’urbanisation" }, { - "objectID": "suivi/2025-35/2025-35.html#biblio-à-faire", - "href": "suivi/2025-35/2025-35.html#biblio-à-faire", - "title": "Bilan semaine 35 2025 : 25 août - 29 août", + "objectID": "suivi/2025-15/2025-15.html#jai-fait", + "href": "suivi/2025-15/2025-15.html#jai-fait", + "title": "Bilan semaine 15 2025 : 31 mars-4 avril", + "section": "J’ai fait", + "text": "J’ai fait\n\nClustering sub-doré pas de stabilité à la répétition malheureusement \nVérifier si les Baldock anglais ont des espèces en communs “Do they involve common species?”. Oui environ 70/250 soit plus de 20%.\nPrésenter le réseau Afrique du Sud dès l’intro des réseaux anglais de Baldock" + }, + { + "objectID": "suivi/2025-15/2025-15.html#a-continuer", + "href": "suivi/2025-15/2025-15.html#a-continuer", + "title": "Bilan semaine 15 2025 : 31 mars-4 avril", + "section": "A continuer", + "text": "A continuer\n\nRésultats simus NA Erreur pour certaines conditions : Pour NA robustness générer nb_rep collections de taille M=2 et prélever \\epsilon_{max}n_r n_c liens à retirer puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées. Il faut que j’ajoute un mécanisme pour reprendre des conditions qui ont plantés et que je skip dans le future_lapply les conditions déjà traitées (pour avoir la même seed quand je vais exécuter le code). Implémenté les missing steps en attente des résultats MIGALE.\nJ’ai lancé le clustering iid ascendant sur données sub-Doré. en attente des résultats MIGALE" + }, + { + "objectID": "suivi/2025-20/2025-20.html", + "href": "suivi/2025-20/2025-20.html", + "title": "Bilan semaine 20 2025 : 12 mai - 16 mai", + "section": "", + "text": "Pour clustering de collections sur données réelles :\n\nRelâcher la pénalité pour les coupes pour proposer modèles.\n\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\nFaire le hclust avec diverses distances et voir si les coupes proposées diffèrent sensiblement\nSi plusieurs clustering possibles les tester et sélectionner le meilleur\nRé-ajuster les bonnes partitions.\n\nDonnées simulées tester diverses distances.\nDé-bugger les simulations :\n\nInférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.\n\nVérifier si problème de version tidyverse pour vapply sur l’inférence.\nSi problème de parallélisation vient de pb de version future.callr le signaler à MIGALE.\n\n\n\n\nPRÉSENTATION JDS (LSD), durée introuvable, adapter en anglais les slides et voir avec PB et SD.\nQuel plan ?\nQuels résultats ? Baldock, Traveset … (sub-Doré)\nPas la peine de préciser l’algo de clustering\nIndiquer sur une slide le problème de support pour \\pi\\rho à faire s’il y a le temps.\nRésultats sur les réseaux Baldock, regarder le positionnement par bloc des espèces communes, regarder les probas d’appartenance aux blocs par espèces communes et par réseau.\n\n\n\n\n\nKmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser. Car densités déséquilibrées.\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample\nSe renseigner techniques d’inférence de réseaux :\n\ncovariance (base corrélation et seuil)\nGraphicalLASSO\nCo-occurence\n\nLancer colSBM sur OTU\\times OTU\nCreuser TabNet de Christophe Regouby et les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair" + }, + { + "objectID": "suivi/2025-20/2025-20.html#top-priorité", + "href": "suivi/2025-20/2025-20.html#top-priorité", + "title": "Bilan semaine 20 2025 : 12 mai - 16 mai", + "section": "", + "text": "Pour clustering de collections sur données réelles :\n\nRelâcher la pénalité pour les coupes pour proposer modèles.\n\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\nFaire le hclust avec diverses distances et voir si les coupes proposées diffèrent sensiblement\nSi plusieurs clustering possibles les tester et sélectionner le meilleur\nRé-ajuster les bonnes partitions.\n\nDonnées simulées tester diverses distances.\nDé-bugger les simulations :\n\nInférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.\n\nVérifier si problème de version tidyverse pour vapply sur l’inférence.\nSi problème de parallélisation vient de pb de version future.callr le signaler à MIGALE.\n\n\n\n\nPRÉSENTATION JDS (LSD), durée introuvable, adapter en anglais les slides et voir avec PB et SD.\nQuel plan ?\nQuels résultats ? Baldock, Traveset … (sub-Doré)\nPas la peine de préciser l’algo de clustering\nIndiquer sur une slide le problème de support pour \\pi\\rho à faire s’il y a le temps.\nRésultats sur les réseaux Baldock, regarder le positionnement par bloc des espèces communes, regarder les probas d’appartenance aux blocs par espèces communes et par réseau.\n\n\n\n\n\nKmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser. Car densités déséquilibrées.\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample\nSe renseigner techniques d’inférence de réseaux :\n\ncovariance (base corrélation et seuil)\nGraphicalLASSO\nCo-occurence\n\nLancer colSBM sur OTU\\times OTU\nCreuser TabNet de Christophe Regouby et les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair" + }, + { + "objectID": "suivi/2025-20/2025-20.html#a-discuter", + "href": "suivi/2025-20/2025-20.html#a-discuter", + "title": "Bilan semaine 20 2025 : 12 mai - 16 mai", + "section": "A discuter", + "text": "A discuter" + }, + { + "objectID": "suivi/2025-20/2025-20.html#a-faire", + "href": "suivi/2025-20/2025-20.html#a-faire", + "title": "Bilan semaine 20 2025 : 12 mai - 16 mai", + "section": "A faire", + "text": "A faire\n\nInférence\n\nPapier pour comprendre données\n\nFaust et al.\nAbdill et al.\nBashan et al.\n\npbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)\n\n\nCombine networks at different taxonomic levels\n\n\nInférence + GREMLINS\n\n\n\nRédaction article\n\nRelire intro St Clair\nS’inspirer structure pour mon intro\nTrouver biblio intro\nRédiger l’intro\nDire résultats nettement meilleurs et variabilités inférieures." + }, + { + "objectID": "suivi/2025-20/2025-20.html#jai-fait", + "href": "suivi/2025-20/2025-20.html#jai-fait", + "title": "Bilan semaine 20 2025 : 12 mai - 16 mai", + "section": "J’ai fait", + "text": "J’ai fait\n\nDé-bugger les simulations :\n\nClustering : Relancer simulations de clustering avec M = 30 où M_i = 10, \\forall i. En attente retour MIGALE Relancer simus clustering avec VEM steps = 10 000 et plus nombreux init pour spectral. Ajouter simu clustering métriques nb sous-collections obtenues. Vérifier les résultats obtenus si ARI = 0. Et augmenter la taille M = 30 avec M_1 = M_2 = M_3 = 10. -> BUG, dois creuser mais juste des problèmes techniques. Le bug venait probablement d’une inadéquation entre la version de future et future.callr, les résultats temporaires sont encourageants. J’ai mis les résultats dans l’article.\n\n\n\nPrésentations LSD, JdS et ML@Aussois\n\nPRÉSENTATION JDS (LSD), durée introuvable, adapter en anglais les slides et voir avec PB et SD.\nQuel plan ?\nQuels résultats ? Baldock, Traveset … (sub-Doré)\nMettre le détails des formules et des algos pour VE et sélection de modèle en annexe.\nPréciser simplement que l’on utilise un algo VE et un critère type BIC.\n\n\n\nVGAE\n\nDé-bugger pourquoi BipartiteInnerProductDecoder.forward() -> NaN -> C’était parce que les features en entrée n’était pas normalisée par les couches de convolutions. Les meilleurs résultats d’AUC et de précisions que j’obtiens par VGAE sont autour de 0.80.\n\n\n\nInférence et microbes\n\nHuman Gut Compendium télécharger et préparé les données. Mises au format edgelist et liste de matrices et extrait les infos supplémentaires. → trop lourd en RAM pour tourner sur machine perso (optim colSBM…) ## A continuer\n\n\n\nApplications\n\nIdée Sophie: Regarder clustering de données plantes-pollinisateur selon gradient d’urbanisation\n\n\nSophie a fait une appli qui marche bien et va dans le sens de l’analyse faite (à savoir pas d’effet du gradien d’urbanisation). À continuer pour l’intégrer dans l’article !\n\n\n\nAxe inférence\n\nLire biblio fournie Julie, Inférence de réseaux : co-occurence\n\n\nJ’ai lu Faust et al.  Je lis Abdill et al." + }, + { + "objectID": "suivi/2025-20/2025-20.html#repoussés-ou-abandonnés", + "href": "suivi/2025-20/2025-20.html#repoussés-ou-abandonnés", + "title": "Bilan semaine 20 2025 : 12 mai - 16 mai", + "section": "Repoussés ou abandonnés", + "text": "Repoussés ou abandonnés\n\n\n\n\n\n\nDéplier pour voir\n\n\n\n\n\n\nRésultats simus NA Erreur pour certaines conditions : Pour NA robustness générer nb_rep collections de taille M=2 et prélever \\epsilon_{max}n_r n_c liens à retirer puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées. Il faut que j’ajoute un mécanisme pour reprendre des conditions qui ont plantés et que je skip dans le future_lapply les conditions déjà traitées (pour avoir la même seed quand je vais exécuter le code). Implémenté les missing steps.\n\n\nJe n’arrive pas à comprendre les erreurs qui arrivent\n\n\nLire Biological Networks - François Képès\nRegarder les applications pour les collections de réseaux recommender system Pas pertinents et trop gros\n\n\n\n\nListing 1: Recommender systems data\n\n\nPar exemple :\n\nListe de recommendation data\n\n\n\n\n\nPapier plus multi-applications\n\nDonnées d’Elisa herbivore ?\nDonnées urbanisations ?\n\n\n\nAutour de l’article et du package\n\nCréer des vignettes illustrant par exemple des cas de simulations. Possible de mettre l’exemple d’application de Sophie sur les réseaux avec gradient d’urbanisation.\n\n\n\nSimulations article\n\nComparer sur clustering unipartite avec versions symétriser des par blocs des matrices d’adjacences.\nCorriger structure de simus :\n\nPour noisy \\alpha :\n\nLogit pour envoyer la gaussienne vers (0,1)\nBeta contrainte dans (0,1)\n\nPour noisy links : Générer nb_clustering collections de taille M puis prélever \\epsilon_{max}n_r n_c liens à inverser puis pour les \\epsilon < \\epsilon_{max} prélever dans la liste des indices afin d’avoir des perturbations emboitées." + }, + { + "objectID": "suivi/2025-25/2025-25.html", + "href": "suivi/2025-25/2025-25.html", + "title": "Bilan semaine 25 2025 : 16 juin - 20 juin", + "section": "", + "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n✅ Si plusieurs clustering possibles les tester et sélectionner le meilleur\n✅ Ré-ajuster les bonnes partitions.\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n\n✅ Oui c’est bien le cas Clustering descendant & ascendant : vérifier qu’au cours du temps le BICL_{asc} \\geq BICL_{desc}\nCreuser et explorer avec easy16s !\n✅ Comparer les perfs du VAE sur Baldock avec colBiSBM par exemple\n\n\n\nAUC values for colBiSBM and VGAE models across cities\n\n\n\n\n\n\n\nAUC\n\n\n\n\n\nCity\n\n\ncolBiSBM\n\n\nUntuned VGAE\n\n\n\n\n\n\nBristol\n\n\n0.798\n\n\n0.755\n\n\n\n\nEdinburgh\n\n\n0.836\n\n\n0.774\n\n\n\n\nLeeds\n\n\n0.854\n\n\n0.760\n\n\n\n\nReading\n\n\n0.867\n\n\n0.740\n\n\n\n\n\nDé-bugger les simulations :\n\n⌛ Inférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.\n\n✅ Non ça n’a pas l’air d’être ça. Vérifier si problème de version tidyverse pour vapply sur l’inférence.\n⌛Bon le bug ne se reproduit plus… les jobs sont juste trop longs (> 120h) j’ai relancé, il ne reste que 182/972 conditions.\n\n\n✅ Il suffisait de faire la màj soit même… Si problème de parallélisation vient de pb de version future.callr le signaler à MIGALE.\nKmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser. Car densités déséquilibrées.\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nCreuser TabNet de Christophe Regouby et les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nDemander à JA si elle connaît des réseaux d’interactions connus par les experts (idée d’intégrer une connaissance experte et de voir les différences de structure par rapport à celle attendue)\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}" + }, + { + "objectID": "suivi/2025-25/2025-25.html#todo-list", + "href": "suivi/2025-25/2025-25.html#todo-list", + "title": "Bilan semaine 25 2025 : 16 juin - 20 juin", + "section": "", + "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n✅ Si plusieurs clustering possibles les tester et sélectionner le meilleur\n✅ Ré-ajuster les bonnes partitions.\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n\n✅ Oui c’est bien le cas Clustering descendant & ascendant : vérifier qu’au cours du temps le BICL_{asc} \\geq BICL_{desc}\nCreuser et explorer avec easy16s !\n✅ Comparer les perfs du VAE sur Baldock avec colBiSBM par exemple\n\n\n\nAUC values for colBiSBM and VGAE models across cities\n\n\n\n\n\n\n\nAUC\n\n\n\n\n\nCity\n\n\ncolBiSBM\n\n\nUntuned VGAE\n\n\n\n\n\n\nBristol\n\n\n0.798\n\n\n0.755\n\n\n\n\nEdinburgh\n\n\n0.836\n\n\n0.774\n\n\n\n\nLeeds\n\n\n0.854\n\n\n0.760\n\n\n\n\nReading\n\n\n0.867\n\n\n0.740\n\n\n\n\n\nDé-bugger les simulations :\n\n⌛ Inférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.\n\n✅ Non ça n’a pas l’air d’être ça. Vérifier si problème de version tidyverse pour vapply sur l’inférence.\n⌛Bon le bug ne se reproduit plus… les jobs sont juste trop longs (> 120h) j’ai relancé, il ne reste que 182/972 conditions.\n\n\n✅ Il suffisait de faire la màj soit même… Si problème de parallélisation vient de pb de version future.callr le signaler à MIGALE.\nKmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser. Car densités déséquilibrées.\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nCreuser TabNet de Christophe Regouby et les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nDemander à JA si elle connaît des réseaux d’interactions connus par les experts (idée d’intégrer une connaissance experte et de voir les différences de structure par rapport à celle attendue)\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}" + }, + { + "objectID": "suivi/2025-25/2025-25.html#lecture-en-cours", + "href": "suivi/2025-25/2025-25.html#lecture-en-cours", + "title": "Bilan semaine 25 2025 : 16 juin - 20 juin", + "section": "Lecture en cours", + "text": "Lecture en cours\n\nOT\n\n⌛ Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes\n⌛ Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.\n⌛ Nenna (s. d.a)\n\n\n\nInférence de graphes\n\n✅ Matchado et al. (2021) ➡️ Nos données étant compositionnelles il faut utiliser:\n\nCCLasso et SparCC\nHARMONIES pour zéro inflation (Binomiale négative), COZINE centered log ratio transformation compositionnalité, zéro inflation et forte précision\nMixMPLN pour générer K réseaux issus de K Poisson log Normal\nmLDM peut enlever les arêtes indirectes.\n\nNetComi agrège plusieurs méthodes tout en permettant l’analyse différentielle !\n\nSi pas compositionnelles :\n\nMeta-Network pour arêtes indirectes et non linéaires\nEnvironmentally-Driven Edge detection pour corriger les effets de l’environnement" + }, + { + "objectID": "suivi/2025-25/2025-25.html#a-discuter", + "href": "suivi/2025-25/2025-25.html#a-discuter", + "title": "Bilan semaine 25 2025 : 16 juin - 20 juin", + "section": "A discuter", + "text": "A discuter\n\nInférence\n\npbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)\n\n\nCombine networks at different taxonomic levels\n\n\nInférence + GREMLINS" + }, + { + "objectID": "suivi/2025-27/2025-27.html", + "href": "suivi/2025-27/2025-27.html", + "title": "Bilan semaine 27 2025 : 30 juin - 4 juillet", + "section": "", + "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\nS’assurer que ça marche et relancer\n\nCreuser et explorer avec easy16s !\n✅ Ajouter le tableau de comparaison du VGAE avec colBiSBM\n⌛ Calcul du score F1Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\nDé-bugger les simulations :\n\n⌛ Inférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.\n\n⌛Bon le bug ne se reproduit plus… les jobs sont juste trop longs (> 120h) j’ai relancé, il ne reste que 182/972 conditions.\n\n\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM. Kmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser. Car densités déséquilibrées.\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\n✅ Creuser TabNet de Christophe Regouby\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" + }, + { + "objectID": "suivi/2025-27/2025-27.html#todo-list", + "href": "suivi/2025-27/2025-27.html#todo-list", + "title": "Bilan semaine 27 2025 : 30 juin - 4 juillet", + "section": "", + "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\nS’assurer que ça marche et relancer\n\nCreuser et explorer avec easy16s !\n✅ Ajouter le tableau de comparaison du VGAE avec colBiSBM\n⌛ Calcul du score F1Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\nDé-bugger les simulations :\n\n⌛ Inférence : Relancer simus d’inférence avec n = 240 pour voir si la qualité augmenter (se rassurer). En fait on est déjà à 240, j’ai relancé avec M = 4 au lieu de M = 2. En attente résultats MIGALE -> BUG, dois creuser mais juste des problèmes techniques -> Visiblement il y a d’autres problèmes que juste le plan de parallélisation.\n\n⌛Bon le bug ne se reproduit plus… les jobs sont juste trop longs (> 120h) j’ai relancé, il ne reste que 182/972 conditions.\n\n\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM. Kmeans sur la densité des réseaux subdoré pour pré-partitionner et clusteriser. Car densités déséquilibrées.\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\n✅ Creuser TabNet de Christophe Regouby\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" + }, + { + "objectID": "suivi/2025-27/2025-27.html#lectures-en-cours", + "href": "suivi/2025-27/2025-27.html#lectures-en-cours", + "title": "Bilan semaine 27 2025 : 30 juin - 4 juillet", + "section": "Lectures en cours 📚", + "text": "Lectures en cours 📚\n\nOT\n\n⌛ Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes\n⌛ Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.\n⌛ Nenna (s. d.a)\n\n\n\nInférence de graphes\n\n✅ Morton et al. (2021) VAE with Multinomial Logistic Normal distribution using Isometric Log Ratio tranform. Plus rapide que les autres méthodes et performances équivalentes\n⌛ Aitchison (1982)\n❗📖 Payne et al. (2023) sur MixMPLN\n\n\n\nCausalité\n\n❗📖 Bystrova (s. d.)" + }, + { + "objectID": "suivi/2025-27/2025-27.html#a-discuter", + "href": "suivi/2025-27/2025-27.html#a-discuter", + "title": "Bilan semaine 27 2025 : 30 juin - 4 juillet", + "section": "A discuter", + "text": "A discuter\n\nCongés P&S\n\n✅ Quand est-ce qu’on ne se voit pas ? Et donc quand est-ce qu’on se voit après ?\n✅ Calendrier partagé\n\n\n\nThèse\n\n✅ Que prévoir pour le CSI\n\n👍 Un petit rapport\n👍 Une présentation\n\n👨‍🏫 Demander à Pierre Comment valider les enseignements comme formations Adum ?\n✅ Des recommandations de formations, voir les cours du MathSV\n\n\n\nInterprétation écologiques résultats de Baldock\n\n⌛ Point avec Elisa, oui on relance\n\n\n\nInférence\n\npbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)\n\n\nCombine networks at different taxonomic levels\n\n\nInférence + GREMLINS" + }, + { + "objectID": "suivi/2025-51/2025-51.html", + "href": "suivi/2025-51/2025-51.html", + "title": "Bilan semaine 51 2025 : 15 décembre - 19 décembre", + "section": "", + "text": "Passer version article flat dans Gitlab du papier et nettoyer au minimum sur une branche clean.\n⚠️ IL Y A UNE TYPO SUR LE SIGNE DE L’ENTROPIE POUR LE PAPIER: - \\mathcal{H} au lieu de +\\mathcal{H}\nFaire tourner clustering sur Trojelsgaard\nPetites opérations sur les OTUs (regarder la matrice dans les yeux):\n\nRanger les OTUs par variances (i.e. sd(OTU_j))\nDessiner les graphiques : \\mathbb{V}[OTU] = f(\\mathbb{E}[OTU]), \\frac{\\mathbb{V}[OTU]}{\\mathbb{E}[OTU]^2} = f(\\mathbb{E}[OTU]) et \\frac{\\mathbb{V}[OTU]}{\\mathbb{E}[OTU]} = f(\\mathbb{E}[OTU]) (\\approx 1) si les données suivent une loi de Poisson.\nRegarder la proportion de 1. taxon rares, 2. zeros.\nFaire des coupures selon niveaux taxonomiques et regarder si \\mathbb{V}_{\\text{intra}} \\approx \\mathbb{V}_{\\text{inter}}\nBonus: faire ça dans qmd et voir si forge permet gitlab pages\n\nFaire tourner un LBM sur Human Gut et voir si ça plante sinon:\n\nFaire LBM sur niveau taxonomique grossier, initialiser avec le résultat pour un niveau plus fin et ainsi de suite.\n\nRelire Peixoto (2014)\n\nRegarder les gens qui citent les travaux de Peixoto\n\nImplémentation blockmodels LBM avec covariables sur proportions (voir Équation 1)\n\n\n\n\n\n\n\nIdées\n\n\n\n\nTravailler sur Fungus Tree network\nComparaison covar prop avec GREMLINS multipartite sur (log(dist_phylo), fungus-tree)\nTrouver manière de faire un compromis : \\ell(Y,Z,W;\\theta) - \\lambda d(C(W),C_0) avec C(W) le clustering seulement sur la base de la structure LBM et C_0 le clustering de l’arbre. Problème d est une distance entre partition, comment optimiser dessus ?\nMise à jour partielle des \\tau : ce qui pose soucis c’est les gros calculs matriciels (c’est vraiment vrai?). Donc sorte de “stochastic” VEM où on update seulement une partie des \\tau à chaque itération. Et échantillonnage stratifié selon l’arbre ?\nChercher à formuler le problème dual (s’il existe?) de l’optimisation du LBM. Peut-être possible d’aller plus vite alors ?\n\n\n\n\nClustering unipartite j’ai cassé une fonction de distance à vérifier et réparer\nCodes pour le papier :\n\nNettoyer les scripts\nFaire un joli README\n❓Faire des notebooks\n\nRéussir à reproduire résultat de Abramov et al. (s. d.)\nMaitriser graphtools de Peixoto pour essayer d’utiliser l’arbre taxonomique sur graphe de cooccurence inférer par SparCC\nMaitriser SparCC\n👶 (délégué à Mona) Clustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\nRegarder Largest gap sur réseaux Doré\n⌛ Essayer clustering sur supinfo\n\nCAH et Kmeans tendent vers faire K = 13 clusters sur les supinfos\nEnrichir avec des métriques sur les réseaux (nestedness, connectance autres ?)\nDemander à Elisa pour la signification des métadonnées\nDemander à Elisa une fois vu cohérences de groupe voir pour interprétation écologiques ?\nAlgo de clustering sur les groupes trouvés\n\n\n\n\n\n\n\nToujours modèle LBM mais avec probas d’appartenance pour les colonnes variables:\n\\begin{align*}\nZ_i &\\sim \\mathcal{M}(1; \\pi_1, \\dots, \\pi_Q), \\sum_{q=1}^{Q} \\pi_q = 1\\\\\nW_j &\\sim \\mathcal{M}(1; \\rho_1^j, \\dots, \\rho_R^j), \\sum_{r=1}^{R} \\rho_r^j = 1\\\\\nY_{i,j}&\\mid Z_i = q, W_j = r \\sim \\mathcal{F}(\\alpha_{qr})\n\\end{align*}\nInférence variationnelle donc \\ell(Y;\\pmb{\\theta}) \\geq \\mathcal{J}(\\mathcal{R},\\pmb{\\theta}) avec\n\n\\mathcal{J}(\\mathcal{R},\\pmb{\\theta})= \\sum_{i = 1}^{n_1}\\sum_{j=1}^{n_2}\\sum_{q \\in \\mathcal{Q}_1} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{iq}^{1} \\tau_{jr}^{2} \\log f(Y_{ij}; \\alpha_{qr})\n + \\sum_{i=1}^{n_1} \\sum_{q \\in \\mathcal{Q}_1} \\tau_{iq}^{1} \\log \\pi_{\\color{black}q} + \\sum_{j=1}^{n_2} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{jr}^{2} \\log \\rho_{\\color{black}r} \\\\\n - \\sum_{i=1}^{n_1} \\tau_{iq}^{1} \\log \\tau_{iq}^{1} - \\sum_{j=1}^{n_2} \\tau_{jr}^{2} \\log \\tau_{jr}^{2}\n\nPlusieurs possibilités pour la définition de \\rho_r^j\n\n\nDénominateur pas correct, ne somme pas à 1.\n\\rho_r^j = \\frac{\\exp{\\beta_r X_j\\mathbf{1}_{\\{r\\neq R\\}}}}{1+\\sum_{s=1}^{R-1} \\beta_s X_j}, \\beta_R = 0 et \\rho_R^{j} = \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} (pas de compréhension intuitive)\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j \\mathbb{1}_{r\\neq R} - \\log (1+\\sum_{s=1}^{R-1} \\beta_s X_j))]\n\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j}{1+\\sum_{s=1}^{R-1} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} \\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_R^j \\bigr) X_j\\biggr]\n\\end{align*}\n❓ Gradient mesure l’écart entre probas a posteriori et la proba a priori du groupe de référence ?\nConclusion: Il manque l’exponentielle cette formulation ne somme pas à 1.\n\n\n\nAvec \\rho_r^j = \\frac{\\exp{\\beta_r X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} = \\sigma(\\pmb{\\beta} \\pmb{X})_{r,j}, où \\sigma désigne le softmax. Mais il y a besoin de poser une contrainte sur l’un des (\\beta_r)_{r=1,\\dots,R}, ici \\beta_R = 0.\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j - \\log (\\sum_{s=1}^{R} \\exp{\\beta_s X_j}))]\n\\tag{1}\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j \\exp{\\beta_t X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\sigma(\\pmb{\\beta} \\pmb{X})_{t,j}\\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_t^j \\bigr) X_j\\biggr]\n\\end{align*}\n\n\n\n\n\nLire article multi-niveaux Saint-Clair\n🆕 🔎 Trouver des papiers:\n\nLBM Negative Binomial\nNetwork inference through sample comparison\n\nIdée des groupes sur la base de distance phylogénétique:\n\nEn train de comprendre les distances que phyloseq permet de calculer sur notre exemple\nEn train de lire sur Principle coordinate analysis : https://openplantpathology.github.io/OPP_Workshop_Multivariate/2-MV_PCO.html\nParametric t-SNE pour avoir une unique représentation latente (inconvénient utilise du Deep Learning)\nLire Papier UniFrac\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\n\nRegarder SPARTA Rennes\nEcrire et étudier les modèles pour différents niveaux taxonomiques.\n🆕 Regarder NetComi\n🆕 Regarder OneNet car aggrégation plus robuste\n🆕 Réfléchir sens d’aggréger les données ou de les diviser\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\n🆕 SparCC à différent niveaux\n🆕 SBM à différent niveaux\n🆕⌛ Tree-PLN à différents niveaux\n\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" + }, + { + "objectID": "suivi/2025-51/2025-51.html#todo-list", + "href": "suivi/2025-51/2025-51.html#todo-list", + "title": "Bilan semaine 51 2025 : 15 décembre - 19 décembre", + "section": "", + "text": "Passer version article flat dans Gitlab du papier et nettoyer au minimum sur une branche clean.\n⚠️ IL Y A UNE TYPO SUR LE SIGNE DE L’ENTROPIE POUR LE PAPIER: - \\mathcal{H} au lieu de +\\mathcal{H}\nFaire tourner clustering sur Trojelsgaard\nPetites opérations sur les OTUs (regarder la matrice dans les yeux):\n\nRanger les OTUs par variances (i.e. sd(OTU_j))\nDessiner les graphiques : \\mathbb{V}[OTU] = f(\\mathbb{E}[OTU]), \\frac{\\mathbb{V}[OTU]}{\\mathbb{E}[OTU]^2} = f(\\mathbb{E}[OTU]) et \\frac{\\mathbb{V}[OTU]}{\\mathbb{E}[OTU]} = f(\\mathbb{E}[OTU]) (\\approx 1) si les données suivent une loi de Poisson.\nRegarder la proportion de 1. taxon rares, 2. zeros.\nFaire des coupures selon niveaux taxonomiques et regarder si \\mathbb{V}_{\\text{intra}} \\approx \\mathbb{V}_{\\text{inter}}\nBonus: faire ça dans qmd et voir si forge permet gitlab pages\n\nFaire tourner un LBM sur Human Gut et voir si ça plante sinon:\n\nFaire LBM sur niveau taxonomique grossier, initialiser avec le résultat pour un niveau plus fin et ainsi de suite.\n\nRelire Peixoto (2014)\n\nRegarder les gens qui citent les travaux de Peixoto\n\nImplémentation blockmodels LBM avec covariables sur proportions (voir Équation 1)\n\n\n\n\n\n\n\nIdées\n\n\n\n\nTravailler sur Fungus Tree network\nComparaison covar prop avec GREMLINS multipartite sur (log(dist_phylo), fungus-tree)\nTrouver manière de faire un compromis : \\ell(Y,Z,W;\\theta) - \\lambda d(C(W),C_0) avec C(W) le clustering seulement sur la base de la structure LBM et C_0 le clustering de l’arbre. Problème d est une distance entre partition, comment optimiser dessus ?\nMise à jour partielle des \\tau : ce qui pose soucis c’est les gros calculs matriciels (c’est vraiment vrai?). Donc sorte de “stochastic” VEM où on update seulement une partie des \\tau à chaque itération. Et échantillonnage stratifié selon l’arbre ?\nChercher à formuler le problème dual (s’il existe?) de l’optimisation du LBM. Peut-être possible d’aller plus vite alors ?\n\n\n\n\nClustering unipartite j’ai cassé une fonction de distance à vérifier et réparer\nCodes pour le papier :\n\nNettoyer les scripts\nFaire un joli README\n❓Faire des notebooks\n\nRéussir à reproduire résultat de Abramov et al. (s. d.)\nMaitriser graphtools de Peixoto pour essayer d’utiliser l’arbre taxonomique sur graphe de cooccurence inférer par SparCC\nMaitriser SparCC\n👶 (délégué à Mona) Clustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\nRegarder Largest gap sur réseaux Doré\n⌛ Essayer clustering sur supinfo\n\nCAH et Kmeans tendent vers faire K = 13 clusters sur les supinfos\nEnrichir avec des métriques sur les réseaux (nestedness, connectance autres ?)\nDemander à Elisa pour la signification des métadonnées\nDemander à Elisa une fois vu cohérences de groupe voir pour interprétation écologiques ?\nAlgo de clustering sur les groupes trouvés\n\n\n\n\n\n\n\nToujours modèle LBM mais avec probas d’appartenance pour les colonnes variables:\n\\begin{align*}\nZ_i &\\sim \\mathcal{M}(1; \\pi_1, \\dots, \\pi_Q), \\sum_{q=1}^{Q} \\pi_q = 1\\\\\nW_j &\\sim \\mathcal{M}(1; \\rho_1^j, \\dots, \\rho_R^j), \\sum_{r=1}^{R} \\rho_r^j = 1\\\\\nY_{i,j}&\\mid Z_i = q, W_j = r \\sim \\mathcal{F}(\\alpha_{qr})\n\\end{align*}\nInférence variationnelle donc \\ell(Y;\\pmb{\\theta}) \\geq \\mathcal{J}(\\mathcal{R},\\pmb{\\theta}) avec\n\n\\mathcal{J}(\\mathcal{R},\\pmb{\\theta})= \\sum_{i = 1}^{n_1}\\sum_{j=1}^{n_2}\\sum_{q \\in \\mathcal{Q}_1} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{iq}^{1} \\tau_{jr}^{2} \\log f(Y_{ij}; \\alpha_{qr})\n + \\sum_{i=1}^{n_1} \\sum_{q \\in \\mathcal{Q}_1} \\tau_{iq}^{1} \\log \\pi_{\\color{black}q} + \\sum_{j=1}^{n_2} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{jr}^{2} \\log \\rho_{\\color{black}r} \\\\\n - \\sum_{i=1}^{n_1} \\tau_{iq}^{1} \\log \\tau_{iq}^{1} - \\sum_{j=1}^{n_2} \\tau_{jr}^{2} \\log \\tau_{jr}^{2}\n\nPlusieurs possibilités pour la définition de \\rho_r^j\n\n\nDénominateur pas correct, ne somme pas à 1.\n\\rho_r^j = \\frac{\\exp{\\beta_r X_j\\mathbf{1}_{\\{r\\neq R\\}}}}{1+\\sum_{s=1}^{R-1} \\beta_s X_j}, \\beta_R = 0 et \\rho_R^{j} = \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} (pas de compréhension intuitive)\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j \\mathbb{1}_{r\\neq R} - \\log (1+\\sum_{s=1}^{R-1} \\beta_s X_j))]\n\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j}{1+\\sum_{s=1}^{R-1} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} \\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_R^j \\bigr) X_j\\biggr]\n\\end{align*}\n❓ Gradient mesure l’écart entre probas a posteriori et la proba a priori du groupe de référence ?\nConclusion: Il manque l’exponentielle cette formulation ne somme pas à 1.\n\n\n\nAvec \\rho_r^j = \\frac{\\exp{\\beta_r X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} = \\sigma(\\pmb{\\beta} \\pmb{X})_{r,j}, où \\sigma désigne le softmax. Mais il y a besoin de poser une contrainte sur l’un des (\\beta_r)_{r=1,\\dots,R}, ici \\beta_R = 0.\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j - \\log (\\sum_{s=1}^{R} \\exp{\\beta_s X_j}))]\n\\tag{1}\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j \\exp{\\beta_t X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\sigma(\\pmb{\\beta} \\pmb{X})_{t,j}\\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_t^j \\bigr) X_j\\biggr]\n\\end{align*}\n\n\n\n\n\nLire article multi-niveaux Saint-Clair\n🆕 🔎 Trouver des papiers:\n\nLBM Negative Binomial\nNetwork inference through sample comparison\n\nIdée des groupes sur la base de distance phylogénétique:\n\nEn train de comprendre les distances que phyloseq permet de calculer sur notre exemple\nEn train de lire sur Principle coordinate analysis : https://openplantpathology.github.io/OPP_Workshop_Multivariate/2-MV_PCO.html\nParametric t-SNE pour avoir une unique représentation latente (inconvénient utilise du Deep Learning)\nLire Papier UniFrac\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\n\nRegarder SPARTA Rennes\nEcrire et étudier les modèles pour différents niveaux taxonomiques.\n🆕 Regarder NetComi\n🆕 Regarder OneNet car aggrégation plus robuste\n🆕 Réfléchir sens d’aggréger les données ou de les diviser\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\n🆕 SparCC à différent niveaux\n🆕 SBM à différent niveaux\n🆕⌛ Tree-PLN à différents niveaux\n\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" + }, + { + "objectID": "suivi/2025-51/2025-51.html#a-discuter", + "href": "suivi/2025-51/2025-51.html#a-discuter", + "title": "Bilan semaine 51 2025 : 15 décembre - 19 décembre", + "section": "A discuter", + "text": "A discuter\n\n🆕 Voir pour des Réseaux / GDR ou aller\n🆕 Chercher des cours à suivre" + }, + { + "objectID": "suivi/2025-51/2025-51.html#biblio-à-faire", + "href": "suivi/2025-51/2025-51.html#biblio-à-faire", + "title": "Bilan semaine 51 2025 : 15 décembre - 19 décembre", "section": "Biblio à faire", "text": "Biblio à faire\n\nRegarder Transport optimal graphes bipartite." }, { - "objectID": "suivi/2025-35/2025-35.html#lectures-en-cours", - "href": "suivi/2025-35/2025-35.html#lectures-en-cours", - "title": "Bilan semaine 35 2025 : 25 août - 29 août", + "objectID": "suivi/2025-51/2025-51.html#lectures-en-cours", + "href": "suivi/2025-51/2025-51.html#lectures-en-cours", + "title": "Bilan semaine 51 2025 : 15 décembre - 19 décembre", "section": "Lectures en cours 📚", "text": "Lectures en cours 📚\n\nHDR Vincent Brault\n\n⌛ Chap 2 : Creuser l’idée de maximiser l’énergie libre, très intéressant regarder le critère CARI et lire Robert et al 2021. Actuellement p32 du manuscrit\nChap 3\n\n\n\nOT\n\n⌛ Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes | Regarder si regularization entropique ne marche pas bien pour le graphe.\n⌛ Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.\n⌛ Nenna (s. d.a)\n\n\n\nInférence de graphes\n\n⌛ Aitchison (1982), en cours\n❗📖 Payne et al. (2023) sur MixMPLN\n\n\n\nCausalité\n\n❗📖 Bystrova (s. d.)\n\n\n\nLargest Gaps\n\n❗📖 Brault et Channarond (2023)\n❗📖 Channarond, Daudin, et Robin (2012) le papier qui introduit le Largest Gaps" }, - { - "objectID": "suivi/2025-35/2025-35.html#a-discuter", - "href": "suivi/2025-35/2025-35.html#a-discuter", - "title": "Bilan semaine 35 2025 : 25 août - 29 août", - "section": "A discuter", - "text": "A discuter\n\nCongés P&S\n\n\nThèse\n\nFaire préz CSI\nFaire rapport CSI\n\n\n\nInférence\n\npbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)\n\n\nCombine networks at different taxonomic levels\n\n\nInférence + GREMLINS" - }, - { - "objectID": "suivi/2025-38/2025-38.html", - "href": "suivi/2025-38/2025-38.html", - "title": "Bilan semaine 38 2025 : 15 septembre - 19 septembre", - "section": "", - "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n😫 bug encore. S’assurer que ça marche et relancer\n\n⌛ A Roscoff avec Julie et Pierre nous avons constaté que c’était l’extraction des dyades pour le calcul des métriques qui était incorrecte. Maintenant c’est corrigé et ça fonctionne ! En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :\n\nDonner la matrice identité comme features\nCorriger les degrés calculés.\n\n⚠️ Discuter intersection simulations\nClustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\n\nRegarder les codes Mangal database pour \\delta\nVoir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\nVoir avec Mahendra à l’occasion du CSI\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" - }, - { - "objectID": "suivi/2025-38/2025-38.html#todo-list", - "href": "suivi/2025-38/2025-38.html#todo-list", - "title": "Bilan semaine 38 2025 : 15 septembre - 19 septembre", - "section": "", - "text": "Pour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n\n❓Je n’arrive plus à reproduire le bug pour l’inférence…\n😫 bug encore. S’assurer que ça marche et relancer\n\n⌛ A Roscoff avec Julie et Pierre nous avons constaté que c’était l’extraction des dyades pour le calcul des métriques qui était incorrecte. Maintenant c’est corrigé et ça fonctionne ! En fait je donne tous les degrés donc le GNN a juste à retrouver les arêtes non vues.Revérifier que j’entraîne correctement le VGAE car résultats de généralisation trop bons sur les autres réseaux Doré, ce qui est étonnant Pour corriger cet effet :\n\nDonner la matrice identité comme features\nCorriger les degrés calculés.\n\n⚠️ Discuter intersection simulations\nClustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\n\nRegarder les codes Mangal database pour \\delta\nVoir \\delta mais additif\n\n\n\n\n\n\n\n\\delta additif Bernoulli\n\n\n\nEn Bernoulli pas de forme analytique non plus : Pour \\alpha_{qr}: \\sum_{m=1}^M \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\alpha_{qr}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0 \\Leftrightarrow \\sum_m \\frac{e^m_{qr}}{\\alpha_{qr}} + \\frac{1}{\\alpha_{qr}+\\delta_m-1} (n^m_{qr}-e^m_{qr}) = 0\nEt pour \\delta_m: \\sum_{i=1}^{n_1^m} \\sum_{j=1}^{n_2^m} \\sum_{q=1}^{Q_1} \\sum_{r=1}^{Q_2} \\tau_{iq}^{1,m}\\tau_{jr}^{2,m}(\\frac{X_{ij}^m}{\\delta_{m}} + \\frac{(1-X_{ij}^m)}{\\alpha_{qr} + \\delta_m -1}) = 0\n\n\n\n\n\n\n\n\n\\delta additif Poisson\n\n\n\nForme analytique mais risque de confusion ? \\widehat{\\delta_m} = \\frac{\\sum_{q,r} e^m_{qr}}{\\sum_{q,r} n^m_{qr}},~\\widehat{\\alpha_{qr}} = \\frac{\\sum_{m} e^m_{qr}}{\\sum_{m} n^m_{qr}} \n\n\n\nRegarder la liste des cours du MathSV et de l’Université Paris-Saclay.\n⌛ Plutôt regarder pour introduire un modèle \\delta-colBiSBM.\n\nAjouter le produit par \\delta là où nécessaire\nAjouter les modèles \\delta, \\delta\\pi, \\dots et les blocs conditionnels\nAjouter les tests unitaires adéquats et les vérifier\n\nRegarder Largest gap sur réseaux Doré\nEssayer clustering sur supinfo\nHomogénéiser notations dans les supplementaries\n\n\n\n\n\nFaire GNN-VAE Doré et sub-Doré avec kmeans et clustering sur l’espace latent J’ai commencé à regarder un peu\n\n\n\nReference 1\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\nVoir avec Mahendra à l’occasion du CSI\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\nRegarder SPARTA Rennes\nLire Papiers compositional data (Aitchison et al. intro)\nLire article multi-niveaux Saint-Clair\nEcrire et étudier les modèles pour différents niveaux taxonomiques. \\begin{align*}\ni \\rightarrow &~N^1_i \\subseteq N^2_i \\subseteq N^3_i & \\text{Taxonomie}\\\\\nZ^0_i \\overset{?}{=} & Z^1_i \\overset{?}{=} Z^2_i \\overset{?}{=} Z^3_i & \\text{Groupes fonctionnels}\n\\end{align*}\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" - }, - { - "objectID": "suivi/2025-38/2025-38.html#biblio-à-faire", - "href": "suivi/2025-38/2025-38.html#biblio-à-faire", - "title": "Bilan semaine 38 2025 : 15 septembre - 19 septembre", - "section": "Biblio à faire", - "text": "Biblio à faire\n\nRegarder Transport optimal graphes bipartite." - }, - { - "objectID": "suivi/2025-38/2025-38.html#lectures-en-cours", - "href": "suivi/2025-38/2025-38.html#lectures-en-cours", - "title": "Bilan semaine 38 2025 : 15 septembre - 19 septembre", - "section": "Lectures en cours 📚", - "text": "Lectures en cours 📚\n\nHDR Vincent Brault\n\n⌛ Chap 2 : Creuser l’idée de maximiser l’énergie libre, très intéressant regarder le critère CARI et lire Robert et al 2021. Actuellement p32 du manuscrit\nChap 3\n\n\n\nOT\n\n⌛ Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes | Regarder si regularization entropique ne marche pas bien pour le graphe.\n⌛ Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.\n⌛ Nenna (s. d.a)\n\n\n\nInférence de graphes\n\n⌛ Aitchison (1982), en cours\n❗📖 Payne et al. (2023) sur MixMPLN\n\n\n\nCausalité\n\n❗📖 Bystrova (s. d.)\n\n\n\nLargest Gaps\n\n❗📖 Brault et Channarond (2023)\n❗📖 Channarond, Daudin, et Robin (2012) le papier qui introduit le Largest Gaps" - }, - { - "objectID": "suivi/2025-38/2025-38.html#a-discuter", - "href": "suivi/2025-38/2025-38.html#a-discuter", - "title": "Bilan semaine 38 2025 : 15 septembre - 19 septembre", - "section": "A discuter", - "text": "A discuter\n\nCongés P&S\n\n\nThèse\n\nFaire préz CSI\nFaire rapport CSI\n\n\n\nInférence\n\npbs : variance, bcp de zero, covariables, offset et taxonomie (Reseaux arretes differents niveaux : Genre, OTU …)\n\n\nCombine networks at different taxonomic levels\n\n\nInférence + GREMLINS" - }, { "objectID": "suivi/2025-13/2025-13.html", "href": "suivi/2025-13/2025-13.html", diff --git a/suivi/2025-51/2025-51.html b/suivi/2025-51/2025-51.html new file mode 100644 index 0000000..6ea9abe --- /dev/null +++ b/suivi/2025-51/2025-51.html @@ -0,0 +1,914 @@ + + + + + + + + + + +Bilan semaine 51 2025 : 15 décembre - 19 décembre – Suivi de la thèse + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
    +
    + +
    + +
    +
    +
    +

    Bilan semaine 51 2025 : 15 décembre - 19 décembre

    +
    +
    colBiSBM
    +
    inférence
    +
    GNN
    +
    +
    +
    + +
    +
    Auteur·rice
    +
    Affiliation
    + +
    +

    Louis Lacoste

    +
    +
    +

    + MIA Paris-Saclay, INRAE, AgroParisTech, Université Paris-Saclay +

    +
    +
    + +
    + + +
    +
    Date de publication
    +
    +

    19 décembre 2025

    +
    +
    + +
    +
    Modifié
    +
    +

    15 décembre 2025

    +
    +
    + +
    + + +
    + + + + +
    + + + + + +
    +

    TODO List

    +
      +
    • Passer version article flat dans Gitlab du papier et nettoyer au minimum sur une branche clean.

    • +
    • ⚠️ IL Y A UNE TYPO SUR LE SIGNE DE L’ENTROPIE POUR LE PAPIER: - \mathcal{H} au lieu de +\mathcal{H}

    • +
    • Faire tourner clustering sur Trojelsgaard

    • +
    • Petites opérations sur les OTUs (regarder la matrice dans les yeux):

      +
        +
      • Ranger les OTUs par variances (i.e. sd(OTU_j))
      • +
      • Dessiner les graphiques : \mathbb{V}[OTU] = f(\mathbb{E}[OTU]), \frac{\mathbb{V}[OTU]}{\mathbb{E}[OTU]^2} = f(\mathbb{E}[OTU]) et \frac{\mathbb{V}[OTU]}{\mathbb{E}[OTU]} = f(\mathbb{E}[OTU]) (\approx 1) si les données suivent une loi de Poisson.
      • +
      • Regarder la proportion de 1. taxon rares, 2. zeros.
      • +
      • Faire des coupures selon niveaux taxonomiques et regarder si \mathbb{V}_{\text{intra}} \approx \mathbb{V}_{\text{inter}}
      • +
      • Bonus: faire ça dans qmd et voir si forge permet gitlab pages
      • +
    • +
    • Faire tourner un LBM sur Human Gut et voir si ça plante sinon:

      +
        +
      • Faire LBM sur niveau taxonomique grossier, initialiser avec le résultat pour un niveau plus fin et ainsi de suite.
      • +
    • +
    • Relire Peixoto (2014)

      +
        +
      • Regarder les gens qui citent les travaux de Peixoto
      • +
    • +
    • Implémentation blockmodels LBM avec covariables sur proportions (voir Équation 1)

    • +
    +
    +
    +
    + +
    +
    +Idées +
    +
    +
    +
      +
    • Travailler sur Fungus Tree network
    • +
    • Comparaison covar prop avec GREMLINS multipartite sur (log(dist_phylo), fungus-tree)
    • +
    • Trouver manière de faire un compromis : \ell(Y,Z,W;\theta) - \lambda d(C(W),C_0) avec C(W) le clustering seulement sur la base de la structure LBM et C_0 le clustering de l’arbre. Problème d est une distance entre partition, comment optimiser dessus ?
    • +
    • Mise à jour partielle des \tau : ce qui pose soucis c’est les gros calculs matriciels (c’est vraiment vrai?). Donc sorte de “stochastic” VEM où on update seulement une partie des \tau à chaque itération. Et échantillonnage stratifié selon l’arbre ?
    • +
    • Chercher à formuler le problème dual (s’il existe?) de l’optimisation du LBM. Peut-être possible d’aller plus vite alors ?
    • +
    +
    +
    +
      +
    • Clustering unipartite j’ai cassé une fonction de distance à vérifier et réparer

    • +
    • Codes pour le papier :

      +
        +
      • Nettoyer les scripts
      • +
      • Faire un joli README
      • +
      • ❓Faire des notebooks
      • +
    • +
    • Réussir à reproduire résultat de Abramov et al. (s. d.)

    • +
    • Maitriser graphtools de Peixoto pour essayer d’utiliser l’arbre taxonomique sur graphe de cooccurence inférer par SparCC

    • +
    • Maitriser SparCC

    • +
    • 👶 (délégué à Mona) Clustering sur Doré :

      +
        +
      • Regarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)

        +
          +
        • ⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown
        • +
      • +
      • Clusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)

      • +
      • Si M > 10, alors voir si je retrouve les mêmes résultats que dans les études.

      • +
      • Regarder Largest gap sur réseaux Doré

      • +
      • ⌛ Essayer clustering sur supinfo

        +
          +
        • CAH et Kmeans tendent vers faire K = 13 clusters sur les supinfos
        • +
        • Enrichir avec des métriques sur les réseaux (nestedness, connectance autres ?)
        • +
        • Demander à Elisa pour la signification des métadonnées
        • +
        • Demander à Elisa une fois vu cohérences de groupe voir pour interprétation écologiques ?
        • +
        • Algo de clustering sur les groupes trouvés
        • +
      • +
    • +
    +
    +

    Inférence et microbes

    +
    +

    Modèle avec covariables sur probas d’appartenances aux groupes

    +

    Toujours modèle LBM mais avec probas d’appartenance pour les colonnes variables:

    +

    \begin{align*} +Z_i &\sim \mathcal{M}(1; \pi_1, \dots, \pi_Q), \sum_{q=1}^{Q} \pi_q = 1\\ +W_j &\sim \mathcal{M}(1; \rho_1^j, \dots, \rho_R^j), \sum_{r=1}^{R} \rho_r^j = 1\\ +Y_{i,j}&\mid Z_i = q, W_j = r \sim \mathcal{F}(\alpha_{qr}) +\end{align*}

    +

    Inférence variationnelle donc \ell(Y;\pmb{\theta}) \geq \mathcal{J}(\mathcal{R},\pmb{\theta}) avec

    +

    +\mathcal{J}(\mathcal{R},\pmb{\theta})= \sum_{i = 1}^{n_1}\sum_{j=1}^{n_2}\sum_{q \in \mathcal{Q}_1} \sum_{r \in \mathcal{Q}_2} \tau_{iq}^{1} \tau_{jr}^{2} \log f(Y_{ij}; \alpha_{qr}) + + \sum_{i=1}^{n_1} \sum_{q \in \mathcal{Q}_1} \tau_{iq}^{1} \log \pi_{\color{black}q} + \sum_{j=1}^{n_2} \sum_{r \in \mathcal{Q}_2} \tau_{jr}^{2} \log \rho_{\color{black}r} \\ + - \sum_{i=1}^{n_1} \tau_{iq}^{1} \log \tau_{iq}^{1} - \sum_{j=1}^{n_2} \tau_{jr}^{2} \log \tau_{jr}^{2} +

    +

    Plusieurs possibilités pour la définition de \rho_r^j

    +
    +
    Modèle 1 (Tabouy)
    +

    Dénominateur pas correct, ne somme pas à 1.

    +

    \rho_r^j = \frac{\exp{\beta_r X_j\mathbf{1}_{\{r\neq R\}}}}{1+\sum_{s=1}^{R-1} \beta_s X_j}, \beta_R = 0 et \rho_R^{j} = \frac{1}{1+\sum_{s=1}^{R-1} \beta_s X_j} (pas de compréhension intuitive)

    +

    La partie pertinente de l’ELBO devient: + P((\beta_r)_{r=1,\dots,R}, (X_j)_{j=1,\dots,n_2}, (\tau_{jr})_{\substack{j=1,\dots,n_2\\r=1,\dots,R}} ) = \sum_{j=1}^{n_2} \sum_{r=1}^{R} [\tau_{jr} (\beta_r X_j \mathbb{1}_{r\neq R} - \log (1+\sum_{s=1}^{R-1} \beta_s X_j))] +

    +

    Et on obtient la dérivée partielle par rapport à \beta_t comme: \begin{align*} +\dfrac{\partial P}{\partial \beta_t}&((\beta_r)_{r=1,\dots,R}, (X_j)_{j=1,\dots,n_2}, (\tau_{jr})_{\substack{j=1,\dots,n_2\\r=1,\dots,R}} ) = \sum_{j=1}^{n_2} \biggl[ \tau_{jt} X_j - \frac{X_j}{1+\sum_{s=1}^{R-1} \exp{\beta_s X_j}} \biggr]\\ +& = \sum_{j=1}^{n_2} \biggl[\bigl(\tau_{jt} - \frac{1}{1+\sum_{s=1}^{R-1} \beta_s X_j} \bigr) X_j\biggr] = \sum_{j=1}^{n_2} \biggl[\bigl(\tau_{jt} - \rho_R^j \bigr) X_j\biggr] +\end{align*}

    +

    ❓ Gradient mesure l’écart entre probas a posteriori et la proba a priori du groupe de référence ?

    +

    Conclusion: Il manque l’exponentielle cette formulation ne somme pas à 1.

    +
    +
    +
    Modèle Sophie
    +

    Avec \rho_r^j = \frac{\exp{\beta_r X_j}}{\sum_{s=1}^{R} \exp{\beta_s X_j}} = \sigma(\pmb{\beta} \pmb{X})_{r,j}, où \sigma désigne le softmax. Mais il y a besoin de poser une contrainte sur l’un des (\beta_r)_{r=1,\dots,R}, ici \beta_R = 0.

    +

    La partie pertinente de l’ELBO devient: + P((\beta_r)_{r=1,\dots,R}, (X_j)_{j=1,\dots,n_2}, (\tau_{jr})_{\substack{j=1,\dots,n_2\\r=1,\dots,R}} ) = \sum_{j=1}^{n_2} \sum_{r=1}^{R} [\tau_{jr} (\beta_r X_j - \log (\sum_{s=1}^{R} \exp{\beta_s X_j}))] +\tag{1}

    +

    Et on obtient la dérivée partielle par rapport à \beta_t comme: \begin{align*} +\dfrac{\partial P}{\partial \beta_t}&((\beta_r)_{r=1,\dots,R}, (X_j)_{j=1,\dots,n_2}, (\tau_{jr})_{\substack{j=1,\dots,n_2\\r=1,\dots,R}} ) = \sum_{j=1}^{n_2} \biggl[ \tau_{jt} X_j - \frac{X_j \exp{\beta_t X_j}}{\sum_{s=1}^{R} \exp{\beta_s X_j}} \biggr]\\ +& = \sum_{j=1}^{n_2} \biggl[\bigl(\tau_{jt} - \sigma(\pmb{\beta} \pmb{X})_{t,j}\bigr) X_j\biggr] = \sum_{j=1}^{n_2} \biggl[\bigl(\tau_{jt} - \rho_t^j \bigr) X_j\biggr] +\end{align*}

    +
    +
    +
    +

    Bibliographie: à lire, à faire

    +
      +
    • Lire article multi-niveaux Saint-Clair
    • +
    • 🆕 🔎 Trouver des papiers: +
        +
      • LBM Negative Binomial
      • +
      • Network inference through sample comparison
      • +
    • +
    • Idée des groupes sur la base de distance phylogénétique: +
        +
      • En train de comprendre les distances que phyloseq permet de calculer sur notre exemple
      • +
      • En train de lire sur Principle coordinate analysis : https://openplantpathology.github.io/OPP_Workshop_Multivariate/2-MV_PCO.html
      • +
      • Parametric t-SNE pour avoir une unique représentation latente (inconvénient utilise du Deep Learning)
      • +
      • Lire Papier UniFrac
      • +
    • +
    +
    +
    +

    Réflexion

    +
      +
    • easy16s : se renseigner sur +
        +
      • \alpha, \beta diversité
      • +
      • Heatmap
      • +
    • +
    • Regarder SPARTA Rennes
    • +
    • Ecrire et étudier les modèles pour différents niveaux taxonomiques.
    • +
    • 🆕 Regarder NetComi
    • +
    • 🆕 Regarder OneNet car aggrégation plus robuste
    • +
    • 🆕 Réfléchir sens d’aggréger les données ou de les diviser
    • +
    +
    +
    +

    Écrire et faire tourner

    +
      +
    • Lancer colBiSBM sur OTU\times Sample → problème du chargement en mémoire des données à voir
    • +
    • Lancer colSBM sur OTU\times OTU
    • +
    • TabNet pratiquer les exercices
    • +
    • 🆕 SparCC à différent niveaux
    • +
    • 🆕 SBM à différent niveaux
    • +
    • 🆕⌛ Tree-PLN à différents niveaux
    • +
    +
    +
    +

    Causalité

    +

    Plus sur le temps long, à regarder

    +
      +
    • GT causalité
    • +
    • Daria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)
    • +
    +
    +
    +
    +
    +

    A discuter

    +
      +
    • 🆕 Voir pour des Réseaux / GDR ou aller
    • +
    • 🆕 Chercher des cours à suivre
    • +
    +
    +
    +

    Biblio à faire

    +
      +
    • Regarder Transport optimal graphes bipartite.
    • +
    +
    +
    +

    Lectures en cours 📚

    +
    +

    HDR Vincent Brault

    +
      +
    • ⌛ Chap 2 : Creuser l’idée de maximiser l’énergie libre, très intéressant regarder le critère CARI et lire Robert et al 2021. Actuellement p32 du manuscrit
    • +
    • Chap 3
    • +
    +
    +
    +

    OT

    +
      +
    • Mazelet, Flamary, et Thirion (s. d.) Intéressant pour le transport optimal entre graphes de tailles différentes | Regarder si regularization entropique ne marche pas bien pour le graphe.
    • +
    • Nenna (s. d.b) Pour comprendre le problème d’OT régularisé pour l’entropie.
    • +
    • Nenna (s. d.a)
    • +
    +
    +
    +

    Inférence de graphes

    +
      +
    • Aitchison (1982), en cours

    • +
    • ❗📖 Payne et al. (2023) sur MixMPLN

    • +
    +
    +
    +

    Causalité

    + +
    +
    +

    Largest Gaps

    +
      +
    • ❗📖 Brault et Channarond (2023)
    • +
    • ❗📖 Channarond, Daudin, et Robin (2012) le papier qui introduit le Largest Gaps
    • +
    + + + +
    +
    + +

    Les références

    +
    +Abramov, Kesem, Barry Biton, Geut Galai, Rami Puzis, et Shai Pilosof. s. d. « Structure Knows Best: Predicting Ecological Interactions Across Space Through Pairwise Integration of Latent Network Patterns ». +
    +
    +Aitchison, J. 1982. « The Statistical Analysis of Compositional Data ». Journal of the Royal Statistical Society. Series B (Methodological) 44 (2): 139‑77. https://www.jstor.org/stable/2345821. +
    +
    +Brault, Vincent, et Antoine Channarond. 2023. « Fast and Consistent Algorithm for the Latent Block Model ». 9 mars 2023. https://doi.org/10.48550/arXiv.1610.09005. +
    +
    +Bystrova, Daria. s. d. « Causal Discovery ». +
    +
    +Channarond, Antoine, Jean-Jacques Daudin, et Stéphane Robin. 2012. « Classification and Estimation in the Stochastic Blockmodel Based on the Empirical Degrees ». Electronic Journal of Statistics 6 (janvier). https://doi.org/10.1214/12-ejs753. +
    +
    +Mazelet, Sonia, Rémi Flamary, et Bertrand Thirion. s. d. « Unsupervised Learning for Optimal Transport Plan Prediction Between Unbalanced Graphs ». +
    +
    +Nenna, Luca. s. d.a. « Lecture 1 Monge and Kantorovich Problems: From Primal to Dual ». +
    +
    +———. s. d.b. « Lecture 2: Entropic Optimal Transport ». +
    +
    +Payne, Andrea, Anjali Silva, Steven J. Rothstein, Paul D. McNicholas, et Sanjeena Subedi. 2023. « Finite Mixtures of Multivariate Poisson-Log Normal Factor Analyzers for Clustering Count Data ». 13 novembre 2023. https://doi.org/10.48550/arXiv.2311.07762. +
    +
    +Peixoto, Tiago P. 2014. « Hierarchical Block Structures and High-Resolution Model Selection in Large Networks ». Physical Review X 4 (1): 011047. https://doi.org/10.1103/PhysRevX.4.011047. +
    +
    + +
    + + + + + \ No newline at end of file