diff --git a/index.html b/index.html index ca2c3a9..6ef09a6 100644 --- a/index.html +++ b/index.html @@ -263,7 +263,7 @@ Agenda

Journaux

-
+
-
+
-
+
-
+
-
+
-
+
-
+
-
+
-
+
-
+
-
+
-
+
-
+
-
+
-
+
-
+
-
+
-
+
-
+
-
+
-
+
-
+

Baldock iid

diff --git a/search.json b/search.json index 392f7b6..e4b1f17 100644 --- a/search.json +++ b/search.json @@ -396,14 +396,14 @@ "href": "suivi/2025-50/2025-50.html", "title": "Bilan semaine 50 2025 : 08 décembre - 12 décembre", "section": "", - "text": "⚠️ IL Y A UNE TYPO SUR LE SIGNE DE L’ENTROPIE POUR LE PAPIER: - \\mathcal{H} au lieu de +\\mathcal{H}\nCodes pour le papier :\n\nNettoyer les scripts\nFaire un joli README\n❓Faire des notebooks\n\nFaire tourner clustering sur Trojelsgaard\nRéussir à reproduire résultat de Abramov et al. (s. d.)\nMaitriser graphtools de Peixoto pour essayer d’utiliser l’arbre taxonomique sur graphe de cooccurence inférer par SparCC\nMaitriser SparCC\nFaire LBM sur niveau taxonomique grossier, initialiser avec le résultat pour un niveau plus fin et ainsi de suite.\nClustering unipartite j’ai cassé une fonction de distance à vérifier et réparer\nPour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n👶 (délégué à Mona) Clustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\nRegarder Largest gap sur réseaux Doré\n⌛ Essayer clustering sur supinfo\n\nCAH et Kmeans tendent vers faire K = 13 clusters sur les supinfos\nEnrichir avec des métriques sur les réseaux (nestedness, connectance autres ?)\nDemander à Elisa pour la signification des métadonnées\nDemander à Elisa une fois vu cohérences de groupe voir pour interprétation écologiques ?\nAlgo de clustering sur les groupes trouvés\n\n\n\n\n\n\n\nToujours modèle LBM mais avec probas d’appartenance pour les colonnes variables:\n\\begin{align*}\nZ_i &\\sim \\mathcal{M}(1; \\pi_1, \\dots, \\pi_Q), \\sum_{q=1}^{Q} \\pi_q = 1\\\\\nW_j &\\sim \\mathcal{M}(1; \\rho_1^j, \\dots, \\rho_R^j), \\sum_{r=1}^{R} \\rho_r^j = 1\\\\\nY_{i,j}&\\mid Z_i = q, W_j = r \\sim \\mathcal{F}(\\alpha_{qr})\n\\end{align*}\nInférence variationnelle donc \\ell(Y;\\pmb{\\theta}) \\geq \\mathcal{J}(\\mathcal{R},\\pmb{\\theta}) avec\n\n\\mathcal{J}(\\mathcal{R},\\pmb{\\theta})= \\sum_{i = 1}^{n_1}\\sum_{j=1}^{n_2}\\sum_{q \\in \\mathcal{Q}_1} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{iq}^{1} \\tau_{jr}^{2} \\log f(Y_{ij}; \\alpha_{qr})\n + \\sum_{i=1}^{n_1} \\sum_{q \\in \\mathcal{Q}_1} \\tau_{iq}^{1} \\log \\pi_{\\color{black}q} + \\sum_{j=1}^{n_2} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{jr}^{2} \\log \\rho_{\\color{black}r} \\\\\n - \\sum_{i=1}^{n_1} \\tau_{iq}^{1} \\log \\tau_{iq}^{1} - \\sum_{j=1}^{n_2} \\tau_{jr}^{2} \\log \\tau_{jr}^{2}\n\nPlusieurs possibilités pour la définition de \\rho_r^j\n\n\nDénominateur pas correct, ne somme pas à 1.\n\\rho_r^j = \\frac{\\exp{\\beta_r X_j\\mathbf{1}_{\\{r\\neq R\\}}}}{1+\\sum_{s=1}^{R-1} \\beta_s X_j}, \\beta_R = 0 et \\rho_R^{j} = \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} (pas de compréhension intuitive)\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j \\mathbb{1}_{r\\neq R} - \\log (1+\\sum_{s=1}^{R-1} \\beta_s X_j))]\n\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j}{1+\\sum_{s=1}^{R-1} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} \\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_R^j \\bigr) X_j\\biggr]\n\\end{align*}\n❓ Gradient mesure l’écart entre probas a posteriori et la proba a priori du groupe de référence ?\n\n\n\nAvec \\rho_r^j = \\frac{\\exp{\\beta_r X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} = \\sigma(\\pmb{\\beta} \\pmb{X})_{r,j}, où \\sigma désigne le softmax.\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j - \\log (\\sum_{s=1}^{R} \\exp{\\beta_s X_j}))]\n\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j \\exp{\\beta_t X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\sigma(\\pmb{\\beta} \\pmb{X})_{t,j}\\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_t^j \\bigr) X_j\\biggr]\n\\end{align*}\n\n\n\n\n\nLire article multi-niveaux Saint-Clair\n🆕 🔎 Trouver des papiers:\n\nLBM Negative Binomial\nNetwork inference through sample comparison\n\nIdée des groupes sur la base de distance phylogénétique:\n\nEn train de comprendre les distances que phyloseq permet de calculer sur notre exemple\nEn train de lire sur Principle coordinate analysis : https://openplantpathology.github.io/OPP_Workshop_Multivariate/2-MV_PCO.html\nParametric t-SNE pour avoir une unique représentation latente (inconvénient utilise du Deep Learning)\nLire Papier UniFrac\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\n\nRegarder SPARTA Rennes\nEcrire et étudier les modèles pour différents niveaux taxonomiques.\n🆕 Regarder NetComi\n🆕 Regarder OneNet car aggrégation plus robuste\n🆕 Réfléchir sens d’aggréger les données ou de les diviser\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\n🆕 SparCC à différent niveaux\n🆕 SBM à différent niveaux\n🆕⌛ Tree-PLN à différents niveaux\n\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" + "text": "⚠️ IL Y A UNE TYPO SUR LE SIGNE DE L’ENTROPIE POUR LE PAPIER: - \\mathcal{H} au lieu de +\\mathcal{H}\nCodes pour le papier :\n\nNettoyer les scripts\nFaire un joli README\n❓Faire des notebooks\n\nFaire tourner clustering sur Trojelsgaard\nRéussir à reproduire résultat de Abramov et al. (s. d.)\nMaitriser graphtools de Peixoto pour essayer d’utiliser l’arbre taxonomique sur graphe de cooccurence inférer par SparCC\nMaitriser SparCC\nFaire LBM sur niveau taxonomique grossier, initialiser avec le résultat pour un niveau plus fin et ainsi de suite.\nClustering unipartite j’ai cassé une fonction de distance à vérifier et réparer\nPour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n👶 (délégué à Mona) Clustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\nRegarder Largest gap sur réseaux Doré\n⌛ Essayer clustering sur supinfo\n\nCAH et Kmeans tendent vers faire K = 13 clusters sur les supinfos\nEnrichir avec des métriques sur les réseaux (nestedness, connectance autres ?)\nDemander à Elisa pour la signification des métadonnées\nDemander à Elisa une fois vu cohérences de groupe voir pour interprétation écologiques ?\nAlgo de clustering sur les groupes trouvés\n\n\n\n\n\n\n\nToujours modèle LBM mais avec probas d’appartenance pour les colonnes variables:\n\\begin{align*}\nZ_i &\\sim \\mathcal{M}(1; \\pi_1, \\dots, \\pi_Q), \\sum_{q=1}^{Q} \\pi_q = 1\\\\\nW_j &\\sim \\mathcal{M}(1; \\rho_1^j, \\dots, \\rho_R^j), \\sum_{r=1}^{R} \\rho_r^j = 1\\\\\nY_{i,j}&\\mid Z_i = q, W_j = r \\sim \\mathcal{F}(\\alpha_{qr})\n\\end{align*}\nInférence variationnelle donc \\ell(Y;\\pmb{\\theta}) \\geq \\mathcal{J}(\\mathcal{R},\\pmb{\\theta}) avec\n\n\\mathcal{J}(\\mathcal{R},\\pmb{\\theta})= \\sum_{i = 1}^{n_1}\\sum_{j=1}^{n_2}\\sum_{q \\in \\mathcal{Q}_1} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{iq}^{1} \\tau_{jr}^{2} \\log f(Y_{ij}; \\alpha_{qr})\n + \\sum_{i=1}^{n_1} \\sum_{q \\in \\mathcal{Q}_1} \\tau_{iq}^{1} \\log \\pi_{\\color{black}q} + \\sum_{j=1}^{n_2} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{jr}^{2} \\log \\rho_{\\color{black}r} \\\\\n - \\sum_{i=1}^{n_1} \\tau_{iq}^{1} \\log \\tau_{iq}^{1} - \\sum_{j=1}^{n_2} \\tau_{jr}^{2} \\log \\tau_{jr}^{2}\n\nPlusieurs possibilités pour la définition de \\rho_r^j\n\n\nDénominateur pas correct, ne somme pas à 1.\n\\rho_r^j = \\frac{\\exp{\\beta_r X_j\\mathbf{1}_{\\{r\\neq R\\}}}}{1+\\sum_{s=1}^{R-1} \\beta_s X_j}, \\beta_R = 0 et \\rho_R^{j} = \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} (pas de compréhension intuitive)\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j \\mathbb{1}_{r\\neq R} - \\log (1+\\sum_{s=1}^{R-1} \\beta_s X_j))]\n\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j}{1+\\sum_{s=1}^{R-1} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} \\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_R^j \\bigr) X_j\\biggr]\n\\end{align*}\n❓ Gradient mesure l’écart entre probas a posteriori et la proba a priori du groupe de référence ?\nConclusion: Il manque l’exponentielle cette formulation ne somme pas à 1.\n\n\n\nAvec \\rho_r^j = \\frac{\\exp{\\beta_r X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} = \\sigma(\\pmb{\\beta} \\pmb{X})_{r,j}, où \\sigma désigne le softmax. Mais il y a besoin de poser une contrainte sur l’un des (\\beta_r)_{r=1,\\dots,R}, ici \\beta_R = 0.\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j - \\log (\\sum_{s=1}^{R} \\exp{\\beta_s X_j}))]\n\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j \\exp{\\beta_t X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\sigma(\\pmb{\\beta} \\pmb{X})_{t,j}\\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_t^j \\bigr) X_j\\biggr]\n\\end{align*}\n\n\n\n\n\nLire article multi-niveaux Saint-Clair\n🆕 🔎 Trouver des papiers:\n\nLBM Negative Binomial\nNetwork inference through sample comparison\n\nIdée des groupes sur la base de distance phylogénétique:\n\nEn train de comprendre les distances que phyloseq permet de calculer sur notre exemple\nEn train de lire sur Principle coordinate analysis : https://openplantpathology.github.io/OPP_Workshop_Multivariate/2-MV_PCO.html\nParametric t-SNE pour avoir une unique représentation latente (inconvénient utilise du Deep Learning)\nLire Papier UniFrac\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\n\nRegarder SPARTA Rennes\nEcrire et étudier les modèles pour différents niveaux taxonomiques.\n🆕 Regarder NetComi\n🆕 Regarder OneNet car aggrégation plus robuste\n🆕 Réfléchir sens d’aggréger les données ou de les diviser\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\n🆕 SparCC à différent niveaux\n🆕 SBM à différent niveaux\n🆕⌛ Tree-PLN à différents niveaux\n\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" }, { "objectID": "suivi/2025-50/2025-50.html#todo-list", "href": "suivi/2025-50/2025-50.html#todo-list", "title": "Bilan semaine 50 2025 : 08 décembre - 12 décembre", "section": "", - "text": "⚠️ IL Y A UNE TYPO SUR LE SIGNE DE L’ENTROPIE POUR LE PAPIER: - \\mathcal{H} au lieu de +\\mathcal{H}\nCodes pour le papier :\n\nNettoyer les scripts\nFaire un joli README\n❓Faire des notebooks\n\nFaire tourner clustering sur Trojelsgaard\nRéussir à reproduire résultat de Abramov et al. (s. d.)\nMaitriser graphtools de Peixoto pour essayer d’utiliser l’arbre taxonomique sur graphe de cooccurence inférer par SparCC\nMaitriser SparCC\nFaire LBM sur niveau taxonomique grossier, initialiser avec le résultat pour un niveau plus fin et ainsi de suite.\nClustering unipartite j’ai cassé une fonction de distance à vérifier et réparer\nPour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n👶 (délégué à Mona) Clustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\nRegarder Largest gap sur réseaux Doré\n⌛ Essayer clustering sur supinfo\n\nCAH et Kmeans tendent vers faire K = 13 clusters sur les supinfos\nEnrichir avec des métriques sur les réseaux (nestedness, connectance autres ?)\nDemander à Elisa pour la signification des métadonnées\nDemander à Elisa une fois vu cohérences de groupe voir pour interprétation écologiques ?\nAlgo de clustering sur les groupes trouvés\n\n\n\n\n\n\n\nToujours modèle LBM mais avec probas d’appartenance pour les colonnes variables:\n\\begin{align*}\nZ_i &\\sim \\mathcal{M}(1; \\pi_1, \\dots, \\pi_Q), \\sum_{q=1}^{Q} \\pi_q = 1\\\\\nW_j &\\sim \\mathcal{M}(1; \\rho_1^j, \\dots, \\rho_R^j), \\sum_{r=1}^{R} \\rho_r^j = 1\\\\\nY_{i,j}&\\mid Z_i = q, W_j = r \\sim \\mathcal{F}(\\alpha_{qr})\n\\end{align*}\nInférence variationnelle donc \\ell(Y;\\pmb{\\theta}) \\geq \\mathcal{J}(\\mathcal{R},\\pmb{\\theta}) avec\n\n\\mathcal{J}(\\mathcal{R},\\pmb{\\theta})= \\sum_{i = 1}^{n_1}\\sum_{j=1}^{n_2}\\sum_{q \\in \\mathcal{Q}_1} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{iq}^{1} \\tau_{jr}^{2} \\log f(Y_{ij}; \\alpha_{qr})\n + \\sum_{i=1}^{n_1} \\sum_{q \\in \\mathcal{Q}_1} \\tau_{iq}^{1} \\log \\pi_{\\color{black}q} + \\sum_{j=1}^{n_2} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{jr}^{2} \\log \\rho_{\\color{black}r} \\\\\n - \\sum_{i=1}^{n_1} \\tau_{iq}^{1} \\log \\tau_{iq}^{1} - \\sum_{j=1}^{n_2} \\tau_{jr}^{2} \\log \\tau_{jr}^{2}\n\nPlusieurs possibilités pour la définition de \\rho_r^j\n\n\nDénominateur pas correct, ne somme pas à 1.\n\\rho_r^j = \\frac{\\exp{\\beta_r X_j\\mathbf{1}_{\\{r\\neq R\\}}}}{1+\\sum_{s=1}^{R-1} \\beta_s X_j}, \\beta_R = 0 et \\rho_R^{j} = \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} (pas de compréhension intuitive)\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j \\mathbb{1}_{r\\neq R} - \\log (1+\\sum_{s=1}^{R-1} \\beta_s X_j))]\n\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j}{1+\\sum_{s=1}^{R-1} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} \\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_R^j \\bigr) X_j\\biggr]\n\\end{align*}\n❓ Gradient mesure l’écart entre probas a posteriori et la proba a priori du groupe de référence ?\n\n\n\nAvec \\rho_r^j = \\frac{\\exp{\\beta_r X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} = \\sigma(\\pmb{\\beta} \\pmb{X})_{r,j}, où \\sigma désigne le softmax.\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j - \\log (\\sum_{s=1}^{R} \\exp{\\beta_s X_j}))]\n\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j \\exp{\\beta_t X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\sigma(\\pmb{\\beta} \\pmb{X})_{t,j}\\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_t^j \\bigr) X_j\\biggr]\n\\end{align*}\n\n\n\n\n\nLire article multi-niveaux Saint-Clair\n🆕 🔎 Trouver des papiers:\n\nLBM Negative Binomial\nNetwork inference through sample comparison\n\nIdée des groupes sur la base de distance phylogénétique:\n\nEn train de comprendre les distances que phyloseq permet de calculer sur notre exemple\nEn train de lire sur Principle coordinate analysis : https://openplantpathology.github.io/OPP_Workshop_Multivariate/2-MV_PCO.html\nParametric t-SNE pour avoir une unique représentation latente (inconvénient utilise du Deep Learning)\nLire Papier UniFrac\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\n\nRegarder SPARTA Rennes\nEcrire et étudier les modèles pour différents niveaux taxonomiques.\n🆕 Regarder NetComi\n🆕 Regarder OneNet car aggrégation plus robuste\n🆕 Réfléchir sens d’aggréger les données ou de les diviser\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\n🆕 SparCC à différent niveaux\n🆕 SBM à différent niveaux\n🆕⌛ Tree-PLN à différents niveaux\n\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" + "text": "⚠️ IL Y A UNE TYPO SUR LE SIGNE DE L’ENTROPIE POUR LE PAPIER: - \\mathcal{H} au lieu de +\\mathcal{H}\nCodes pour le papier :\n\nNettoyer les scripts\nFaire un joli README\n❓Faire des notebooks\n\nFaire tourner clustering sur Trojelsgaard\nRéussir à reproduire résultat de Abramov et al. (s. d.)\nMaitriser graphtools de Peixoto pour essayer d’utiliser l’arbre taxonomique sur graphe de cooccurence inférer par SparCC\nMaitriser SparCC\nFaire LBM sur niveau taxonomique grossier, initialiser avec le résultat pour un niveau plus fin et ainsi de suite.\nClustering unipartite j’ai cassé une fonction de distance à vérifier et réparer\nPour clustering de collections sur données réelles :\n→ L’intuition de Pierre semble être confirmé, les dissimilarités semblent arrêter de varier sensiblement pour de grandes valeurs (Q_1,Q_2).\n👶 (délégué à Mona) Clustering sur Doré :\n\nRegarder pour les couples date+nom les études et le nombre de réseaux analysables (Possible demander à Élisa)\n\n⌛ Chamberlain et al semble intéressant à regarder ! Voir le Rmarkdown\n\nClusteriser sur la base des noms et voir parmi les réseaux Européens (désagrégés ?)\nSi M > 10, alors voir si je retrouve les mêmes résultats que dans les études.\nRegarder Largest gap sur réseaux Doré\n⌛ Essayer clustering sur supinfo\n\nCAH et Kmeans tendent vers faire K = 13 clusters sur les supinfos\nEnrichir avec des métriques sur les réseaux (nestedness, connectance autres ?)\nDemander à Elisa pour la signification des métadonnées\nDemander à Elisa une fois vu cohérences de groupe voir pour interprétation écologiques ?\nAlgo de clustering sur les groupes trouvés\n\n\n\n\n\n\n\nToujours modèle LBM mais avec probas d’appartenance pour les colonnes variables:\n\\begin{align*}\nZ_i &\\sim \\mathcal{M}(1; \\pi_1, \\dots, \\pi_Q), \\sum_{q=1}^{Q} \\pi_q = 1\\\\\nW_j &\\sim \\mathcal{M}(1; \\rho_1^j, \\dots, \\rho_R^j), \\sum_{r=1}^{R} \\rho_r^j = 1\\\\\nY_{i,j}&\\mid Z_i = q, W_j = r \\sim \\mathcal{F}(\\alpha_{qr})\n\\end{align*}\nInférence variationnelle donc \\ell(Y;\\pmb{\\theta}) \\geq \\mathcal{J}(\\mathcal{R},\\pmb{\\theta}) avec\n\n\\mathcal{J}(\\mathcal{R},\\pmb{\\theta})= \\sum_{i = 1}^{n_1}\\sum_{j=1}^{n_2}\\sum_{q \\in \\mathcal{Q}_1} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{iq}^{1} \\tau_{jr}^{2} \\log f(Y_{ij}; \\alpha_{qr})\n + \\sum_{i=1}^{n_1} \\sum_{q \\in \\mathcal{Q}_1} \\tau_{iq}^{1} \\log \\pi_{\\color{black}q} + \\sum_{j=1}^{n_2} \\sum_{r \\in \\mathcal{Q}_2} \\tau_{jr}^{2} \\log \\rho_{\\color{black}r} \\\\\n - \\sum_{i=1}^{n_1} \\tau_{iq}^{1} \\log \\tau_{iq}^{1} - \\sum_{j=1}^{n_2} \\tau_{jr}^{2} \\log \\tau_{jr}^{2}\n\nPlusieurs possibilités pour la définition de \\rho_r^j\n\n\nDénominateur pas correct, ne somme pas à 1.\n\\rho_r^j = \\frac{\\exp{\\beta_r X_j\\mathbf{1}_{\\{r\\neq R\\}}}}{1+\\sum_{s=1}^{R-1} \\beta_s X_j}, \\beta_R = 0 et \\rho_R^{j} = \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} (pas de compréhension intuitive)\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j \\mathbb{1}_{r\\neq R} - \\log (1+\\sum_{s=1}^{R-1} \\beta_s X_j))]\n\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j}{1+\\sum_{s=1}^{R-1} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\frac{1}{1+\\sum_{s=1}^{R-1} \\beta_s X_j} \\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_R^j \\bigr) X_j\\biggr]\n\\end{align*}\n❓ Gradient mesure l’écart entre probas a posteriori et la proba a priori du groupe de référence ?\nConclusion: Il manque l’exponentielle cette formulation ne somme pas à 1.\n\n\n\nAvec \\rho_r^j = \\frac{\\exp{\\beta_r X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} = \\sigma(\\pmb{\\beta} \\pmb{X})_{r,j}, où \\sigma désigne le softmax. Mais il y a besoin de poser une contrainte sur l’un des (\\beta_r)_{r=1,\\dots,R}, ici \\beta_R = 0.\nLa partie pertinente de l’ELBO devient: \n P((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\sum_{r=1}^{R} [\\tau_{jr} (\\beta_r X_j - \\log (\\sum_{s=1}^{R} \\exp{\\beta_s X_j}))]\n\nEt on obtient la dérivée partielle par rapport à \\beta_t comme: \\begin{align*}\n\\dfrac{\\partial P}{\\partial \\beta_t}&((\\beta_r)_{r=1,\\dots,R}, (X_j)_{j=1,\\dots,n_2}, (\\tau_{jr})_{\\substack{j=1,\\dots,n_2\\\\r=1,\\dots,R}} ) = \\sum_{j=1}^{n_2} \\biggl[ \\tau_{jt} X_j - \\frac{X_j \\exp{\\beta_t X_j}}{\\sum_{s=1}^{R} \\exp{\\beta_s X_j}} \\biggr]\\\\\n& = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\sigma(\\pmb{\\beta} \\pmb{X})_{t,j}\\bigr) X_j\\biggr] = \\sum_{j=1}^{n_2} \\biggl[\\bigl(\\tau_{jt} - \\rho_t^j \\bigr) X_j\\biggr]\n\\end{align*}\n\n\n\n\n\nLire article multi-niveaux Saint-Clair\n🆕 🔎 Trouver des papiers:\n\nLBM Negative Binomial\nNetwork inference through sample comparison\n\nIdée des groupes sur la base de distance phylogénétique:\n\nEn train de comprendre les distances que phyloseq permet de calculer sur notre exemple\nEn train de lire sur Principle coordinate analysis : https://openplantpathology.github.io/OPP_Workshop_Multivariate/2-MV_PCO.html\nParametric t-SNE pour avoir une unique représentation latente (inconvénient utilise du Deep Learning)\nLire Papier UniFrac\n\n\n\n\n\n\neasy16s : se renseigner sur\n\n\\alpha, \\beta diversité\nHeatmap\n\nRegarder SPARTA Rennes\nEcrire et étudier les modèles pour différents niveaux taxonomiques.\n🆕 Regarder NetComi\n🆕 Regarder OneNet car aggrégation plus robuste\n🆕 Réfléchir sens d’aggréger les données ou de les diviser\n\n\n\n\n\nLancer colBiSBM sur OTU\\times Sample → problème du chargement en mémoire des données à voir\nLancer colSBM sur OTU\\times OTU\nTabNet pratiquer les exercices\n🆕 SparCC à différent niveaux\n🆕 SBM à différent niveaux\n🆕⌛ Tree-PLN à différents niveaux\n\n\n\n\nPlus sur le temps long, à regarder\n\nGT causalité\nDaria Bystrova lire présentation Bystrova (s. d.) (Meek rules, V-structure)" }, { "objectID": "suivi/2025-50/2025-50.html#a-discuter", diff --git a/suivi/2025-50/2025-50.html b/suivi/2025-50/2025-50.html index 163ce2e..ef71f9b 100644 --- a/suivi/2025-50/2025-50.html +++ b/suivi/2025-50/2025-50.html @@ -316,10 +316,11 @@ Y_{i,j}&\mid Z_i = q, W_j = r \sim \mathcal{F}(\alpha_{qr}) & = \sum_{j=1}^{n_2} \biggl[\bigl(\tau_{jt} - \frac{1}{1+\sum_{s=1}^{R-1} \beta_s X_j} \bigr) X_j\biggr] = \sum_{j=1}^{n_2} \biggl[\bigl(\tau_{jt} - \rho_R^j \bigr) X_j\biggr] \end{align*}

❓ Gradient mesure l’écart entre probas a posteriori et la proba a priori du groupe de référence ?

+

Conclusion: Il manque l’exponentielle cette formulation ne somme pas à 1.

Modèle Sophie
-

Avec \rho_r^j = \frac{\exp{\beta_r X_j}}{\sum_{s=1}^{R} \exp{\beta_s X_j}} = \sigma(\pmb{\beta} \pmb{X})_{r,j}, où \sigma désigne le softmax.

+

Avec \rho_r^j = \frac{\exp{\beta_r X_j}}{\sum_{s=1}^{R} \exp{\beta_s X_j}} = \sigma(\pmb{\beta} \pmb{X})_{r,j}, où \sigma désigne le softmax. Mais il y a besoin de poser une contrainte sur l’un des (\beta_r)_{r=1,\dots,R}, ici \beta_R = 0.

La partie pertinente de l’ELBO devient: P((\beta_r)_{r=1,\dots,R}, (X_j)_{j=1,\dots,n_2}, (\tau_{jr})_{\substack{j=1,\dots,n_2\\r=1,\dots,R}} ) = \sum_{j=1}^{n_2} \sum_{r=1}^{R} [\tau_{jr} (\beta_r X_j - \log (\sum_{s=1}^{R} \exp{\beta_s X_j}))]