Supp modèle 1 et ajout détails sur dual

This commit is contained in:
Louis 2025-12-23 13:40:52 +01:00
parent e99b9374b2
commit b70506d3c6

View file

@ -37,7 +37,7 @@ bibliography: references.bib
- Comparaison covar prop avec GREMLINS multipartite sur (log(dist_phylo), fungus-tree)
- Trouver manière de faire un compromis : $\ell(Y,Z,W;\theta) - \lambda d(C(W),C_0)$ avec $C(W)$ le clustering seulement sur la base de la structure LBM et $C_0$ le clustering de l'arbre. Problème $d$ est une distance entre partition, comment optimiser dessus ?
- Mise à jour partielle des $\tau$ : ce qui pose soucis c'est les gros calculs matriciels (c'est vraiment vrai?). Donc sorte de "stochastic" VEM où on update seulement une partie des $\tau$ à chaque itération. Et échantillonnage stratifié selon l'arbre ?
- Chercher à formuler le problème dual (s'il existe?) de l'optimisation du LBM. Peut-être possible d'aller plus vite alors ?
- ✅ **Inutile car besoin du primal** Chercher à formuler le problème dual (s'il existe?) de l'optimisation du LBM. Peut-être possible d'aller plus vite alors ? @eq-dual
:::
@ -91,27 +91,6 @@ $$
Plusieurs possibilités pour la définition de $\rho_r^j$
##### Modèle 1 (Tabouy)
Dénominateur pas correct, ne somme pas à 1.
$\rho_r^j = \frac{\exp{\beta_r X_j\mathbf{1}_{\{r\neq R\}}}}{1+\sum_{s=1}^{R-1} \beta_s X_j}, \beta_R = 0$ et $\rho_R^{j} = \frac{1}{1+\sum_{s=1}^{R-1} \beta_s X_j}$ (pas de compréhension intuitive)
La partie pertinente de l'ELBO devient:
$$
P((\beta_r)_{r=1,\dots,R}, (X_j)_{j=1,\dots,n_2}, (\tau_{jr})_{\substack{j=1,\dots,n_2\\r=1,\dots,R}} ) = \sum_{j=1}^{n_2} \sum_{r=1}^{R} [\tau_{jr} (\beta_r X_j \mathbb{1}_{r\neq R} - \log (1+\sum_{s=1}^{R-1} \beta_s X_j))]
$$
Et on obtient la dérivée partielle par rapport à $\beta_t$ comme:
\begin{align*}
\dfrac{\partial P}{\partial \beta_t}&((\beta_r)_{r=1,\dots,R}, (X_j)_{j=1,\dots,n_2}, (\tau_{jr})_{\substack{j=1,\dots,n_2\\r=1,\dots,R}} ) = \sum_{j=1}^{n_2} \biggl[ \tau_{jt} X_j - \frac{X_j}{1+\sum_{s=1}^{R-1} \exp{\beta_s X_j}} \biggr]\\
& = \sum_{j=1}^{n_2} \biggl[\bigl(\tau_{jt} - \frac{1}{1+\sum_{s=1}^{R-1} \beta_s X_j} \bigr) X_j\biggr] = \sum_{j=1}^{n_2} \biggl[\bigl(\tau_{jt} - \rho_R^j \bigr) X_j\biggr]
\end{align*}
❓ Gradient mesure l'écart entre probas a posteriori et la proba a priori du groupe de référence ?
**Conclusion**: Il manque l'exponentielle cette formulation ne somme pas à 1.
##### Modèle Sophie
Avec $\rho_r^j = \frac{\exp{\beta_r X_j}}{\sum_{s=1}^{R} \exp{\beta_s X_j}} = \sigma(\pmb{\beta} \pmb{X})_{r,j}$, où $\sigma$ désigne le softmax. Mais il y a besoin de poser une contrainte sur l'un des $(\beta_r)_{r=1,\dots,R}$, ici $\beta_R = 0$.
@ -127,6 +106,142 @@ Et on obtient la dérivée partielle par rapport à $\beta_t$ comme:
& = \sum_{j=1}^{n_2} \biggl[\bigl(\tau_{jt} - \sigma(\pmb{\beta} \pmb{X})_{t,j}\bigr) X_j\biggr] = \sum_{j=1}^{n_2} \biggl[\bigl(\tau_{jt} - \rho_t^j \bigr) X_j\biggr]
\end{align*}
#### Idée du problème dual
Les distributions variationnelles sont définies par :
$$
q(Z,W)
=
\prod_{i=1}^{n_1} q_i(Z_i)
\prod_{j=1}^{n_2} q_j(W_j),
$$
avec
$$
q_i(Z_i=q)=\tau_{iq}^{(1)},
\qquad
q_j(W_j=r)=\tau_{jr}^{(2)}.
$$
Les contraintes de normalisation sont :
$$
\sum_{q=1}^Q \tau_{iq}^{(1)} = 1,
\qquad
\sum_{r=1}^R \tau_{jr}^{(2)} = 1.
$$
---
##### Lagrangien
Le lagrangien du problème variationnel sécrit :
$$
\mathcal{L}\!\left(
\tau^{(1)},\tau^{(2)},(\lambda_i)_{i=1}^{n_1},(\mu_j)_{j=1}^{n_2}
\right)
=
\ELBORTheta
+
\sum_{i=1}^{n_1} \lambda_i
\left(1-\sum_{q=1}^Q \tau_{iq}^{(1)}\right)
+
\sum_{j=1}^{n_2} \mu_j
\left(1-\sum_{r=1}^R \tau_{jr}^{(2)}\right),
$$
où $\ELBORTheta$ désigne la borne inférieure variationnelle
associée au modèle et aux paramètres $\Theta$.
---
##### Problème primal (conditions doptimalité)
En dérivant le lagrangien par rapport aux variables variationnelles
$\tau^{(1)}$ et $\tau^{(2)}$, puis en égalisant à zéro, on obtient
les équations de point fixe suivantes :
$$
\tau_{iq}^{(1)}
\propto
\pi_q^{(t)}
\prod_{j=1}^{n_2}
\prod_{r=1}^{R}
f\!\left(Y_{ij};\alpha_{qr}^{(t)}\right)^{\tau_{jr}^{(2),(t+1)}},
\quad
\forall i=1,\dots,n_1,\;
q=1,\dots,Q,
$$
$$
\tau_{jr}^{(2)}
\propto
\rho_r^{(t)}
\prod_{i=1}^{n_1}
\prod_{q=1}^{Q}
f\!\left(Y_{ij};\alpha_{qr}^{(t)}\right)^{\tau_{iq}^{(1),(t+1)}},
\quad
\forall j=1,\dots,n_2,\;
r=1,\dots,R,
$$
où :
- $\pi_q^{(t)}$ et $\rho_r^{(t)}$ sont les proportions de classes,
- $f(\cdot;\alpha_{qr})$ est la loi d'émission du modèle,
- $\alpha_{qr}^{(t)}$ désigne les paramètres de bloc à litération $t$.
---
##### Constantes de normalisation
Les constantes de normalisation associées sont données par :
$$
T^{(1),(t)}_i
=
\sum_{q=1}^{Q}
\pi_q^{(t)}
\exp\!\left(
\sum_{j=1}^{n_2}
\sum_{r=1}^{R}
\tau_{jr}^{(2)}
\log f\!\left(Y_{ij};\alpha_{qr}^{(t)}\right)
\right),
$$
$$
T^{(2),(t)}_j
=
\sum_{r=1}^{R}
\rho_r^{(t)}
\exp\!\left(
\sum_{i=1}^{n_1}
\sum_{q=1}^{Q}
\tau_{iq}^{(1)}
\log f\!\left(Y_{ij};\alpha_{qr}^{(t)}\right)
\right).
$$
Ainsi, les mises à jour normalisées sécrivent :
$$
\tau_{iq}^{(1)} = \frac{1}{T^{(1),(t)}_i}(\cdots),
\qquad
\tau_{jr}^{(2)} = \frac{1}{T^{(2),(t)}_j}(\cdots).
$$
---
##### Interprétation duale
Les multiplicateurs de Lagrange sidentifient alors à :
$$
\lambda_i = -\log T^{(1),(t)}_i - 1,
\qquad
\mu_j = -\log T^{(2),(t)}_j - 1,
$$ {#eq-dual}
et le problème dual consiste à minimiser une somme de fonctions de
log-partition, ce qui montre que lalgorithme VEM réalise implicitement
une descente sur le dual.
#### Bibliographie: à lire, à faire