**Auteur**:: Romain Thoreau

![[local_macros.tex]]

# Contexte

- Déjà mentionné dans [[@kingmaAutoEncodingVariationalBayes2022c]]
- Premier papier à le faire [[ @boraCompressedSensingUsing2017 ]] : "Compressed sensing"

## Problème inverse

Déterminer un signal d'intérêt $x \in \mathbb{R}^n$ à partir d'observations bruités $y\in\R^n$ et d'un modèle direct $F$:

$$
y=F(x,\eta)
$$

où $\eta$ est le bruit d'observation.

Pour aujourd'hui on s'intéresse à un bruit additif et gaussien

$y=F(x)+\eta$

Dans le cas où $F$ n'est pas injective, il existe des observations $y$ telles que le problème n'admet pas de solution unique:

$$
card(\{x\in\R^n|y=F(x)\})>1
$$

Un tel problème est dit problème inverse mal posé.

Besoin de régulariser le problème.

$$
\min_{x} \|y-F(x)\|^2 + \lambda R(x), \lambda> 0
$$

où $R:\R^n\to\R$ encode de l'info de la structure du signal.

## Exemple 1 : Caractérisation de polluants atmosphérique à partir d'images satellites hyperspectrales

Il y a des centrales ou sites métallurgiques qui émettent des métaux lourds. Les rayons du soleil passent à travers le panache de fumée, sont réfléchies et mesurés par le satellite.

$y$ est donc la mesure, une *luminance*, avec $x_1$ les propriétés optiques du sol et $x_{2}$ les propriétés chimiques d'intérêt du panache.

On a le problème suivant:

$$
	y = F(x_{1},x_{2})+\eta
$$

mais mal posé car $\exists x_{1}\neq x_{1}^{\prime}, x_{2}\neq x_{2}^{\prime}, F(x_{1},x_{2})=F(x_{1}^{\prime}, x_{2}^{\prime})$.

## Exemple 2: Super résolution d'image

$$
F:x\to F_{1}F_{2}x
$$

avec $F_{1}$ opérateur de sous-échantillonnage, $F_{2}$ opérateur de floutage.

$$
	F_{1}F_{2}\in\R^{mn}, m< n
$$

problème mal posé.

## Exemple 3: Acquisition comprimée (*compressed sensing*)

ex: accélération IRM, volonté de ne pas laisser le patient trop longtemps dans la machine donc acquisition d'une partie des fréquences avec un masque choisi afin de pouvoir garantir de retrouver théoriquement les fréquences non acquises.

$$
	y=Ax+\eta, A\in\R^{mn}
$$

### Principe

Utiliser la parcimonie du signal.

**Hypothèse:** il existe $\phi\in\R^{n\times n}$ telle que:

$$
	x = \phi s, \|s\|_{0} \leq k, k\in\mathbb{N}^*
$$

$$
\|s\|_{0}=card(\{s_{i},s_{i}>0\})
$$

**Optimisation:**

$$
	\min_{x} \|y-Ax\|^2_{2} \text{ avec } \|\phi^{-1}x\|_{0}\leq k
$$

relaxée avec la norme $\mathbb{L}^1$

## Mais quelle garantie ?

Sur l'erreur d'approximation $\|\hat{x}-x^\star\|_{2}$.

Obtenue pour des $x$ approximativement $k$-parcimonieux.

Soit $\alpha \geq_{1}$. Soit $S\subset \{ 1,\dots,n \}$ de taille $k$.

$$
	C(\alpha,S) = \{ x\in\R^n |  \|x_{\bar{s}}\|_{1}\leq\alpha\|x_{s}\|_{1}  \}
$$

La garantie est obtenue si $A$ respecte la *restricted eigenvalue condition*, qui est respectée si pour un $\gamma>0$, pour tous les sous-ensembles S de taille $k$, pour tout $x \in C(\alpha,s)$,

$$
	\|Ax\|_{2}\geq\gamma\|x\|_{2}
$$

**Intuition:** 

1. les vecteurs approximativement $k$-parcimonieux (tout les $x\in C(\alpha,S), card(S) = k$) sont éloignés du noyau de $A$, $Ker(A) = \{ x\in\R^n|Ax=0 \}$.
2. $\forall x\in\R^n,\|Ax\|_{2}\geq\lambda_{min}(A^{\top}A)\|x\|_{2} = 0$. Restreinte aux vecteurs parcimonieux, $A^{\top}A$ est bien conditionnée.
Si $A$ respecte REC pour $\alpha\geq3,\gamma>0$,

$$
\|\hat{x}-x^\star\|_{2} = O\left( \sqrt{ \frac{k\log n}{m} } \right).
$$

# Idée principale de @boraCompressedSensingUsing2017

Utiliser un modèle génératif $G:\R^k\to\R^n$ pour spécifier la structure de $\mathcal{X}$:

$$
	\min_{x}\|y-Ax\|_{2}^2,\text{ s.c. } x\in G(\R^k)
$$

Ce qui est équivalent à travailler dans l'espace latent du VAE dont l'optimisation est:

$$
		\min_{z}\|y-AG(z)\|_{2}^2.
$$

**Garanties:** Si $A$ respecte conditions S-REC "Set-Restricted Eigenvalue Condition".

Pour un $\gamma>0$, pour un ensemble $S$, pour tout $x_{1},x_{2}\in G(\R^k)$,

$$
	\|Ax_{1}-Ax_{2}\|_{2}\geq\gamma\|x_{1}-x_{2}\|_{2}.
$$

### Résultat principal

Soit $G:\R^k\to\R^n$ un réseau de neurones de $d$ couches avec des activations ReLU et pour une matrice $A$ aléatoire Gaussienne telle que $A_{ij}\sim\Normal(0,1)$ pour $m = O(kd\log n)$.

Si pour tout $x^\star\in\R^n$, $y=Ax^\star+\eta$, $\hat{z}$ qui minimise l'erreur $\|y-AG(\hat{z})\|_{2}$ à une erreur $\varepsilon$ additive près, alors

$$
	\|x^\star-\hat{x}\|_{2} \leq 6 \min_{z^\star\in\R^k} \|x^\star-G(z^\star)\|_{2} + 3\|\eta\|_{2} + 2\varepsilon,
$$

où le premier terme est l'erreur de représentation, le deuxième l'erreur intrinsèque du bruit et le troisième l'erreur d'optimisation.

Deux résultats :

- $A$ respecte S-REC pour $G$ constitué de ReLU.
- Si S-REC est respectée alors une faible erreur dans l'espace des observations implique une faible erreur d'approximation.

En pratique,

$$
	\min_{z} \|y-AG(z)\|^2 + \lambda\|w\|_{2}^2,\lambda>0
 
$$

 avec [[@gonzalezSolvingInverseProblems2022]] qui donne une interprétation bayésienne pour des modèles génératifs déterministes.

$$
\begin{align*}
	p(z) &= \Normal(0,I)\\
	p(y|x) &= \Normal(Ax,\Sigma)\\
	p(x|z)&=\delta(x-G(z))\\
	p(z|y)&=\frac{p(z,y)}{p(y)} = \frac{1}{p(y)}\int p(x,y,z)dx\\
	& = \frac{1}{p(y)} \int p(y|x,z)p(x|z)p(z)dx\\
	& = \frac{1}{p(y)} \int p(y|x)\delta(x-G(z))p(z)dx\\
	&=\frac{1}{p(y)}p(y|G(z))p(z)
\end{align*}
$$

Et on a 

$$
\begin{align*}
	\arg\max_{z} p(z|y) &=\arg\max_{z}p_{y|x}(y|G(z))p(z)\\
	&=\arg\min_{z} \frac{1}{\sigma^2}\|y-AG(z)\|^2_{2} + \|z\|^2_{2}
\end{align*}
$$

pour $\Sigma=\sigma^2I$.