Ces observations sont typiquement réelles (Exercices 1, 3, 4) ou vectorielles (Exercice 2).
On note \((\mathbb{X}_n,\mathcal{X}_n)\) un espace mesurable “naturel” contenant le vecteur \((x_1,\ldots,x_n)\).
On modélise ces observations comme la réalisation d’un processus aléatoires \(X_1,\ldots,X_n\) de loi \(\mathbb{P}^n\) sur \((\mathbb{X}_n,\mathcal{X}_n)\).
La loi \(\mathbb{P}^n\) est inconnue et on s’intéresse alors à en produire une approximation à partir de \(X_1,\ldots,X_n\).
Pour cela, on se donne une famille de lois \((\mathbb{P}^n_\theta)_{\theta\in\Theta}\) sur \((\mathbb{X}_n,\mathcal{X}_n)\).
Le triplet \((\mathbb{X}_n,\mathcal{X}_n,(\mathbb{P}^n_\theta)_{\theta\in\Theta})\) est appelé modèle statistique canonique.
On construit alors une application \(\widehat{\theta}_n:\mathbb{X}_n\to\Theta\).
On approche \(\mathbb{P}^n\) par \(\mathbb{P}^n_{\widehat{\theta}_n(x_1,\ldots,x_n)}\).
L’application \(\widehat{\theta}_n\) est appelée un estimateur de \(\theta\).
On cherche une fonction \(f\) telle que \(\theta=\mathbb{E}_{\theta}[f(X_1,\ldots,X_n)]\) (où \(\mathbb{E}_\theta=\mathbb{E}_{\mathbb{P}^n=\mathbb{P}^n_\theta}\)).
Lorsque \(f(X_1,\ldots,X_n)\) est proche de son espérance, on estime \(\theta\) par \(\widehat{\theta}_n(X_1,\ldots,X_n)=f(X_1,\ldots,X_n)\).
Exemple : dans l’ex 1, on estime \(\theta=\mathbb{E}_\theta[X_1]\) par \(\overline{X}_n=n^{-1}\sum_{i=1}^nX_i\).
Pour tout \(\theta\) et tout \(y_1,\ldots,y_n\) de \(\mathbb{X}_n\), on note \[ L_n(\theta,y_1,\ldots,y_n)=\mathbb{P}^n_\theta(X_1=y_1,\ldots,X_n=y_n)\enspace. \]
La fonction aléatoire \(\theta\mapsto L_n(\theta,X_1,\ldots,X_n)\) donne pour chaque valeur du paramètre la probabilité de l’observation. Elle est appelée la vraisemblance de l’échantillon.
L’estimateur \(\widehat{\theta}_n(X_1,\ldots,X_n)\) maximisant \(L_n(\cdot,X_1,\ldots,X_n)\) est celui accordant le plus de poids à l’observation. Il est appelé estimateur du maximum de vraisemblance.
La fonction \(L_n(\cdot,y_1,\ldots,y_n)\) est la densité de la loi \(\mathbb{P}^n_\theta\) par rapport à la mesure de comptage.
De façon plus générale, supposons qu’il existe une mesure connue \(\mu\) par rapport à laquelle toutes les lois \(\mathbb{P}^n_\theta\) sont absolument continues.
Notons \((y_1,\ldots,y_n)\mapsto L_n(\theta,y_1,\ldots,y_n)\) la densité de \({\mathbb{P}}^n_\theta\) par rapport à \(\mu\).
La fonction aléatoire \(\theta\mapsto L_n(\theta,X_1,\ldots,X_n)\) est appelée vraisemblance, c’est la fonction la plus importante du cours.
S’il est unique, on parle de l’estimateur du maximum de vraisemblance.
Remarque : dès qu’on parle de vraisemblance, ou de maximum de vraisemblance, on se donne une famille de densités plutôt qu’une famille de lois.
Soit \(\varphi\) une fonction continue et bornée, on a \[ {\mathbb{E}}{\left[\varphi{\left((\mu+\sigma\xi_i)_{i=1,\dots,n}\right)}\right]}=\int \varphi{\left((\mu+\sigma x_i)_{i=1,\dots,n}\right)}\prod_{i=1}^ng(x_i)dx_i\enspace. \] En effectuant le changement de variables \[ y_i=\mu+\sigma x_i,\qquad i=1\ldots,n\enspace, \] on déduit \[ {\mathbb{E}}{\left[\varphi{\left((\mu+\sigma\xi_i)_{i=1,\dots,n}\right)}\right]} =\int \varphi{\left(y_1,\ldots,y_n\right)}\prod_{i=1}^ng{\left(\frac{y_i-\mu}{\sigma}\right)}\frac{dy_i}{\sigma}\enspace. \]
Ainsi, \((\mu+\sigma\xi_1,\ldots,\mu+\sigma\xi_n)\) est un vecteur aléatoire de \({\mathbb{R}}^n\) admettant pour densité par rapport à la mesure de Lebesgue la fonction \[ (y_1,\ldots,y_n)\mapsto \frac1{\sigma^n}g{\left(\frac{y_1-\mu}{\sigma}\right)}\ldots g{\left(\frac{y_n-\mu}{\sigma}\right)}\enspace. \]
Soit \(\theta=(\mu,\sigma)\in\Theta\) et soient \(\varphi_1,\ldots,\varphi_n\) \(n\) fonctions continues et bornées. On a \[ {\mathbb{E}}_\theta{\left[\varphi_1(X_1)\ldots \varphi_n(X_n)\right]}=\int \prod_{i=1}^n\varphi_i(y_i)\frac1{\sigma}g{\left(\frac{y_i-\mu}{\sigma}\right)}dy_i\enspace. \] D’après le théorème de Fubbini, on a donc \[ {\mathbb{E}}_\theta{\left[\varphi_1(X_1)\ldots \varphi_n(X_n)\right]}=\prod_{i=1}^n\int \varphi_i(y_i)\frac1{\sigma}g{\left(\frac{y_i-\mu}{\sigma}\right)}dy_i\enspace. \]
Ainsi, les variables \(X_i\) sont indépendantes et de même loi de densité par rapport à la mesure de Lebesgue \[ y\mapsto \frac1{\sigma}g{\left(\frac{y-\mu}{\sigma}\right)}\enspace. \] Comme c’est vrai pour tout \(\theta\in\Theta\), la question est résolue.
Soit \(\theta=(\mu,\sigma)\in\Theta\) et soient \(\varphi_1,\ldots,\varphi_n\) \(n\) fonctions continues et bornées. On a \[ {\mathbb{E}}_\theta{\left[\prod_{i=1}^n\varphi_i{\left(\frac{X_i-\mu}{\sigma}\right)}\right]}=\int \prod_{i=1}^n\varphi_i{\left(\frac{y_i-\mu}{\sigma}\right)}g{\left(\frac{y_i-\mu}{\sigma}\right)}\frac{dy_i}{\sigma}\enspace. \] Par Fubbini \[ {\mathbb{E}}_\theta{\left[\prod_{i=1}^n\varphi_i{\left(\frac{X_i-\mu}{\sigma}\right)}\right]}=\prod_{i=1}^n\int \varphi_i{\left(\frac{y_i-\mu}{\sigma}\right)}g{\left(\frac{y_i-\mu}{\sigma}\right)}\frac{dy_i}{\sigma}\enspace. \]
En faisant les changements de variables \(z_i=(y_i-\mu)/\sigma\), \(i=1,\ldots,n\), il vient alors \[ {\mathbb{E}}_\theta{\left[\prod_{i=1}^n\varphi_i{\left(\frac{X_i-\mu}{\sigma}\right)}\right]}=\prod_{i=1}^n\int \varphi_i{\left(z_i\right)}g{\left(z_i\right)}dz_i\enspace. \]
On suppose ici que \(g(x)=(2\pi)^{-1/2}e^{-x^2/2}\).
On cherche la loi image de \(p_{n,\theta}\) par \((\sum_{i=1}^nX_i,\sum_{i=1}^nX_i^2)\).
Fixons \(\theta=(\mu,\sigma)\in\Theta\), on cherche la loi de \((\sum_{i=1}^nY_i(\theta),\sum_{i=1}^nY_i^2(\theta))\).
On utilise le théorème de Cochran (Proposition III-5.20 du polycopié) qui assure que
\(\overline{Y}_n(\theta)=\sum_{i=1}^nY_i(\theta)\) est une variable aléatoire gaussienne de moyenne \(n\mu\) et de variance \(n\sigma^2\),
\(K_n(\theta)=\sum_{i=1}^n(Y_i(\theta)-n^{-1}\overline{Y}_n(\theta))^2\) est une variable aléatoire distribuée selon la loi \(\Gamma((n-1)/2,1/2\sigma^2)\) et indépendante de \(\overline{Y}_n(\theta)\).
On pose
\[ z=u,\qquad y=v-\frac1nu^2\enspace. \]
Par la formule de changement de variables
\({\mathbb{E}}{\left[\varphi{\left(\sum_{i=1}^nY_i(\theta),\sum_{i=1}^nY_i^2(\theta)\right)}\right]}=\)
\[ \int_{{\mathbb{R}}}\int_{u^2/n}^{+\infty}\varphi(u,v)\frac{e^{-\frac{(u-n\mu)^2}{2n\sigma^2}}}{\sqrt{2\pi n\sigma^2}}{\left(\frac{1}{2\sigma^2}\right)}^{(n-1)/2}\frac{e^{-\frac{(v-u^2/n)}{2\sigma^2}}(v-\frac{u^2}n)^{\frac{n-3}2}}{\Gamma((n-1)/2)}dudv\enspace. \]
Ainsi, la loi de \({\left(\sum_{i=1}^nY_i(\theta),\sum_{i=1}^nY_i^2(\theta)\right)}\) est la loi sur \({\mathbb{R}}^2\) de densité \[ (u,v)\mapsto\frac{e^{-\frac{n\mu^2}{2\sigma^2}}(v-\frac{u^2}n)^{\frac{n-3}2}}{2\sqrt{\pi n}(\sqrt{2}\sigma)^n\Gamma((n-1)/2)}\exp{\left(-\frac{v-2u\mu}{2\sigma^2}\right)}\mathbb{1}_{v\ge u^2/n}\enspace. \]
Supposons désormais que \[ g(x)=\frac12e^{-|x|}\enspace. \] alors \[ p_{n,\theta}(y_1,\ldots,y_n)=\frac1{(2\sigma)^{n}}\exp{\left(-\sum_{i=1}^{n}\frac{|y_i-\mu|}{\sigma}\right)}\enspace. \] Cette fonction étant strictement positive on peut en prendre le logarithme et obtenir la log-vraisemblance \[ \ell_n((\mu,\sigma),X_1,\ldots,X_n)=-n\log(2\sigma)-\sum_{i=1}^{n}\frac{|X_i-\mu|}{\sigma}\enspace. \]
Cette fonction est différentiable presque partout et on a
\[ \frac{\partial}{\partial \mu}[\ell_n((\mu,\sigma),X_1,\ldots,X_n)]=\frac1{\sigma}\sum_{i=1}^n\text{sign}(X_i-\mu)\] \[ \frac{\partial}{\partial \sigma}[\ell_n((\mu,\sigma),X_1,\ldots,X_n)]=\frac{n}{\sigma}\left(\frac{n^{-1}\sum_{i=1}^n|X_i-\mu|}{\sigma}-1\right)\enspace. \]
D’après la première équation, le maximum est atteint lorsque
\[ \mu=\widehat{\mu}_{MV}=\text{mediane}[(X_i)_{i=1,\ldots,n}] \]
d’après la seconde, il est atteint au point \((\widehat{\mu}_{MV},\widehat{\sigma}_{MV})\), avec
\[ \widehat{\sigma}_{MV}=n^{-1}\sum_{i=1}^n|X_i-\widehat{\mu}_{MV}|\enspace. \]
Comme une fonction atteint son maximum au même point que son logarithme, c’est l’estimateur du maximum de vraisemblance de \((\mu,\sigma^2)\).
nsmp=100
nbmc= 1000
moyenne=rep(0,nbmc)
mediane=rep(0,nbmc)
for (i in 1:nbmc){
x= rnorm(nsmp)
moyenne[i]= mean(x)
mediane[i]=median(x)
}
mat= data.frame(moyenne,mediane)
boxplot(mat,main="gaussien")
Les deux estimateurs ont un excellement comportement médian.
Ils présentent tous deux une distribution symmétrique.
La distribution de \(\widehat{\mu}_n\) est nettement plus concentrée que celle de \(\widehat{\mu}_{MV}\).
On préfère \(\widehat{\mu}_n\) sur cet exemple, on peut vérifier qu’il s’agit de l’estimateur du maximum de vraisemblance.
Considérons maintenant le cas où les données sont distribuées selon la loi de Laplace (doublex dans R).
for (i in 1:nbmc){
x= rdoublex(nsmp)
moyenne[i]= mean(x)
mediane[i]=median(x)
}
mat= data.frame(moyenne,mediane)
boxplot(mat,main="laplace")
La médiane \(\widehat{\mu}_{MV}\) est ici plus concentrée que la moyenne \(\widehat{\mu}_n\).
C’est là encore l’estimateur du maximum de vraisemblance.
La modélisation des données (le choix du modèle statistique) a donc une grande importance pour déterminer un bon estimateur, que ce soit en théorie ou en pratique.
Soit \(\theta=(\beta,\sigma)\in\Theta\) et soit \(\varphi\) une fonction continue et bornée. \({\mathbb{E}}{\left[\varphi{\left((f(\beta'x_i)+\sigma\xi_i)_{i=1,\ldots,n}\right)}\right]}\)
\[ =\int \varphi{\left((f(\beta'x_i)+\sigma z_i)_{i=1,\ldots,n}\right)}\prod_{i=1}^ng(z_i)dz_i\enspace. \]
En posant \(y_i=f(\beta'x_i)+\sigma z_i\), \(i=1,\ldots,n\), on a
\({\mathbb{E}}{\left[\varphi{\left((f(\beta'x_i)+\sigma\xi_i)_{i=1,\ldots,n}\right)}\right]}\) \[ =\int \varphi{\left(y_1,\ldots,y_n\right)}\prod_{i=1}^ng{\left(\frac{y_i-f(\beta'x_i)}{\sigma}\right)}\frac{dy_i}{\sigma}\enspace. \]
Ainsi, \({\left(f(\beta'x_1)+\sigma\xi_1,\ldots,f(\beta'x_1)+\sigma\xi_n\right)}\) est un vecteur de \({\mathbb{R}}^n\) de densité par rapport à la mesure de Lebesgue égale à \[ (y_1,\ldots,y_n)\mapsto\frac1{\sigma^n}\prod_{i=1}^ng{\left(\frac{y_i-f(\beta'x_i)}{\sigma}\right)}\enspace. \]
Soient \(\theta=(\beta,\sigma)\in\Theta\) et \(\varphi_1,\ldots,\varphi_n\) des fonctions continues et bornées. On a \[ {\mathbb{E}}_\theta{\left[\varphi_1{\left(Y_1\right)}\ldots\varphi_n{\left(Y_n\right)}\right]}=\int \prod_{i=1}^n\varphi_i(y_i)g{\left(\frac{y_i-f(\beta'x_i)}{\sigma}\right)}\frac{dy_i}{\sigma}\enspace. \]
Par Fubbini,
\[ {\mathbb{E}}_\theta{\left[\varphi_1{\left(Y_1\right)}\ldots\varphi_n{\left(Y_n\right)}\right]}=\prod_{i=1}^n\int \varphi_i(y_i)g{\left(\frac{y_i-f(\beta'x_i)}{\sigma}\right)}\frac{dy_i}{\sigma}\enspace. \]
Les variables \(Y_1,\ldots,Y_n\) sont donc sous \(p_{n,\theta}\) indépendantes et \(Y_i\) a pour densité par rapport à la mesure de Lebesgue
\[ y\mapsto \frac1{\sigma}g{\left(\frac{y-f(\beta'x_i)}{\sigma}\right)}\enspace. \]
Soient \(\theta=(\beta,\sigma)\in\Theta\) et \(\varphi_1,\ldots,\varphi_n\) des fonctions continues et bornées. On a
\[ {\mathbb{E}}_\theta{\left[\prod_{i=1}^n\varphi_i{\left(\frac{Y_i-f(x_i'\beta)}{\sigma}\right)}\right]}=\int \prod_{i=1}^n\varphi_i{\left(\frac{y_i-f(\beta'x_i)}{\sigma}\right)}g{\left(\frac{y_i-f(\beta'x_i)}{\sigma}\right)}\frac{dy_i}{\sigma}\enspace. \]
Par Fubbini,
\[ {\mathbb{E}}_\theta{\left[\prod_{i=1}^n\varphi_i{\left(\frac{Y_i-f(x_i'\beta)}{\sigma}\right)}\right]}=\prod_{i=1}^n\int \varphi_i{\left(\frac{y_i-f(\beta'x_i)}{\sigma}\right)}g{\left(\frac{y_i-f(\beta'x_i)}{\sigma}\right)}\frac{dy_i}{\sigma}\enspace. \]
En posant \(z_i=(y_i-f(x_i'\beta))/\sigma\) pour tout \(i=1,\ldots,n\), on a donc
\[ {\mathbb{E}}_\theta{\left[\prod_{i=1}^n\varphi_i{\left(\frac{Y_i-f(x_i'\beta)}{\sigma}\right)}\right]}=\prod_{i=1}^n\int \varphi_i{\left(z_i\right)}g{\left(z_i\right)}dz_i\enspace. \]
Les variables \((Y_1-f(x_1'\beta))/\sigma,\ldots,(Y_n-f(x_n'\beta))/\sigma\) sont donc sous \(p_{n,\theta}\) indépendantes et \((Y_i-f(x_i'\beta))/\sigma\) a pour densité \(g\) par rapport à la mesure de Lebesgue.
On peut écrire la vraisemblance de l’échantillon : \[ \frac1{(\sqrt{2\pi\sigma^2})^n}\exp{\left(-\frac1{2\sigma^2}\sum_{i=1}^n(Y_i-\beta_0-\beta_1x_i)^2\right)} \]
Maximiser cette vraisemblance revient donc à minimiser
\[ \sum_{i=1}^n(Y_i-\beta_0-\beta_1x_i)^2 \]
En dérivant, on vérifie qu’un minimiseur satisfait nécessairement
\[ n\beta_0+\beta_1\sum_{i=1}^nx_i=\sum_{i=1}^nY_i,\qquad \beta_0\sum_{i=1}^nx_i+\beta_1\sum_{i=1}^nx_i^2=\sum_{i=1}^nx_iY_i\enspace. \]
Donc, si \((x_1,\ldots,x_n)\) n’est pas colinéaire à \((1,\ldots,1)\),
\[ \beta_0=\frac{{\left(\sum_{i=1}^nx_i^2\right)}{\left(\sum_{i=1}^nY_i\right)}-{\left(\sum_{i=1}^nx_i\right)}{\left(\sum_{i=1}^nx_iY_i\right)}}{n\sum_{i=1}^nx_i^2-{\left(\sum_{i=1}^nx_i\right)}^2}\enspace, \]
\[ \beta_1=\frac{n{\left(\sum_{i=1}^nx_iY_i\right)}-{\left(\sum_{i=1}^nx_i\right)}{\left(\sum_{i=1}^nY_i\right)}}{n\sum_{i=1}^nx_i^2-{\left(\sum_{i=1}^nx_i\right)}^2}\enspace. \]
data("airquality")
plot(airquality,pch=20,col='blue')
y=lm(Ozone~Solar.R,data=airquality); summary(y)
##
## Call:
## lm(formula = Ozone ~ Solar.R, data = airquality)
##
## Residuals:
## Min 1Q Median 3Q Max
## -48.292 -21.361 -8.864 16.373 119.136
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 18.59873 6.74790 2.756 0.006856 **
## Solar.R 0.12717 0.03278 3.880 0.000179 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 31.33 on 109 degrees of freedom
## (42 observations deleted due to missingness)
## Multiple R-squared: 0.1213, Adjusted R-squared: 0.1133
## F-statistic: 15.05 on 1 and 109 DF, p-value: 0.0001793
plot(Ozone~Solar.R,data=airquality)
abline(reg=y,col='red')
mean.Ozone=mean(airquality$Ozone,na.rm=T)
Le modèle semble raisonnable pour les petites valeurs du rayonnement solaire (jusqu’à environ 150 p.p.m.).
Les résidus sont ensuite très dispersés.
Le rayonnement solaire ne suffit pas à expliquer seul le taux d’ozone dans cette zone, il parait judicieux d’utiliser d’autres covariables.
Soit \(s\in[0,1]\), on a
\[ G_\lambda(s)=\sum_{k\ge 0}\frac{s^k\lambda^k}{k!}e^{-\lambda}=e^{\lambda(s-1)}\enspace. \]
On a
\[ G'_\lambda(s)=\lambda e^{\lambda(s-1)}, \qquad G''_\lambda(s)=\lambda^2 e^{\lambda(s-1)}\enspace. \]
On en déduit que
\[ {\mathbb{E}}[X]=G'_\lambda(1)=\lambda,\qquad {\mathbb{E}}[X(X-1)]=G''_\lambda(1)=\lambda^2\enspace, \]
donc
\[ \text{Var}_{\lambda}(X)={\mathbb{E}}[X(X-1)]+{\mathbb{E}}[X]-{\mathbb{E}}[X]^2=\lambda\enspace. \]
La fonction génératrice des moments de \(X_1+X_2\) associe à tout \(s\in[0,1]\)
\[ {\mathbb{E}}{\left[s^{X_1+X_2}\right]}={\mathbb{E}}[s^{X_1}]{\mathbb{E}}[s^{X_2}]=e^{(\lambda_1+\lambda_2)(s-1)}\enspace. \]
C’est la fonction génératrice des moments de la loi de Poisson de paramètre \(\lambda_1+\lambda_2\).
Par une récurrence immédiate dans la question précédente, la modèle statistique associé à \(\sum_{i=1}^nX_i\) est donné par le triplet
\[ {\left({\mathbb{N}},{\mathcal{P}}({\mathbb{N}}),(p_{n\lambda}.\mu)_{\lambda>0}\right)}\enspace. \]
D’après les questions 2. et 4., \(n^{-1}\sum_{i=1}^nX_i\) est un estimateur sans biais de variance \(\lambda/n\) de \(\lambda\).
On a un \(n\)-échantillon du modèle \[ {\left({\mathbb{N}}^2,{\mathcal{P}}({\mathbb{N}}^2),p_\lambda.\mu\otimes p_\nu.\mu\right)} \]
Triviale.
Cette hypothèse est discutable car toutes les variances empiriques sont supérieures aux moyennes.
On a \({\mathbb{E}}[X]=\pi\lambda\) et \({\mathbb{E}}[X^2]=\pi(\lambda^2+\lambda)\) donc
\[ \text{Var}(X)=\pi\lambda+\lambda^2\pi(1-\pi)\enspace. \]
Remarque : en particulier, dès que \(\pi>0\) et \(\lambda>0\),
\[ \text{Var}(X)>{\mathbb{E}}[X]\enspace. \]
Notons \(m_1=\pi\lambda\) et \(m_2=\pi\lambda+\pi(1-\pi)\lambda^2\). On a
\[ m_2+m_1^2=\pi\lambda(1+\lambda)\enspace, \]
donc
\[ \frac{m_2+m_1^2}{m_1}=1+\lambda\enspace. \]
Ainsi,
\[ \lambda=\frac{m_2}{m_1}+m_1-1,\qquad \pi=\frac{m_1}{\frac{m_2}{m_1}+m_1-1}\enspace. \]
On utilise ensuite la méthode des moments.
On propose d’abord un \(n\)-échantillon du modèle Gaussien \[ ({\mathbb{R}},{\mathcal{B}}({\mathbb{R}}),(\mathsf{N}(\mu,\sigma^2))_{(\mu,\sigma)\in{\mathbb{R}}\times{\mathbb{R}}_+^*})\enspace. \]
En utilisant les calculs du premier exercice, on peut estimer \(\mu\) par \(\widehat{\mu}_n=n^{-1}\sum_{i=1}^nX_i\) et \(\sigma^2\) par la variance empirique \(\widehat{\sigma}_n^2=n^{-1}\sum_{i=1}^n(X_i-\widehat{\mu}_n)^2\).
La distribution empirique semble moins concentrée qur la loi Gaussienne. Le modèle est contestable.
Si \(X\) est Gaussienne \({\mathbb{E}}[(X-\mu)^3]=0\) donc le coefficient d’assymétrie est nul.
On a \[ {\mathbb{E}}{\left[e^{tX}\right]}=e^{\mu t+\frac{\sigma^2t^2}2}\enspace. \]
On en déduit que
\[ {\mathbb{E}}{\left[e^{t(X-\mu)}\right]}=\sum_{k\ge 0}\frac{\sigma^{2k}t^{2k}}{2^kk!}=\sum_{k\ge 0}\frac{t^k}{k!}{\mathbb{E}}[(X-\mu)^k]\enspace. \]
En identifiant les coefficients de ces développements en série entière, il vient
\[ {\mathbb{E}}[(X-\mu)^{2k+1}]=0,\qquad {\mathbb{E}}[(X-\mu)^{2k}]=\frac{\sigma^{2k}(2k)!}{2^kk!},\qquad \forall k\ge 0\enspace. \]
En particulier,
\[ \gamma_2 =\frac{\sigma^44!/8}{\sigma^4}-3=0\enspace. \]
On peut appliquer directement la méthode des moments et estimer le coefficient d’assymétrie par
\[ \widehat{\gamma}_1=\frac{n^{-1}\sum_{i=1}^n(X_i-\overline{X}_n)^3}{{\left(n^{-1}\sum_{i=1}^n(X_i-\overline{X}_n)^2\right)}^{3/2}}\enspace. \]
De la même façon, on peut estimer l’excès de kurtosis par
\[ \widehat{\gamma}_2=\frac{n^{-1}\sum_{i=1}^n(X_i-\overline{X}_n)^4}{{\left(n^{-1}\sum_{i=1}^n(X_i-\overline{X}_n)^2\right)}^{2}}-3\enspace. \]
Comme attendu,
la distribution semble symmétrique (le coefficient d’assymétrie empirique est petit).
en revanche, l’excès du kurtosis est important. Donc le moment d’ordre 4 de la distribution des log-rendements semble nettement supérieur à celui attendu dans le modèle gaussien.
Le moment d’ordre 4 de cette distribution est donc sensiblement supérieur à celui d’une Gaussienne de même variance, la modélisation gaussienne ne semble donc pas complètement pertinente et sous-estime vraisemblablement la probabilité d’événements extrêmes.
Les données collectées \((x_1, \ldots, x_n)\) sont une réalisation du vecteur aléatoire \(Z = (X_1, \cdots, X_n)\) à valeur dans \({\mathbb{R}}^n\).
On munit cet espace de sa tribu borélienne, et d’une famille de probabilités \((P_\theta, \theta \in \Theta)\) avec
les v.a. \((X_k)_k\) ne sont pas indépendantes mais leur loi s’écrit \[ \prod_{k=1}^n {\mathcal{L}}(X_k|(X_1, \ldots, X_{k-1}))\enspace. \]
Les v.a. \((Z_k)_k\) sont indépendantes et \(X_{k-1}\) est une fonction de \(Z_1, \ldots, Z_{k-1}\), donc \(Z_k\) est indépendant de \(X_{k-1}\).
Puisque \(Z_k\) et \(X_{k-1}\) sont indépendants, la loi conditionnelle de \(X_k\) sachant \((X_1,\ldots, X_{k-1})\) est la loi conditionnelle de \(X_k\) sachant \(X_{k-1}\).
La loi conditionnelle de \(X_k\) sachant \(X_{k-1}\) est la loi gaussienne, centrée et de variance \(\alpha_0 + \alpha_1X_{k-1}^2\).