Rappels de Cours

Cadre commun

  • On dispose d’observations \(x_1,\ldots,x_n\). ex: valeur de l’action Apple chaque jour de l’année 2015.
  • Ces observations sont typiquement réelles (Exercices 1, 3, 4) ou vectorielles (Exercice 2).

  • On note \((\mathbb{X}_n,\mathcal{X}_n)\) un espace mesurable “naturel” contenant le vecteur \((x_1,\ldots,x_n)\).

Modèle statistique

  • On modélise ces observations comme la réalisation d’un processus aléatoires \(X_1,\ldots,X_n\) de loi \(\mathbb{P}^n\) sur \((\mathbb{X}_n,\mathcal{X}_n)\).

  • La loi \(\mathbb{P}^n\) est inconnue et on s’intéresse alors à en produire une approximation à partir de \(X_1,\ldots,X_n\).

  • Pour cela, on se donne une famille de lois \((\mathbb{P}^n_\theta)_{\theta\in\Theta}\) sur \((\mathbb{X}_n,\mathcal{X}_n)\).

Le triplet \((\mathbb{X}_n,\mathcal{X}_n,(\mathbb{P}^n_\theta)_{\theta\in\Theta})\) est appelé modèle statistique canonique.

Estimateurs

  • On construit alors une application \(\widehat{\theta}_n:\mathbb{X}_n\to\Theta\).

  • On approche \(\mathbb{P}^n\) par \(\mathbb{P}^n_{\widehat{\theta}_n(x_1,\ldots,x_n)}\).

L’application \(\widehat{\theta}_n\) est appelée un estimateur de \(\theta\).

Méthode des moments

  • On cherche une fonction \(f\) telle que \(\theta=\mathbb{E}_{\theta}[f(X_1,\ldots,X_n)]\) (où \(\mathbb{E}_\theta=\mathbb{E}_{\mathbb{P}^n=\mathbb{P}^n_\theta}\)).

  • Lorsque \(f(X_1,\ldots,X_n)\) est proche de son espérance, on estime \(\theta\) par \(\widehat{\theta}_n(X_1,\ldots,X_n)=f(X_1,\ldots,X_n)\).

  • Exemple : dans l’ex 1, on estime \(\theta=\mathbb{E}_\theta[X_1]\) par \(\overline{X}_n=n^{-1}\sum_{i=1}^nX_i\).

Vraisemblance : Cas discret

  • Pour tout \(\theta\) et tout \(y_1,\ldots,y_n\) de \(\mathbb{X}_n\), on note \[ L_n(\theta,y_1,\ldots,y_n)=\mathbb{P}^n_\theta(X_1=y_1,\ldots,X_n=y_n)\enspace. \]

  • La fonction aléatoire \(\theta\mapsto L_n(\theta,X_1,\ldots,X_n)\) donne pour chaque valeur du paramètre la probabilité de l’observation. Elle est appelée la vraisemblance de l’échantillon.

  • L’estimateur \(\widehat{\theta}_n(X_1,\ldots,X_n)\) maximisant \(L_n(\cdot,X_1,\ldots,X_n)\) est celui accordant le plus de poids à l’observation. Il est appelé estimateur du maximum de vraisemblance.

Vraisemblance : Cas général

  • La fonction \(L_n(\cdot,y_1,\ldots,y_n)\) est la densité de la loi \(\mathbb{P}^n_\theta\) par rapport à la mesure de comptage.

  • De façon plus générale, supposons qu’il existe une mesure connue \(\mu\) par rapport à laquelle toutes les lois \(\mathbb{P}^n_\theta\) sont absolument continues.

  • Notons \((y_1,\ldots,y_n)\mapsto L_n(\theta,y_1,\ldots,y_n)\) la densité de \({\mathbb{P}}^n_\theta\) par rapport à \(\mu\).

  • La fonction aléatoire \(\theta\mapsto L_n(\theta,X_1,\ldots,X_n)\) est appelée vraisemblance, c’est la fonction la plus importante du cours.

Estimateur du maximum de vraisemblance

  • S’il en existe, tout point maximisant la vraisemblance est appelé estimateur du maximum de vraisemblance \[ \widehat{\theta}_n(X_1,\ldots,X_n)\in\operatorname*{argmax}_{\theta\in\Theta}\;L_n(\theta,X_1,\ldots,X_n)\enspace. \]
  • S’il est unique, on parle de l’estimateur du maximum de vraisemblance.

  • Remarque : dès qu’on parle de vraisemblance, ou de maximum de vraisemblance, on se donne une famille de densités plutôt qu’une famille de lois.

Exercice 1

1. Loi de \((\mu+\sigma\xi_1,\ldots,\mu+\sigma\xi_n)\).

Soit \(\varphi\) une fonction continue et bornée, on a \[ {\mathbb{E}}{\left[\varphi{\left((\mu+\sigma\xi_i)_{i=1,\dots,n}\right)}\right]}=\int \varphi{\left((\mu+\sigma x_i)_{i=1,\dots,n}\right)}\prod_{i=1}^ng(x_i)dx_i\enspace. \] En effectuant le changement de variables \[ y_i=\mu+\sigma x_i,\qquad i=1\ldots,n\enspace, \] on déduit \[ {\mathbb{E}}{\left[\varphi{\left((\mu+\sigma\xi_i)_{i=1,\dots,n}\right)}\right]} =\int \varphi{\left(y_1,\ldots,y_n\right)}\prod_{i=1}^ng{\left(\frac{y_i-\mu}{\sigma}\right)}\frac{dy_i}{\sigma}\enspace. \]

Ainsi, \((\mu+\sigma\xi_1,\ldots,\mu+\sigma\xi_n)\) est un vecteur aléatoire de \({\mathbb{R}}^n\) admettant pour densité par rapport à la mesure de Lebesgue la fonction \[ (y_1,\ldots,y_n)\mapsto \frac1{\sigma^n}g{\left(\frac{y_1-\mu}{\sigma}\right)}\ldots g{\left(\frac{y_n-\mu}{\sigma}\right)}\enspace. \]

2. Les observations sont i.i.d.

Soit \(\theta=(\mu,\sigma)\in\Theta\) et soient \(\varphi_1,\ldots,\varphi_n\) \(n\) fonctions continues et bornées. On a \[ {\mathbb{E}}_\theta{\left[\varphi_1(X_1)\ldots \varphi_n(X_n)\right]}=\int \prod_{i=1}^n\varphi_i(y_i)\frac1{\sigma}g{\left(\frac{y_i-\mu}{\sigma}\right)}dy_i\enspace. \] D’après le théorème de Fubbini, on a donc \[ {\mathbb{E}}_\theta{\left[\varphi_1(X_1)\ldots \varphi_n(X_n)\right]}=\prod_{i=1}^n\int \varphi_i(y_i)\frac1{\sigma}g{\left(\frac{y_i-\mu}{\sigma}\right)}dy_i\enspace. \]

Ainsi, les variables \(X_i\) sont indépendantes et de même loi de densité par rapport à la mesure de Lebesgue \[ y\mapsto \frac1{\sigma}g{\left(\frac{y-\mu}{\sigma}\right)}\enspace. \] Comme c’est vrai pour tout \(\theta\in\Theta\), la question est résolue.

3.

Soit \(\theta=(\mu,\sigma)\in\Theta\) et soient \(\varphi_1,\ldots,\varphi_n\) \(n\) fonctions continues et bornées. On a \[ {\mathbb{E}}_\theta{\left[\prod_{i=1}^n\varphi_i{\left(\frac{X_i-\mu}{\sigma}\right)}\right]}=\int \prod_{i=1}^n\varphi_i{\left(\frac{y_i-\mu}{\sigma}\right)}g{\left(\frac{y_i-\mu}{\sigma}\right)}\frac{dy_i}{\sigma}\enspace. \] Par Fubbini \[ {\mathbb{E}}_\theta{\left[\prod_{i=1}^n\varphi_i{\left(\frac{X_i-\mu}{\sigma}\right)}\right]}=\prod_{i=1}^n\int \varphi_i{\left(\frac{y_i-\mu}{\sigma}\right)}g{\left(\frac{y_i-\mu}{\sigma}\right)}\frac{dy_i}{\sigma}\enspace. \]

En faisant les changements de variables \(z_i=(y_i-\mu)/\sigma\), \(i=1,\ldots,n\), il vient alors \[ {\mathbb{E}}_\theta{\left[\prod_{i=1}^n\varphi_i{\left(\frac{X_i-\mu}{\sigma}\right)}\right]}=\prod_{i=1}^n\int \varphi_i{\left(z_i\right)}g{\left(z_i\right)}dz_i\enspace. \]

4. Loi image.

  • On suppose ici que \(g(x)=(2\pi)^{-1/2}e^{-x^2/2}\).

  • On cherche la loi image de \(p_{n,\theta}\) par \((\sum_{i=1}^nX_i,\sum_{i=1}^nX_i^2)\).

  • Fixons \(\theta=(\mu,\sigma)\in\Theta\), on cherche la loi de \((\sum_{i=1}^nY_i(\theta),\sum_{i=1}^nY_i^2(\theta))\).

  • On utilise le théorème de Cochran (Proposition III-5.20 du polycopié) qui assure que

    • \(\overline{Y}_n(\theta)=\sum_{i=1}^nY_i(\theta)\) est une variable aléatoire gaussienne de moyenne \(n\mu\) et de variance \(n\sigma^2\),

    • \(K_n(\theta)=\sum_{i=1}^n(Y_i(\theta)-n^{-1}\overline{Y}_n(\theta))^2\) est une variable aléatoire distribuée selon la loi \(\Gamma((n-1)/2,1/2\sigma^2)\) et indépendante de \(\overline{Y}_n(\theta)\).

  • Si \(\varphi\) est une fonction continue et bornée, on a donc
\[\begin{align} \mathbb{E}\left[{\varphi\left({\sum_{i=1}^nY_i(\theta),\sum_{i=1}^nY_i^2(\theta)}\right)}\right]&=\mathbb{E}\left[{\varphi\left({\overline{Y}_n(\theta),K_n(\theta)+n^{-1}\overline{Y}_n^2(\theta)}\right)}\right]\\ &=\int\varphi(z,y+n^{-1}z^2)\frac{e^{-\frac{(z-n\mu)^2}{2n\sigma^2}}}{\sqrt{2\pi n\sigma^2}}\left({\frac{1}{2\sigma^2}}\right)^{(n-1)/2}\frac{e^{-\frac{y}{2\sigma^2}}y^{\frac{n-3}2}}{\Gamma((n-1)/2)}dzdy\enspace. \end{align}\]

On pose

\[ z=u,\qquad y=v-\frac1nu^2\enspace. \]

Par la formule de changement de variables

\({\mathbb{E}}{\left[\varphi{\left(\sum_{i=1}^nY_i(\theta),\sum_{i=1}^nY_i^2(\theta)\right)}\right]}=\)

\[ \int_{{\mathbb{R}}}\int_{u^2/n}^{+\infty}\varphi(u,v)\frac{e^{-\frac{(u-n\mu)^2}{2n\sigma^2}}}{\sqrt{2\pi n\sigma^2}}{\left(\frac{1}{2\sigma^2}\right)}^{(n-1)/2}\frac{e^{-\frac{(v-u^2/n)}{2\sigma^2}}(v-\frac{u^2}n)^{\frac{n-3}2}}{\Gamma((n-1)/2)}dudv\enspace. \]

Ainsi, la loi de \({\left(\sum_{i=1}^nY_i(\theta),\sum_{i=1}^nY_i^2(\theta)\right)}\) est la loi sur \({\mathbb{R}}^2\) de densité \[ (u,v)\mapsto\frac{e^{-\frac{n\mu^2}{2\sigma^2}}(v-\frac{u^2}n)^{\frac{n-3}2}}{2\sqrt{\pi n}(\sqrt{2}\sigma)^n\Gamma((n-1)/2)}\exp{\left(-\frac{v-2u\mu}{2\sigma^2}\right)}\mathbb{1}_{v\ge u^2/n}\enspace. \]

Remarque : loi de Laplace.

Supposons désormais que \[ g(x)=\frac12e^{-|x|}\enspace. \] alors \[ p_{n,\theta}(y_1,\ldots,y_n)=\frac1{(2\sigma)^{n}}\exp{\left(-\sum_{i=1}^{n}\frac{|y_i-\mu|}{\sigma}\right)}\enspace. \] Cette fonction étant strictement positive on peut en prendre le logarithme et obtenir la log-vraisemblance \[ \ell_n((\mu,\sigma),X_1,\ldots,X_n)=-n\log(2\sigma)-\sum_{i=1}^{n}\frac{|X_i-\mu|}{\sigma}\enspace. \]

Cette fonction est différentiable presque partout et on a

\[ \frac{\partial}{\partial \mu}[\ell_n((\mu,\sigma),X_1,\ldots,X_n)]=\frac1{\sigma}\sum_{i=1}^n\text{sign}(X_i-\mu)\] \[ \frac{\partial}{\partial \sigma}[\ell_n((\mu,\sigma),X_1,\ldots,X_n)]=\frac{n}{\sigma}\left(\frac{n^{-1}\sum_{i=1}^n|X_i-\mu|}{\sigma}-1\right)\enspace. \]

D’après la première équation, le maximum est atteint lorsque

\[ \mu=\widehat{\mu}_{MV}=\text{mediane}[(X_i)_{i=1,\ldots,n}] \]

d’après la seconde, il est atteint au point \((\widehat{\mu}_{MV},\widehat{\sigma}_{MV})\), avec

\[ \widehat{\sigma}_{MV}=n^{-1}\sum_{i=1}^n|X_i-\widehat{\mu}_{MV}|\enspace. \]

Comme une fonction atteint son maximum au même point que son logarithme, c’est l’estimateur du maximum de vraisemblance de \((\mu,\sigma^2)\).

6. Illustration numérique

  • Considérons d’abord le cas où les données sont Gaussiennes.
nsmp=100
nbmc= 1000
moyenne=rep(0,nbmc)
mediane=rep(0,nbmc)
for (i in 1:nbmc){ 
  x= rnorm(nsmp)
  moyenne[i]= mean(x)
  mediane[i]=median(x)
}
mat= data.frame(moyenne,mediane)

boxplot(mat,main="gaussien")

  • Les deux estimateurs ont un excellement comportement médian.

  • Ils présentent tous deux une distribution symmétrique.

  • La distribution de \(\widehat{\mu}_n\) est nettement plus concentrée que celle de \(\widehat{\mu}_{MV}\).

  • On préfère \(\widehat{\mu}_n\) sur cet exemple, on peut vérifier qu’il s’agit de l’estimateur du maximum de vraisemblance.

Considérons maintenant le cas où les données sont distribuées selon la loi de Laplace (doublex dans R).

for (i in 1:nbmc){ 
  x= rdoublex(nsmp)
  moyenne[i]= mean(x)
  mediane[i]=median(x)
}
mat= data.frame(moyenne,mediane)

boxplot(mat,main="laplace")

  • La médiane \(\widehat{\mu}_{MV}\) est ici plus concentrée que la moyenne \(\widehat{\mu}_n\).

  • C’est là encore l’estimateur du maximum de vraisemblance.

  • La modélisation des données (le choix du modèle statistique) a donc une grande importance pour déterminer un bon estimateur, que ce soit en théorie ou en pratique.

Exercice 2

1.

Soit \(\theta=(\beta,\sigma)\in\Theta\) et soit \(\varphi\) une fonction continue et bornée. \({\mathbb{E}}{\left[\varphi{\left((f(\beta'x_i)+\sigma\xi_i)_{i=1,\ldots,n}\right)}\right]}\)

\[ =\int \varphi{\left((f(\beta'x_i)+\sigma z_i)_{i=1,\ldots,n}\right)}\prod_{i=1}^ng(z_i)dz_i\enspace. \]

En posant \(y_i=f(\beta'x_i)+\sigma z_i\), \(i=1,\ldots,n\), on a

\({\mathbb{E}}{\left[\varphi{\left((f(\beta'x_i)+\sigma\xi_i)_{i=1,\ldots,n}\right)}\right]}\) \[ =\int \varphi{\left(y_1,\ldots,y_n\right)}\prod_{i=1}^ng{\left(\frac{y_i-f(\beta'x_i)}{\sigma}\right)}\frac{dy_i}{\sigma}\enspace. \]

Ainsi, \({\left(f(\beta'x_1)+\sigma\xi_1,\ldots,f(\beta'x_1)+\sigma\xi_n\right)}\) est un vecteur de \({\mathbb{R}}^n\) de densité par rapport à la mesure de Lebesgue égale à \[ (y_1,\ldots,y_n)\mapsto\frac1{\sigma^n}\prod_{i=1}^ng{\left(\frac{y_i-f(\beta'x_i)}{\sigma}\right)}\enspace. \]

2.

Soient \(\theta=(\beta,\sigma)\in\Theta\) et \(\varphi_1,\ldots,\varphi_n\) des fonctions continues et bornées. On a \[ {\mathbb{E}}_\theta{\left[\varphi_1{\left(Y_1\right)}\ldots\varphi_n{\left(Y_n\right)}\right]}=\int \prod_{i=1}^n\varphi_i(y_i)g{\left(\frac{y_i-f(\beta'x_i)}{\sigma}\right)}\frac{dy_i}{\sigma}\enspace. \]

Par Fubbini,

\[ {\mathbb{E}}_\theta{\left[\varphi_1{\left(Y_1\right)}\ldots\varphi_n{\left(Y_n\right)}\right]}=\prod_{i=1}^n\int \varphi_i(y_i)g{\left(\frac{y_i-f(\beta'x_i)}{\sigma}\right)}\frac{dy_i}{\sigma}\enspace. \]

Les variables \(Y_1,\ldots,Y_n\) sont donc sous \(p_{n,\theta}\) indépendantes et \(Y_i\) a pour densité par rapport à la mesure de Lebesgue

\[ y\mapsto \frac1{\sigma}g{\left(\frac{y-f(\beta'x_i)}{\sigma}\right)}\enspace. \]

3.

Soient \(\theta=(\beta,\sigma)\in\Theta\) et \(\varphi_1,\ldots,\varphi_n\) des fonctions continues et bornées. On a

\[ {\mathbb{E}}_\theta{\left[\prod_{i=1}^n\varphi_i{\left(\frac{Y_i-f(x_i'\beta)}{\sigma}\right)}\right]}=\int \prod_{i=1}^n\varphi_i{\left(\frac{y_i-f(\beta'x_i)}{\sigma}\right)}g{\left(\frac{y_i-f(\beta'x_i)}{\sigma}\right)}\frac{dy_i}{\sigma}\enspace. \]

Par Fubbini,

\[ {\mathbb{E}}_\theta{\left[\prod_{i=1}^n\varphi_i{\left(\frac{Y_i-f(x_i'\beta)}{\sigma}\right)}\right]}=\prod_{i=1}^n\int \varphi_i{\left(\frac{y_i-f(\beta'x_i)}{\sigma}\right)}g{\left(\frac{y_i-f(\beta'x_i)}{\sigma}\right)}\frac{dy_i}{\sigma}\enspace. \]

En posant \(z_i=(y_i-f(x_i'\beta))/\sigma\) pour tout \(i=1,\ldots,n\), on a donc

\[ {\mathbb{E}}_\theta{\left[\prod_{i=1}^n\varphi_i{\left(\frac{Y_i-f(x_i'\beta)}{\sigma}\right)}\right]}=\prod_{i=1}^n\int \varphi_i{\left(z_i\right)}g{\left(z_i\right)}dz_i\enspace. \]

Les variables \((Y_1-f(x_1'\beta))/\sigma,\ldots,(Y_n-f(x_n'\beta))/\sigma\) sont donc sous \(p_{n,\theta}\) indépendantes et \((Y_i-f(x_i'\beta))/\sigma\) a pour densité \(g\) par rapport à la mesure de Lebesgue.

4. Estimateurs

On peut écrire la vraisemblance de l’échantillon : \[ \frac1{(\sqrt{2\pi\sigma^2})^n}\exp{\left(-\frac1{2\sigma^2}\sum_{i=1}^n(Y_i-\beta_0-\beta_1x_i)^2\right)} \]

Maximiser cette vraisemblance revient donc à minimiser

\[ \sum_{i=1}^n(Y_i-\beta_0-\beta_1x_i)^2 \]

En dérivant, on vérifie qu’un minimiseur satisfait nécessairement

\[ n\beta_0+\beta_1\sum_{i=1}^nx_i=\sum_{i=1}^nY_i,\qquad \beta_0\sum_{i=1}^nx_i+\beta_1\sum_{i=1}^nx_i^2=\sum_{i=1}^nx_iY_i\enspace. \]

Donc, si \((x_1,\ldots,x_n)\) n’est pas colinéaire à \((1,\ldots,1)\),

\[ \beta_0=\frac{{\left(\sum_{i=1}^nx_i^2\right)}{\left(\sum_{i=1}^nY_i\right)}-{\left(\sum_{i=1}^nx_i\right)}{\left(\sum_{i=1}^nx_iY_i\right)}}{n\sum_{i=1}^nx_i^2-{\left(\sum_{i=1}^nx_i\right)}^2}\enspace, \]

\[ \beta_1=\frac{n{\left(\sum_{i=1}^nx_iY_i\right)}-{\left(\sum_{i=1}^nx_i\right)}{\left(\sum_{i=1}^nY_i\right)}}{n\sum_{i=1}^nx_i^2-{\left(\sum_{i=1}^nx_i\right)}^2}\enspace. \]

5. Data-set

data("airquality")
plot(airquality,pch=20,col='blue')

Regression linéaire

y=lm(Ozone~Solar.R,data=airquality); summary(y)
## 
## Call:
## lm(formula = Ozone ~ Solar.R, data = airquality)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -48.292 -21.361  -8.864  16.373 119.136 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 18.59873    6.74790   2.756 0.006856 ** 
## Solar.R      0.12717    0.03278   3.880 0.000179 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 31.33 on 109 degrees of freedom
##   (42 observations deleted due to missingness)
## Multiple R-squared:  0.1213, Adjusted R-squared:  0.1133 
## F-statistic: 15.05 on 1 and 109 DF,  p-value: 0.0001793

Droite de régression

plot(Ozone~Solar.R,data=airquality)
abline(reg=y,col='red')

mean.Ozone=mean(airquality$Ozone,na.rm=T)

Commentaires

  • Le modèle semble raisonnable pour les petites valeurs du rayonnement solaire (jusqu’à environ 150 p.p.m.).

  • Les résidus sont ensuite très dispersés.

  • Le rayonnement solaire ne suffit pas à expliquer seul le taux d’ozone dans cette zone, il parait judicieux d’utiliser d’autres covariables.

Exercice 3

1. Fonction génératrice des moments.

Soit \(s\in[0,1]\), on a

\[ G_\lambda(s)=\sum_{k\ge 0}\frac{s^k\lambda^k}{k!}e^{-\lambda}=e^{\lambda(s-1)}\enspace. \]

2. Moyenne et variance.

On a

\[ G'_\lambda(s)=\lambda e^{\lambda(s-1)}, \qquad G''_\lambda(s)=\lambda^2 e^{\lambda(s-1)}\enspace. \]

On en déduit que

\[ {\mathbb{E}}[X]=G'_\lambda(1)=\lambda,\qquad {\mathbb{E}}[X(X-1)]=G''_\lambda(1)=\lambda^2\enspace, \]

donc

\[ \text{Var}_{\lambda}(X)={\mathbb{E}}[X(X-1)]+{\mathbb{E}}[X]-{\mathbb{E}}[X]^2=\lambda\enspace. \]

3. Loi de \(X_1+X_2\).

La fonction génératrice des moments de \(X_1+X_2\) associe à tout \(s\in[0,1]\)

\[ {\mathbb{E}}{\left[s^{X_1+X_2}\right]}={\mathbb{E}}[s^{X_1}]{\mathbb{E}}[s^{X_2}]=e^{(\lambda_1+\lambda_2)(s-1)}\enspace. \]

C’est la fonction génératrice des moments de la loi de Poisson de paramètre \(\lambda_1+\lambda_2\).

4. Loi de \(\sum_{i=1}^nX_i\)

Par une récurrence immédiate dans la question précédente, la modèle statistique associé à \(\sum_{i=1}^nX_i\) est donné par le triplet

\[ {\left({\mathbb{N}},{\mathcal{P}}({\mathbb{N}}),(p_{n\lambda}.\mu)_{\lambda>0}\right)}\enspace. \]

5. Estimateurs.

D’après les questions 2. et 4., \(n^{-1}\sum_{i=1}^nX_i\) est un estimateur sans biais de variance \(\lambda/n\) de \(\lambda\).

6. Modèle statistique.

On a un \(n\)-échantillon du modèle \[ {\left({\mathbb{N}}^2,{\mathcal{P}}({\mathbb{N}}^2),p_\lambda.\mu\otimes p_\nu.\mu\right)} \]

7. Estimation de \(\lambda\) et \(\nu\).

Triviale.

8. Modèle de Poisson?

Cette hypothèse est discutable car toutes les variances empiriques sont supérieures aux moyennes.

9. Nouveau modèle.

On a \({\mathbb{E}}[X]=\pi\lambda\) et \({\mathbb{E}}[X^2]=\pi(\lambda^2+\lambda)\) donc

\[ \text{Var}(X)=\pi\lambda+\lambda^2\pi(1-\pi)\enspace. \]

Remarque : en particulier, dès que \(\pi>0\) et \(\lambda>0\),

\[ \text{Var}(X)>{\mathbb{E}}[X]\enspace. \]

10. Estimation nouveau modèle.

Notons \(m_1=\pi\lambda\) et \(m_2=\pi\lambda+\pi(1-\pi)\lambda^2\). On a

\[ m_2+m_1^2=\pi\lambda(1+\lambda)\enspace, \]

donc

\[ \frac{m_2+m_1^2}{m_1}=1+\lambda\enspace. \]

Ainsi,

\[ \lambda=\frac{m_2}{m_1}+m_1-1,\qquad \pi=\frac{m_1}{\frac{m_2}{m_1}+m_1-1}\enspace. \]

On utilise ensuite la méthode des moments.

Exercice 4.

1. Modèle statistique 1.

On propose d’abord un \(n\)-échantillon du modèle Gaussien \[ ({\mathbb{R}},{\mathcal{B}}({\mathbb{R}}),(\mathsf{N}(\mu,\sigma^2))_{(\mu,\sigma)\in{\mathbb{R}}\times{\mathbb{R}}_+^*})\enspace. \]

2. Estimation.

En utilisant les calculs du premier exercice, on peut estimer \(\mu\) par \(\widehat{\mu}_n=n^{-1}\sum_{i=1}^nX_i\) et \(\sigma^2\) par la variance empirique \(\widehat{\sigma}_n^2=n^{-1}\sum_{i=1}^n(X_i-\widehat{\mu}_n)^2\).

3. Discussion du modèle.

La distribution empirique semble moins concentrée qur la loi Gaussienne. Le modèle est contestable.

4a). Coefficient d’assymétrie.

Si \(X\) est Gaussienne \({\mathbb{E}}[(X-\mu)^3]=0\) donc le coefficient d’assymétrie est nul.

4b). Kurtosis.

On a \[ {\mathbb{E}}{\left[e^{tX}\right]}=e^{\mu t+\frac{\sigma^2t^2}2}\enspace. \]

On en déduit que

\[ {\mathbb{E}}{\left[e^{t(X-\mu)}\right]}=\sum_{k\ge 0}\frac{\sigma^{2k}t^{2k}}{2^kk!}=\sum_{k\ge 0}\frac{t^k}{k!}{\mathbb{E}}[(X-\mu)^k]\enspace. \]

Kurtosis (2)

En identifiant les coefficients de ces développements en série entière, il vient

\[ {\mathbb{E}}[(X-\mu)^{2k+1}]=0,\qquad {\mathbb{E}}[(X-\mu)^{2k}]=\frac{\sigma^{2k}(2k)!}{2^kk!},\qquad \forall k\ge 0\enspace. \]

En particulier,

\[ \gamma_2 =\frac{\sigma^44!/8}{\sigma^4}-3=0\enspace. \]

5. Estimateurs

On peut appliquer directement la méthode des moments et estimer le coefficient d’assymétrie par

\[ \widehat{\gamma}_1=\frac{n^{-1}\sum_{i=1}^n(X_i-\overline{X}_n)^3}{{\left(n^{-1}\sum_{i=1}^n(X_i-\overline{X}_n)^2\right)}^{3/2}}\enspace. \]

De la même façon, on peut estimer l’excès de kurtosis par

\[ \widehat{\gamma}_2=\frac{n^{-1}\sum_{i=1}^n(X_i-\overline{X}_n)^4}{{\left(n^{-1}\sum_{i=1}^n(X_i-\overline{X}_n)^2\right)}^{2}}-3\enspace. \]

6. Crédibilité du modèle

Comme attendu,

  • la distribution semble symmétrique (le coefficient d’assymétrie empirique est petit).

  • en revanche, l’excès du kurtosis est important. Donc le moment d’ordre 4 de la distribution des log-rendements semble nettement supérieur à celui attendu dans le modèle gaussien.

  • Le moment d’ordre 4 de cette distribution est donc sensiblement supérieur à celui d’une Gaussienne de même variance, la modélisation gaussienne ne semble donc pas complètement pertinente et sous-estime vraisemblablement la probabilité d’événements extrêmes.

7. Modèle alternatif

  • Les données collectées \((x_1, \ldots, x_n)\) sont une réalisation du vecteur aléatoire \(Z = (X_1, \cdots, X_n)\) à valeur dans \({\mathbb{R}}^n\).

  • On munit cet espace de sa tribu borélienne, et d’une famille de probabilités \((P_\theta, \theta \in \Theta)\) avec

    • \(\theta = (\alpha_0, \alpha_1)\); \(\Theta = {\mathbb{R}}_+^*\times {\mathbb{R}}_+^*\).
    • \(P_\theta\) possède une densité par rapport à la mesure de Lebesgue sur \({\mathbb{R}}^n\) associant à \((x_1, \cdots, x_n)\) \[ \prod_{k=1}^n \left( \frac{1}{\sqrt{2\pi} \sqrt{\alpha_0 +\alpha_1 x_{k-1}}} \exp\left( - \frac{1}{2} \frac{x_k^2}{\alpha_0 +\alpha_1 x_{k-1}^2}\right) \right). \]

Preuve

  1. les v.a. \((X_k)_k\) ne sont pas indépendantes mais leur loi s’écrit \[ \prod_{k=1}^n {\mathcal{L}}(X_k|(X_1, \ldots, X_{k-1}))\enspace. \]

  2. Les v.a. \((Z_k)_k\) sont indépendantes et \(X_{k-1}\) est une fonction de \(Z_1, \ldots, Z_{k-1}\), donc \(Z_k\) est indépendant de \(X_{k-1}\).

  3. Puisque \(Z_k\) et \(X_{k-1}\) sont indépendants, la loi conditionnelle de \(X_k\) sachant \((X_1,\ldots, X_{k-1})\) est la loi conditionnelle de \(X_k\) sachant \(X_{k-1}\).

  4. La loi conditionnelle de \(X_k\) sachant \(X_{k-1}\) est la loi gaussienne, centrée et de variance \(\alpha_0 + \alpha_1X_{k-1}^2\).