Rappels de Cours

Asymtotique de la moyenne empirique

Soient \((X_i,i\ge 1)\) une suite de vecteurs aléatoires de \({\mathbb{R}}^d\) indépendants et de même loi et, pour tout \(n\ge 1\), soit \(P_nX=n^{-1}\sum_{i=1}^nX_i\).

  1. Si \(P|X|={\mathbb{E}}[|X_1|]<\infty\), pour tout \(\epsilon>0\), lorsque \(n\to\infty\), \[ {\mathbb{P}}{\left(\|P_nX - PX\|>\epsilon\right)}\to 0\enspace. \] On dit que \(P_nX\) converge en probabilité vers \(PX\).

  2. Si \(\max P(X^{(i)})^2=\max{\mathbb{E}}[(X_1^{(i)})^2]<\infty\) alors on note \(\Sigma^2=\text{Cov}(X_1)\). Pour tout Borélien \(A\in{\mathbb{R}}^d\), lorsque \(n\to\infty\), \[ {\mathbb{P}}{\left(\sqrt{n}(P_nX-PX)\in A\right)}\to {\mathbb{P}}{\left(\text{N}(0,\Sigma)\in A\right)}\enspace. \] On dit que \(\sqrt{n}(P_nX-PX)\) converge en loi vers \(\text{N}(0,\Sigma)\).

Remarquons que la convergence en loi n’est pas une convergence trajectorielle.

Lorsqu’on s’intéresse à des transformations de la moyenne empirique, on a les propriétés suivantes.

  1. Si \(Y_n\) converge en probabilité (resp en loi) vers \(Y\) et \(\varphi\) est une fonction continue, alors \(\varphi(Y_n)\) converge en probabilité (resp en loi) vers \(\varphi(Y)\). (Théorèmes de l’application continue)

  2. Si \((X_n,Y_n)\) est un couple de variable aléatoire tel que \(X_n\) converge en loi vers \(D\) et \(Y_n\) converge en probabilité vers une constante \(c\), alors le couple \((X_n,Y_n)\) converge en loi vers \((D,c)\). (Lemme de Slutsky)

  3. Si \(X_n\) converge en probabilité vers une constante \(x\), \(\sqrt{n}(X_n-x)\) converge en loi vers \(D\) et \(\varphi\) est une fonction différentiable en \(x\), \(\sqrt{n}(\varphi(X_n)-\varphi(x))\) converge en loi vers \(D^T\nabla\varphi(x)\). (théorème de la méthode Delta). En particulier, si \(D\sim\text{N}(0,\Sigma)\), \(\sqrt{n}(\varphi(X_n)-\varphi(x))\) converge en loi vers \(\text{N}(0,\nabla\varphi(x)^T\Sigma\nabla\varphi(x))\).

Estimateurs par la méthode des moments.

Rappelons que, s’il existe des fonctions \(f\) et \(g\) telles que \(f(\theta)={\mathbb{E}}_\theta(g(X_1))\), alors toute solution (s’il en existe) de l’equation \[ f(\widehat{\theta})=\frac1n\sum_{i=1}^ng(X_i)\enspace, \] est appelée estimateur par la méthode des moments de \(\theta\).

Sous des hypothèses assurant que \({\mathbb{E}}_\theta[g^2(X_1)]<\infty\) et que \(f\) est inversible, d’inverse \(f^{-1}\) différentiable en \({\mathbb{E}}_\theta[g(X_1)]\), on a alors, en appliquant la méthode Delta, \[ \sqrt{n}(\widehat{\theta}-\theta)=\sqrt{n}{\left(f^{-1}{\left(\frac1n\sum_{i=1}^ng(X_i)\right)}-f^{-1}{\left({\mathbb{E}}_\theta[g(X_1)]\right)}\right)}\enspace, \] donc \(\sqrt{n}(\widehat{\theta}-\theta)\) converge en loi (sous \({\mathbb{P}}_\theta\)) vers \[ \text{N}{\left(0,\nabla f^{-1}({\mathbb{E}}_\theta[g(X_1)])^T\text{Cov}(g(X_1))\nabla f^{-1}({\mathbb{E}}_\theta[g(X_1)])\right)}\enspace. \]

Les estimateurs des moments sont dits asymptotiquement normal et la matrice \(\nabla f^{-1}({\mathbb{E}}_\theta[g(X_1)])^T\text{Cov}(g(X_1))\nabla f^{-1}({\mathbb{E}}_\theta[g(X_1)])\) est appelée variance asymptotique de l’estimateur.

Comme souvent, cette expression est moins importante Ă  retenir que le raisonnement permettant de la retrouver.

Exercice 1

1.

On a \[ {\mathbb{E}}_\theta[X_1]=1/\theta,\qquad {\mathbb{E}}_\theta[X_1^2]=2/\theta^2\enspace. \] Donc \[ \theta=\frac{1}{{\mathbb{E}}_\theta[X_1]}=\sqrt{\frac{2}{{\mathbb{E}}_\theta[X_1^2]}}\enspace. \] On en déduit les estimateurs par la méthode des moments \[ \widehat{\theta}_1=\frac{1}{\frac1n\sum_{i=1}^nX_i},\qquad \widehat{\theta}_2=\sqrt{\frac{2}{\frac1n\sum_{i=1}^nX^2_i}} \]

2.

  1. On a \(\text{Var}_\theta(X_1)=1/\theta^2\) et \(\text{Var}_\theta(X_1^2)=20/\theta^4\) donc par le théorème de la limite centrale \[ \sqrt{n}{\left(P_nX-1/\theta\right)}\implies \text{N}(0,1/\theta^2),\qquad \sqrt{n}{\left(P_nX^2-2/\theta^2\right)}\implies \text{N}(0,20/\theta^4)\enspace. \]

  2. Notons \(\varphi_1(x)=1/x\), \(\varphi_2(x)=\sqrt{2/x}\), ces deux fonctions sont dérivables sur \({\mathbb{R}}_+^*\) et \(\varphi_1'(x)=-1/x^2\), \(\varphi_2'(x)=1/\sqrt{2x^3}\). Donc d’après le théorème de la méthode Delta \[ \sqrt{n}(\widehat{\theta}_1-\theta)=\sqrt{n}(\varphi_1(P_nX)-\varphi_1(1/\theta))\implies\text{N}(0,\varphi_1'(1/\theta)^2*1/\theta^2)=\text{N}(0,\theta^2)\enspace. \] De même \[ \sqrt{n}(\widehat{\theta}_2-\theta)=\sqrt{n}(\varphi_2(P_nX^2)-\varphi_2(2/\theta^2))\implies\text{N}(0,\varphi_2'(2/\theta^2)^2*20/\theta^4)=\text{N}(0,5\theta^2/4)\enspace. \]

3.

Les deux estimateurs sont asymptotiquement normaux, mais la variance asymptotique de \(\widehat{\theta}_1\) est inférieure à celle de \(\widehat{\theta}_2\).

La distribution asymptotique de \(\widehat{\theta}_1\) est donc plus concentrée autour de \(\theta\), ce qui fait qu’on préfère cet estimateur.

Remarque

On utilise la distribution asymptotique pour construire des intervalles de confiance.

Soit \(\sigma^2_1(\theta)=\theta^2\). On a d’une part \[ \sqrt{n}\frac{\widehat{\theta}_1-\theta}{\sigma_1^2(\theta)}\implies \text{N}(0,1)\enspace. \]

D’autre part, par le théorème de continuité \(\sigma^2_1(\widehat{\theta}_1)\) converge en probabilité vers \(\sigma^2(\theta)\).

Par le Lemme de Slutsky, on en déduit que \[ \sqrt{n}\frac{\widehat{\theta}_1-\theta}{\sigma_1^2(\widehat{\theta}_1)}\implies \text{N}(0,1)\enspace. \]

En notant \(z_{1-\alpha/2}\) le \((1-\alpha/2)\)-quantile de la loi \(\text{N}(0,1)\), on a donc que \[ I={\left[\widehat{\theta}_1\pm \sigma_1(\widehat{\theta}_1)\frac{z_{1-\alpha/2}}{\sqrt{n}}\right]} \] est un intervalle de confiance pour \(\theta\) dont le niveau de confiance converge vers \(1-\alpha\).

Exercice 3

2.

On Ă©crit \[ \sqrt{n}(\widetilde{\theta}_n-\theta)=\sqrt{n}(\overline{X}_n-\theta){\mathbf{1}}_{|\overline{X}_n|>b_n}+\sqrt{n}(a\overline{X}_n-\theta){\mathbf{1}}_{|\overline{X}_n|\le b_n}\enspace. \] On distingue alors deux cas.

  • Si \(\theta\ne 0\), \({\mathbf{1}}_{|\overline{X}_n|>b_n}\) converge en probabilitĂ© vers \(1\) donc en appliquant le lemme de Slutsky deux fois, il vient \[ \sqrt{n}(\widetilde{\theta}_n-\theta)\implies \text{N}(0,1)\enspace. \]

  • Si \(\theta\ne 0\), \({\mathbf{1}}_{|\overline{X}_n|\le b_n}\) converge en probabilitĂ© vers \(1\) et on a \[ \sqrt{n}(\widetilde{\theta}_n-\theta)\implies \text{N}(0,a^2)\enspace. \]

Dans tous les cas, l’estimateur \(\widetilde{\theta}_n\) est asymptotiquement normal.

3.

La variance asymptotique de \(\widetilde{\theta}_n\) est toujours inférieure à celle de l’estimateur du maximum de vraisemblance \(\overline{X}_n\). Elle est strictement inférieure en \(0\).

L’estimateur \(\widetilde{\theta}_n\) paraît meilleur. Toutefois, ce point de vue asymptotique est ici trompeur comme on peut le voir en traçant son risque quadratique pour différentes valeurs de \(n\). Il apparaît que le risque explose au voisinage de \(0\).