Rappels de Cours

Exercice 1

1.

La vraisemblance s’écrit \[ L_n(\theta)=\theta^{2n}{\left(\prod_{i=1}^nX_i\right)}e^{-\theta\sum_{i=1}^nX_i}\enspace. \] Cette vraisemblance est presque-sûrement strictement positive, son logarithme vaut \[ \ell_n(\theta)=2n\log \theta-\theta\sum_{i=1}^nX_i+\log {\left(\prod_{i=1}^nX_i\right)}\enspace. \] Cette fonction est régulière, de dérivée \[ \ell'_n(\theta)=\frac{2n}{\theta}-\sum_{i=1}^nX_i\enspace. \] Cette dérivée est décroissante et s’annule en \(\widehat{\theta}=2n/\sum_{i=1}^nX_i\) qui est donc l’estimateur du maximum de vraisemblance de \(\theta\).

2.

On utilise la propriété des lois Gamma rappelée en PC 5 qui permet de dire que \[ \sum_{i=1}^nX_i\sim\Gamma(2n,\theta)\enspace. \] On a donc \[ {\mathbb{E}}_\theta[\widehat{\theta}]=\int \frac{2n}{x}\frac{\theta^{2n}}{(2n-1)!}x^{2n-1}e^{-\theta x}=\frac{2n}{2n-1}\theta\enspace. \] Ainsi \(b_\theta(\widehat{\theta})=\theta/(2n-1)\). De la même façon, \[ {\mathbb{E}}_\theta[\widehat{\theta}^2]=\int \frac{(2n)^2}{x^2}\frac{\theta^{2n}}{(2n-1)!}x^{2n-1}e^{-\theta x}=\frac{(2n)^2}{(2n-1)(2n-2)}\theta^2\enspace. \] Donc \[ \text{Var}_{\theta}(\widehat{\theta})=\frac{2n^2}{(n-1)(2n-1)^2}\theta^2\enspace. \] Et donc \[ R_\theta[\widehat{\theta}]=\frac{\theta^2}{(2n-1)^2}{\left[1+\frac{2n^2}{n-1}\right]}=\frac{(n+1)}{(2n-1)(n-1)}\theta^2\enspace. \]

3.

La loi \(\Gamma(2,\theta)\) admet pour espérance \(2/\theta\) et pour variance \(2/\theta^2\). Ceci permet d’affirmer que la moyenne empirique \(n^{-1}\sum_{i=1}^nX_i\) converge en probabilité vers \(2/\theta\) par la loi des grands nombres et que, d’après le théorème de la limite centrale \[ \sqrt{n}(n^{-1}\sum_{i=1}^nX_i-2/\theta)\implies \text{N}(0,2/\theta^2)\enspace. \] De plus, la fonction \(\varphi: x\mapsto 2/x\) étant dérivable sur \({\mathbb{R}}_+\), on a d’après le théorème de la méthode Delta \[ \sqrt{n}(\varphi{\left(n^{-1}\sum_{i=1}^nX_i\right)}-\varphi{\left(2/\theta\right)})\implies \text{N}(0,2\varphi'(2/\theta)^2/\theta^2)\enspace. \]

Ce dernier résultat se réécrit \[ \sqrt{n}(\widehat{\theta}-\theta)\implies \text{N}(0,\theta^2/2)\enspace. \] Remarquons que, comme attendu, la variance limite \(\theta^2/2\) est égale à la limite du risque quadratique renormalisé \(nR_\theta[\widehat{\theta}]\).

Exercice 3

1.

La fonction \(\Psi_n\) est décroissante de limite strictement négative en \(+\infty\) et strictement positive en \(-\infty\), d’où le résultat.

2.

La fonction \(\Psi_n\) est alors continue, on applique donc le théorème des valeurs intermédiaires pour conclure.

3.

La fonction \(\Psi_n\) étant strictement décroissante, le résultat est immédiat.

4.

Pour tout \(k\ge 0\), \(\widehat{\theta}\) vérifie \[ \sum_{i=1}^n(X_i-\widehat{\theta}){\mathbf{1}}_{|X_i-\widehat{\theta}|\le k}+k\text{sign}(X_i-\widehat{\theta}){\mathbf{1}}_{|X_i-\widehat{\theta}|>k}=0\enspace. \] \(k\) permet donc d’interpoler entre la moyenne empirique correspondant au cas \(\gamma=x\) fournissant un estimateur sans biais, mais très sensible à la présence d’une donnée ``outlier" et la médiane empirique correspondant au cas \(\gamma=\text{sign}(x)\), qui est un estimateur biaisé, mais insensible à la corruption (tant que le nombre de ses anomalies reste inférieur à \(n/2\)).

5.

La fonction \(\Psi_{\theta_0}\) est strictement croissante et, pour tout \(\theta>\theta_0\), on a \[ \Psi_{\theta_0}(\theta)={\mathbb{E}}_{\theta_0}[\gamma(X-\theta)]={\mathbb{E}}_0[\gamma(X-(\theta-\theta_0))]. \] Pour tout \(x\), \(\gamma(x-(\theta-\theta_0))<\gamma(x)\), donc \[ \Psi_{\theta_0}(\theta)<{\mathbb{E}}_0[\gamma(X)]=0\enspace. \] De même, \(\Psi_{\theta_0}(\theta)>0\) pour tout \(\theta<\theta_0\).

6.

Comme \(\Psi_n\) est strictement décroissante, et \(\Psi_n(\widehat{\theta})=0\), donc \(\Psi_n(\theta_0-\epsilon)<0\) si \(\widehat{\theta}<\theta_0-\epsilon\).

On en déduit \[ {\mathbb{P}}_{\theta_0}(\widehat{\theta}<\theta_0-\epsilon)\le {\mathbb{P}}_{\theta_0}(\Psi_n(\theta_0-\epsilon)<0)\enspace. \] On sait que, \(\Psi_{\theta_0}(\theta_0-\epsilon)>0\) et \(\forall \delta>0\), \[ {\mathbb{P}}_{\theta_0}{\left(|\Psi_n(\theta_0-\epsilon)-\Psi_{\theta_0}(\theta_0-\epsilon)|>\delta\right)}\to 0\enspace. \] En appliquant ce résultat à \(\delta=\Psi_{\theta_0}(\theta_0-\epsilon)/2\), il vient \[ {\mathbb{P}}_{\theta_0}(\widehat{\theta}<\theta_0-\epsilon)\le {\mathbb{P}}_{\theta_0}(|\Psi_n(\theta_0-\epsilon)-\Psi_{\theta_0}(\theta_0-\epsilon)|>\delta)\to 0\enspace. \]

7.

On va montrer de même \({\mathbb{P}}_{\theta_0}(\widehat{\theta}>\theta_0+\epsilon)\to0\). Finalement, ce résultat étant valide pour tout \(\theta_0\) et tout \(\epsilon>0\), on en déduit \(\widehat{\theta}\) est consistante.

8.

Par le théorème II-2.15 du cours, le \(Z\)-estimateur \(\widehat{\theta}\) est asymptotiquement normal, de variance limite \[ v(\theta)^2=\frac{{\mathbb{E}}_{\theta}[\gamma(X-\theta)^2]}{{\mathbb{E}}_\theta[\gamma'(X-\theta)]^2}=\frac{{\mathbb{E}}_{0}[\gamma(X)^2]}{{\mathbb{E}}_\theta[\gamma'(X)]^2}\enspace. \]

9.

On a de manière générale

\[ v^2(k)=\frac{\int_{|x|\le k}x^2f(x)dx+k^2(1-{\mathbb{P}}_0(|X|\le k))}{{\mathbb{P}}_0(|X|\le k)^2} \]

k=c(1:1000)/100
f=function(x){
  f<-x^2*dnorm(x)
}

v=function(x){
  A=integrate(f,-x,x,subdivisions = 100)
  v<-(A$value+2*x^2*pnorm(x,lower.tail=FALSE))/(1-2*pnorm(x, lower.tail=FALSE))^2
}
v2=Vectorize(v)
plot(k,v2(k),'lines')
## Warning in plot.xy(xy, type, ...): le type de graphe 'lines' sera tronqué
## au premier caractère

10.

Lorsque \(f(x)=(1-\epsilon)\phi(x)+\epsilon\tau^{-1}\phi(x/\tau)\), on a \[ \int_{|x|\le k}x^2f(x)dx=(1-\epsilon)\int_{|x|\le k}x^2\phi(x)dx+\epsilon\tau^2\int_{|x|\le k/\tau}x^2\phi(x)dx\enspace, \] et, si \(N\) suit une loi normale standard, \[ {\mathbb{P}}(|X|\le k)=(1-\epsilon){\mathbb{P}}(|N|\le k)+\epsilon{\mathbb{P}}(N\le k/\tau). \] on a donc

epsilon=0.05
tau=10000
v=function(x){
  A=integrate(f,-x,x,subdivisions = 100)
  B=integrate(f,-x/tau,x/tau,subdivisions = 100)
  v<-((1-epsilon)*A$value+epsilon*tau^2*B$value+2*x^2*((1-epsilon)*pnorm(x,lower.tail=FALSE)+epsilon*pnorm(x/tau,lower.tail=FALSE)))/(1-2*((1-epsilon)*pnorm(x,lower.tail=FALSE)+epsilon*pnorm(x/tau,lower.tail=FALSE)))^2
}
v2bis=Vectorize(v)
plot(k,v2bis(k),'lines', main = 'tau=10 000, epsilon=0.05')
## Warning in plot.xy(xy, type, ...): le type de graphe 'lines' sera tronqué
## au premier caractère

Dans le cas ou la proportion \(\epsilon\) d’outliers est faible et les outliers très aggressifs \(\tau=10000\), on améliore un peu la médiane en prenant \(k\in[1,2]\).

epsilon=0.3
tau=10000
v=function(x){
  A=integrate(f,-x,x,subdivisions = 100)
  B=integrate(f,-x/tau,x/tau,subdivisions = 100)
  v<-((1-epsilon)*A$value+epsilon*tau^2*B$value+2*x^2*((1-epsilon)*pnorm(x,lower.tail=FALSE)+epsilon*pnorm(x/tau,lower.tail=FALSE)))/(1-2*((1-epsilon)*pnorm(x,lower.tail=FALSE)+epsilon*pnorm(x/tau,lower.tail=FALSE)))^2
}
v2bis=Vectorize(v)
plot(k,v2bis(k),'lines', main = 'tau=10 000, epsilon=0.3')
## Warning in plot.xy(xy, type, ...): le type de graphe 'lines' sera tronqué
## au premier caractère

Lorsque la proportion de ces données très aggressives augmente, l’avantage n’est plus si net, mais on ne perd pas grand chose.

epsilon=0.05
tau=2
v=function(x){
  A=integrate(f,-x,x,subdivisions = 100)
  B=integrate(f,-x/tau,x/tau,subdivisions = 100)
  v<-((1-epsilon)*A$value+epsilon*tau^2*B$value+2*x^2*((1-epsilon)*pnorm(x,lower.tail=FALSE)+epsilon*pnorm(x/tau,lower.tail=FALSE)))/(1-2*((1-epsilon)*pnorm(x,lower.tail=FALSE)+epsilon*pnorm(x/tau,lower.tail=FALSE)))^2
}
v2bis=Vectorize(v)
plot(k,v2bis(k),'lines', main = 'tau=2, epsilon=0.05')
## Warning in plot.xy(xy, type, ...): le type de graphe 'lines' sera tronqué
## au premier caractère

Si les outliers sont très peu \(\epsilon=0.05\) et les outliers peu aggressifs \(\tau=2\), petit avantage de prendre \(k\approx 2\) par rapport à la moyenne. Cette fois, on améliore largement les perfromances de la médiane.

epsilon=0.3
tau=2
v=function(x){
  A=integrate(f,-x,x,subdivisions = 100)
  B=integrate(f,-x/tau,x/tau,subdivisions = 100)
  v<-((1-epsilon)*A$value+epsilon*tau^2*B$value+2*x^2*((1-epsilon)*pnorm(x,lower.tail=FALSE)+epsilon*pnorm(x/tau,lower.tail=FALSE)))/(1-2*((1-epsilon)*pnorm(x,lower.tail=FALSE)+epsilon*pnorm(x/tau,lower.tail=FALSE)))^2
}
v2bis=Vectorize(v)
plot(k,v2bis(k),'lines', main = 'tau=2, epsilon=0.3')
## Warning in plot.xy(xy, type, ...): le type de graphe 'lines' sera tronqué
## au premier caractère

Si la proportion d’outliers augmente \(\epsilon=0.3\) sans que ces outliers ne soient très aggressifs \(\tau=2\), \(k\in[1,2]\) améliore sensiblement les performances de la moyenne et de la médiane.

Exercice 5

1.

Soit \(\overline{X}_n=n^{-1}\sum_{i=1}^nX_i\). La log-vraisemblance étant croissante sur \(]-\infty,\overline{X}_n]\) et décroissante sur \([\overline{X}_n,+\infty[\), le maximum de vraisemblance s’écrit \[ \widehat{\theta}=\overline{X}_n{\mathbf{1}}_{\overline{X}_n\ge 0}\enspace. \]

2.

Soit \(\theta>0\), on a \[ \sqrt{n}(\widehat{\theta}-\theta)=\sqrt{n}(\overline{X}_n-\theta){\mathbf{1}}_{\overline{X}_n\ge 0}-\sqrt{n}\theta{\mathbf{1}}_{\overline{X}_n<0}\enspace. \] Pour tout \(\epsilon>0\), on a \[ {\mathbb{P}}_\theta(|\sqrt{n}\theta{\mathbf{1}}_{|\overline{X}_n|<0}|>\epsilon)\le {\mathbb{P}}_\theta(\overline{X}_n<0)\to0\enspace. \] Donc \(\sqrt{n}\theta{\mathbf{1}}_{\overline{X}_n<0}\) et \({\mathbf{1}}_{\overline{X}_n\ge 0}\) convergent en probabilité respectivement vers \(0\) et \(1\). Comme de plus \[ \sqrt{n}(\overline{X}_n-\theta)\sim \text{N}(0,1)\enspace, \] par le lemme de Slutsky, \[ \sqrt{n}(\widehat{\theta}-\theta)\implies \text{N}(0,1)\enspace. \]

3.

Lorsque \(\theta=0\), on a \[ \sqrt{n}(\widehat{\theta}-\theta)=\sqrt{n}\overline{X}_n{\mathbf{1}}_{|\overline{X}_n|\ge 0}=\sqrt{n}\overline{X}_n{\mathbf{1}}_{\sqrt{n}|\overline{X}_n|\ge 0}\enspace. \] Comme \(\sqrt{n}\overline{X}_n\sim \text{N}(0,1)\), on a \[ \sqrt{n}(\widehat{\theta}-\theta)\sim N_+\enspace, \]\(N\sim \text{N}(0,1)\) et pour tout réel \(x\), \(x_+\) est sa partie positive \(x_+=x\vee 0\).