Rappels de Cours

Risque quadratique

Soit \(({\mathbb{X}}_n,{\mathcal{X}}_n,({\mathbb{P}}_\theta)_{\theta\in \Theta})\) un modèle statistique et soit \(g:\Theta\to{\mathbb{R}}^d\).

Le risque quadratique d’un estimateur \(T\) de \(g(\theta)\) en \(\theta\) vaut \[ R_\theta(T)={\mathbb{E}}_\theta{\left[{\left\|T(X_1,\ldots,X_n)-g(\theta)\right\|}^2\right]}\enspace. \]

Lorsque \(d=1\), le risque quadratique est simplement \[ R_\theta(T)={\mathbb{E}}_\theta{\left[{\left(T(X_1,\ldots,X_n)-g(\theta)\right)}^2\right]}\enspace. \]

Dans ce dernier cas, on décompose souvent le risque quadratique d’un estimateur en fonction de son biais \(b_\theta(T)={\mathbb{E}}_\theta[T(X_1,\ldots,X_n)]-g(\theta)\) et de sa variance \(\text{Var}_\theta(T(X_1,\ldots,X_n))\). On a en effet \[ R_\theta(T)=b^2_\theta(T)+\text{Var}_\theta(T(X_1,\ldots,X_n))\enspace. \]

En particulier, lorsqu’un estimateur est sans biais, son risque quadratique est égal à sa variance.

Comparaison d’estimateurs

Le risque quadratique permet la comparaison d’estimateurs ponctuellement, \(T\) est meilleur que \(T'\) en \(\theta\) si \[ R_\theta(T)<R_\theta(T')\enspace. \]

Ce moyen de conparaison est toutefois trop pauvre, le meilleur estimateur en \(\theta\) est toujours \(\theta\). Il permet toutefois de mettre de coté certains estimateurs. On dit ainsi qu’un estimateur \(T\) est non admissible lorsqu’il existe un autre estimateur \(T'\) tel que \[ \forall \theta\in\Theta : R_\theta(T)\ge R_\theta(T')\quad \text{ET}\quad \exists \theta_0\in\Theta : R_{\theta_0}(T)> R_{\theta_0}(T')\enspace. \]

Borne de Cramer-Rao

Pour étudier l’optimalité du point de vue du risque quadratique, on restreint la classe des estimateurs considérés. Un exemple classique est celui de la classe des estimateurs sans biais.

Un outil puissant pour montrer l’optimalité dans cette classe est la borne de Cramer-Rao. Dans un modèle régulier (voir Définition I-4.20 du poly), on a pour tout estimateur sans biais \[ R_\theta(T)\ge \nabla g(\theta)^T{\mathbb{I}}(\theta)^{-1}\nabla g(\theta)\enspace, \]\({\mathbb{I}}(\theta)\) est la matrice d’information de Fisher définie par \[ {\mathbb{I}}(\theta)={\mathbb{E}}_{\theta}{\left[\nabla\log p_\theta(X_1,\ldots,X_n)\nabla\log p_\theta(X_1,\ldots,X_n)^T\right]}\enspace. \]

Ainsi, un estimateur sans biais dont la variance est égale à la borne de Cramer-Rao est efficace, c’est à dire de risque minimal dans la classe des estimateurs sans biais.

De manière plus générique, on peut étudier l’optimalité asymptotique de l’estimateur du maximum de vraisemblance dans la classe des \(M\)-estimateurs. C’est l’enjeux de la seconde partie du poly de cours.

Critères globaux

Une autre manière de considérer le problème d’optimalité est d’utiliser une norme sur l’espace des fonctions \(\Theta\to{\mathbb{R}}_+\).

On dira ainsi qu’un estimateur est minimax s’il minimise la norme sup du risque quadratique, qu’on appelle parfois risque maximal \[ R_\infty(T)=\sup_{\theta\in\Theta} R_\theta(T)\enspace. \]

Ceci amène à considérer des estimateurs bons “en pire cas”. On choisit cette alternative en l’abscence d’a priori sur les paramètres.

Au contraire, dans les problèmes ou on dispose d’experts, on peut prendre en compte leurs informations sous la forme d’une loi de probabilité a priori \(\pi\) sur l’ensemble \(\Theta\) des paramètres. On cherchera alors un estimateur minimisant un risque intégré (appelé aussi risque Bayésien) \[ R_\pi(T)=\int R_\theta(T)\pi(d\theta)\enspace. \]

Ce risque favorise les estimateurs performants dans les zones ou le paramètre est censé se trouver (ou \(\pi\) met de la masse), même si les performances de ceux-ci sont moins bonnes dans d’autres zones sans intérêt.

En réalité, ces deux points ne sont pas incompatibles et sont mêmes utilisés conjointement. Par exemple, de façon théorique, le point de vue Bayésien a l’avantage d’être très simple à optimiser (si on sait déterminer la loi a posteriori de \(\theta|X_1,\ldots,X_n\)). Le risque minimax majore toujours le risque Bayésien, mais on peut souvent construire des suites de lois a priori de sorte que la suite des risque Bayésiens approche le risque minimax.

Exercice 1

1.

Un tel estimateur doit vérifier \[ g(\theta)={\mathbb{E}}_\theta[T(X_1)]=\frac1{\theta}\int_0^\theta T(x)dx\enspace. \] Donc on a nécessairement \(T(x)=(xg(x))'=g(x)+xg'(x)\). Réciproquement, on vérifie sans peine que cette fonction convient.

2.

La statistique \(X_{n:n}\) a pour densité \[ f_{\theta,n}(x)=n{\left(\frac{x}{\theta}\right)}^{n-1}\frac1{\theta}{\mathbf{1}}_{[0,\theta]}\enspace. \] On a donc, pour toute fonction \(\widetilde{T}\) intégrable \[ {\mathbb{E}}_{\theta}[\widetilde{T}(X_{n:n})]=\frac{n}{\theta^n}\int_0^\theta\widetilde{T}(x)x^{n-1}dx\enspace. \] Il s’en suit que nécessairement \(\widetilde{T}\) vérifie \[ \widetilde{T}(x)=\frac1{x^{n-1}}{\left(\frac{x^ng(x)}n\right)}'=g(x)+\frac{xg'(x)}n\enspace. \] Réciproquement, cette fonction vérifie \({\mathbb{E}}_{\theta}[\widetilde{T}(X_{n:n})]=g(\theta)\).

3.

Ici \(g(x)=x\). On a d’une part \[ {\mathbb{E}}_\theta{\left[{\left(\frac1n\sum_{i=1}^nT(X_i)-\theta\right)}^2\right]}=\frac{\text{Var}_{\theta}{\left(T(X_1)\right)}}{n}=\frac1n{\left(\frac1{\theta}\int_0^\theta4x^2dx-\theta^2\right)}=\frac{\theta^2}{3n}\enspace. \] D’autre part \[ {\mathbb{E}}_{\theta}[(\widetilde{T}(X_{n:n})-\theta)^2]={\mathbb{E}}_{\theta}[\widetilde{T}(X_{n:n})^2]-\theta^2=\int_0^\theta{\left(\frac{n+1}n\right)}^2x^2n{\left(\frac{x}{\theta}\right)}^{n-1}\frac1{\theta}dx-\theta^2=\frac{\theta^2}{n(n+2)}\enspace. \]

4.

Soit \(a>0\),

\[ {\mathbb{E}}[(aX_{n:n}-\theta)^2]=\int_0^\theta (ax-\theta)^2n{\left(\frac{x}{\theta}\right)}^{n-1}\frac1{\theta}dx={\left(\frac{a^2n}{n+2}-\frac{2an}{n+1}+1\right)}\theta^2\enspace. \] Le polynôme entre parenthèse atteint son minimum en \(a=(n+2)/(n+1)\), ce minimum vaut \[ \frac{(n+2)n}{(n+1)^2}-2\frac{(n+2)n}{(n+1)^2}+1=\frac1{(n+1)^2}\enspace. \] Ainsi, le risque quadratique de l’estimateur \((n+2)X_{n:n}/(n+1)\) vaut \(\theta^2/(n+1)^2\), il est strictement inférieur à celui de \(\widetilde{T}(X_{n:n})\) qui n’est donc pas admissible.

Exercice 2

1.

D’après l’inégalité de Cauchy-Schwarz \[ {\mathbb{E}}_\theta{\left[{\left(T(Z)-{\mathbb{E}}_\theta[T(Z)]\right)}{\left(\Psi(Z)-{\mathbb{E}}_\theta[\Psi(Z)]\right)}\right]}\le {\mathbb{E}}_\theta{\left[{\left(T(Z)-{\mathbb{E}}_\theta[T(Z)]\right)}^2\right]}{\mathbb{E}}_\theta{\left[{\left(\Psi(Z)-{\mathbb{E}}_\theta[\Psi(Z)]\right)}^2\right]}\enspace. \]

2.

\[ {\mathbb{E}}_\theta[\Psi(Z)]=\int_{z:p_\theta(z)>0}(p_{\theta+\delta}(z)-p_\theta(z))dz=\int_{z:p_{\theta+\delta}(z)>0}p_{\theta+\delta}(z)dz-1=0\enspace. \] Maintenant \[ \text{Cov}_\theta(T(Z),\Psi(Z))={\mathbb{E}}{\left[T(Z)\Psi(Z)\right]}=\int_{z:p_\theta(z)>0}T(z)(p_{\theta+\delta}(z)-p_{\theta}(z))dz=g(\theta+\delta)-g(\theta)\enspace. \]

3.

On en déduit que, pour tout estimateur sans biais \(T(Z)\) de \(g(\theta)\) et tout \(\delta>0\) \[ \text{Var}_{\theta}{\left(T(Z)\right)}\ge \frac{(g(\theta+\delta)-g(\theta))^2}{\int_{z:p_\theta(z)>0}{\left(\frac{p_{\theta+\delta}(z)}{p_\theta(z)}-1\right)}^2p_\theta(z)dz}\enspace. \]

4.

Supposons que, pour presque tout \(z\), \(\theta\mapsto p_\theta(z)\) soit dérivable et qu’il existe \(g\) telle que \(\int g^2(z)/p_\theta(z)dz<\infty\) pour tout \(\theta\) et \(\partial_\theta(p_\theta(z))\le g(z)\) p.s. Alors, par le théorème de dérivation de Lebesgue, \[ \text{Var}_{\theta}(T(Z))\ge \frac{(g'(\theta))^2}{\int (\partial_\theta p_{\theta}(z))^2/p_\theta(z)dz}=\frac{(g'(\theta))^2}{{\mathbb{E}}_\theta[(\partial_\theta \log p_{\theta}(Z))^2]}\enspace. \]

5.

On a dans le modèle uniforme \(p_\theta(z)=\frac1{\theta^n}{\mathbf{1}}_{[0,\theta]}\), pour \(\delta\in ]-\theta,0]\), la cdt de la question 2. est remplie, on a donc, pour tout estimateur sans biais de \(\theta\), \[ \text{Var}_\theta(T(Z))\ge \frac{\delta^2}{\int_0^\theta{\left( \frac{\theta^n}{(\theta+\delta)^n}{\mathbf{1}}_{[0,\theta+\delta]}-1\right)}^2\frac{dz}{\theta^n}}=\frac1{\frac{\theta^n}{(\theta+\delta)^n}-2+1}=\frac1{\frac{\theta^n}{(\theta+\delta)^n}-1}\enspace. \]

6.

Si \(\delta=-c\theta/n\), la borne devient \[ \frac{\theta^2}{n}\frac{c^2}{\frac1{(1-\frac cn)^n}-1}\enspace. \] Cette borne est de la forme désirée et lorsque \(c\) est fixe et \(n\to\infty\), on a \[ \lim_{n\to\infty}\frac{c^2}{\frac1{(1-\frac cn)^n}-1}=\frac{c^2}{(e^{c}-1)^2}\enspace. \]

7.

La fonction \(h\) définie par \(h(c)=c^2/(e^c-1)^2\) a pour maximum \(1\) en \(0\). On a donc \[ \liminf_{n\to\infty}n^2\text{Var}_{\theta}(T(Z))\ge 1\enspace. \] Dans l’exercice \(1\) on a vu que l’estimateur \(\eta^2_n\) atteignait cette borne.

Exercice 3

1.

La log vraisemblance s’écrit \[ \ell_n((\beta_1,\beta_2),X_1,\ldots,X_n)=-\frac{n}2\log(2\pi\sigma^2)-\frac{\sum_{i=1}^n(X_i-\beta_1-\beta_2t_i)^2}{2\sigma^2}\enspace. \] Le score est donc égal à \[ \nabla\ell_n((\beta_1,\beta_2),X_1,\ldots,X_n)=\frac1{\sigma^2}{\left(\sum_{i=1}^n(X_i-\beta_1-\beta_2t_i),\sum_{i=1}^nt_i(X_i-\beta_1-\beta_2t_i)\right)}^T\enspace. \] La matrice d’information de Fisher est alors donnée par

\[ \mathbb{I}(\beta_1,\beta_2)={\mathbb{E}}_{\beta_1,\beta_2}[\nabla\ell_n(\beta_1,\beta_2)\nabla\ell_n(\beta_1,\beta_2)^T]=\frac{n}{\sigma^2}{\left( \begin{array}{cc} 1&\overline{t}\\ \overline{t}&\frac{{\left\|t\right\|}^2}n \end{array} \right)}\enspace. \]

2.

Soit \(g(\beta_1,\beta_2)=\beta_1\). On a \(\nabla g(\beta_1,\beta_2)=(1,0)^T\). Tout estimateur sans biais de \(g(\theta)\) a donc une variance minorée par la borne de Cramer-Rao \[ \nabla g(\beta_1,\beta_2)^T\mathbb{I}^{-1}(\beta_1,\beta_2)\nabla g(\beta_1,\beta_2)\enspace. \] En utilisant la formule \(\mathbb{I}^{-1}(\beta_1,\beta_2)=\frac1{\det(\mathbb{I}(\beta_1,\beta_2))}(\text{Comm}(\mathbb{I}(\beta_1,\beta_2))^T\), on trouve \[ \mathbb{I}^{-1}(\beta_1,\beta_2)=\frac{\sigma^2}{{\left\|t\right\|}^2-n(\overline{t})^2}{\left( \begin{array}{cc} \frac{{\left\|t\right\|}^2}n&-\overline{t}\\ -\overline{t}&1 \end{array} \right)}\enspace. \] Donc la borne de Cramer-Rao pour l’estimation de \(\beta_1\) vaut \[ \frac{\sigma^2}{{\left\|t\right\|}^2-n(\overline{t})^2}\frac{{\left\|t\right\|}^2}n\enspace. \]

3.

Dans le modèle où \(\beta_2\) est connu, on a directement \(\mathbb{I}(\beta_1)=n\sigma^{-2}\) et la borne de Cramer-Rao vaut \(\sigma^2/n\). Cette borne est inférieure à la précédente, ce qui est attendu car le problème est plus simple, ce qui se manifeste par le fait que la classe des estimateurs sans biais est plus grande dans le second problème, ce qui fait baisser la borne.

4.

Lors que \(g(\beta_1,\beta_2)=\beta_1\beta_2\), on a \(\nabla g(\beta_1,\beta_2)=(\beta_2,\beta_1)^T\), donc la borne de CR vaut \[ \frac{\sigma^2}{{\left\|t\right\|}^2-n(\overline{t})^2}{\left(\beta_2^2\frac{{\left\|t\right\|}^2}n-2\beta_1\beta_2\overline{t}+\beta_1^2\right)}\enspace. \]

Exercice 4

1.

L’estimateur \(\widehat{\theta}_n(\underline{a}_n)\) est sans biais si \[ \theta={\mathbb{E}}_\theta[\widehat{\theta}_n(\underline{a}_n)]={\mathbb{E}}_\theta[X_1]\sum_{i=1}^na_{i,n}\enspace. \] On a \[ {\mathbb{E}}_\theta[X_1]=\int xq{\left(\frac{x-\theta}\sigma\right)}\frac{dx}\sigma=\int (\theta+\sigma y)q(y)dy=\theta\enspace. \] Donc \(\widehat{\theta}_n(\underline{a}_n)\) est sans biais si \(\sum_{i=1}^na_{i,n}=1\). Lorsqu’il est sans biais, le risque quadratique de \(\widehat{\theta}_n(\underline{a}_n)\) est égal à sa variance, qui vaut \[ \text{Var}_\theta(\widehat{\theta}_n(\underline{a}_n))=\text{Var}_\theta(X_1)\sum_{i=1}^na_{i,n}^2\enspace. \] Par Cauchy-Schwarz, on a \[ 1\le n\sum_{i=1}^na_{i,n}^2\enspace. \] De plus, on a égalité si et seulement si \(\underline{a}_n\) est colinéaire au vecteur \({\mathbf{1}}\), i.e. si et seulement si \(a_{i,n}=n^{-1}\) pour tout \(i\in\{1,\ldots,n\}\). Ainsi, l’estimateur linéaire sans biais de risque quadratique minimale est la moyenne empirique \(n^{-1}\sum_{i=1}^nX_i\).

2.

De manière plus générale, on veut minorer les risque quadratique d’un estimateur linéaire. On a \[ {\mathbb{E}}_\theta[(\widehat{\theta}_n(\underline{a}_n)-\theta)^2]=\text{Var}_{\theta}(X_1)\sum_{i=1}^na_{i,n}^2+\theta^2(\sum_{i=1}^na_{i,n}-1)^2\enspace. \] On a \[ \text{Var}_{\theta}(X_1)=\int(x-\theta)^2q{\left(\frac{x-\theta}\sigma\right)}\frac{dx}\sigma=\int \sigma^2y^2q(y)dy=\sigma^2\enspace. \] On recherche donc la valeur minimale en \(\underline{a}_n\) de \[ R(\underline{a}_n)=\sigma^2\sum_{i=1}^na_{i,n}^2+\theta^2(\sum_{i=1}^na_{i,n}-1)^2\enspace. \]

Le gradient de cette fonctionnelle est le vecteur \[ \nabla R(\underline{a}_n)=(2\sigma^2a_{i,n}+2\theta^2(\sum_{i=1}^na_{i,n}-1))_{i=1,\ldots,n}\enspace. \] Le seul point critique est donc le point \(\underline{a}_n^*\) vérifie \[ a^*_{i,n}=\frac{\theta^2}{\sigma^2}(1-\sum_{i=1}^na^*_{i,n})\quad\text{donc}\quad \sum_{i=1}^na^*_{i,n}=\frac{n\theta^2}{\sigma^2+n\theta^2}\enspace. \] Finalement, on a donc \[ a^*_{i,n}=\frac{\theta^2}{\sigma^2}(1-\frac{n\theta^2}{\sigma^2+n\theta^2})=\frac{\theta^2}{\sigma^2+n\theta^2}\enspace. \] La valeur minimale du risque quadratique sur l’ensemble des estimateurs linéaire est donc \[ \sum_{i=1}^n(a_{i,n}^*)^2=\frac{n\theta^4}{(\sigma^2+n\theta^2)^2}\enspace. \]

Exercice 5

1.

Soit \(\tau\) une permutation de \(\{1, \ldots, n \}\). Puisque \((X_1, \ldots, X_n)\) sont i.i.d., elles ont même loi que \((X_{\tau_1}, \ldots, X_{\tau_n})\) et cette loi est donnée par \[ (y_1, \ldots, y_n) \mapsto \left( \prod_{k=1}^n f(\theta; y_k) \right) \, d y_1 \ldots d y_n. \] Puisque les v.a. \((X_k)_k\) ont des lois à densité par rapport à la mesure de Lebesgue, on a \({\mathbb{P}}(Xi = X_j) =0\) pour tout \(i \neq j\). Par suite, il existe une unique permutation aléatoire \(\sigma\) de \(\{1, \ldots, n \}\) telle que \[ X_{k:n} = X_{\sigma_k}, \qquad X_{\sigma_1} < X_{\sigma_2} < \ldots < X_{\sigma_n} \ \text{p.s.} \] Notons \(\mathcal{S}_n\) l’ensemble des permutations de \(\{1, \ldots, n \}\), de cardinal \(n!\). On a pour toute fonction \(h\) mesurable bornée \[ {\mathbb{E}}_\theta \left[ h\left(X_{1:n}, \ldots, X_{n:n} \right) \right] ={\mathbb{E}}_\theta \left[ h\left(X_{\sigma_1}, \ldots, X_{\sigma_n} \right) \right] = \sum_{\tau \in \mathcal{S}_n} {\mathbb{E}}_\theta \left[ h\left(X_{\tau_1}, \ldots, X_{\tau_n} \right) \, {\mathbf{1}}_{\sigma = \tau} \right] \] Donc \[ {\mathbb{E}}_\theta \left[ h\left(X_{1:n}, \ldots, X_{n:n} \right) \right]= \sum_{\tau \in \mathcal{S}_n} {\mathbb{E}}_\theta \left[ h\left(X_{\tau_1}, \ldots, X_{\tau_n} \right) \, {\mathbf{1}}_{X_{\tau_1} < X_{\tau_2} < \ldots < X_{\tau_n}} \right]\enspace. \] On conclut en observant que l’espérance dans le terme de droite est indépendant de \(\tau\) et vaut \[ {\mathbb{E}}_\theta \left[ h\left(X_{\tau_1}, \ldots, X_{\tau_n} \right) \, {\mathbf{1}}_{X_{\tau_1} < X_{\tau_2} < \ldots < X_{\tau_n}} \right] = \int_{y_1 < \ldots < y_n} h(y_1, \ldots, y_n) \left( \prod_{k=1}^n f(\theta; y_k) \right) \, d y_1 \ldots d y_n, \] puis en utilisant le fait que \(\sum_{\tau \in \mathcal{S}_n} 1 = n!\).

2.

Soit \(h\) mesurable positive. On a \[ {\mathbb{E}}_\theta \left[ h \left(Z_1, \ldots, Z_n \right) \right] = {\mathbb{E}}_\theta \left[ h \left( n X_{1:n}, (n-1) (X_{2:n} - X_{1:n}), \ldots, (X_{n:n}- X_{n-1:n})\right) \right] \enspace.\] En utlisant la question 1., cette espérance vaut donc

\[ {\mathbb{E}}_\theta \left[ h \left(Z_1, \ldots, Z_n \right) \right]= \frac{n!}{\theta^n} \, \int_{0 \leq y_1< \ldots < y_n} \exp\left(-\theta^{-1} \sum_{k=1}^n y_k \right) \ h\Big(n y_1, (n-1)(y_2-y_1), \ldots, (y_n - y_{n-1})\Big) d y_1 \ldots d y_n \enspace. \] En faisant le changement de variable \(z_i = (n-i+1)(y_i-y_{i-1})\), équivalent à \(y_i = \sum_{j=1}^i z_j (n-j+1)^{-1}\), on a donc

\[ {\mathbb{E}}_\theta \left[ h \left(Z_1, \ldots, Z_n \right) \right]= \frac{1}{\theta^n} \int_{z_1>0, z_2 >0, \ldots, z_n>0} \exp\left(-\theta^{-1} \sum_{k=1}^n \sum_{j=1}^k (n-j+1)^{-1} z_j \right) \ h(z_1, \ldots, z_n) \ d z_1 \ldots d z_n, \] On a \[ \sum_{k=1}^n \sum_{j=1}^k (n-j+1)^{-1} z_j = \sum_{k=1}^n \sum_{j=1}^n {\mathbf{1}}_{j \leq k} \frac{z_j}{n-j+1} = \sum_{j=1}^n \frac{z_j}{n-j+1} (n-j+1) = \sum_{j=1}^n z_j, \] dont on déduit que \[ {\mathbb{E}}_\theta \left[ h \left(Z_1, \ldots, Z_n \right) \right] = \frac{1}{\theta^n} \int_{z_1>0, \ldots, z_n>0} \exp\left(-\theta^{-1} \sum_{j=1}^n z_j \right) \ h(z_1, \ldots, z_n) d z_1 \ldots d z_n \] La relation étant vraie pour toute \(h\), on identifie la loi de \((Z_1, \ldots, Z_n)\) comme ayant la densité \[ (z_1, \ldots, z_n) \mapsto {\mathbf{1}}_{z_1>0, \ldots, z_n>0} \frac{1}{\theta^n} \ \exp\left(-\theta^{-1} \sum_{j=1}^n z_j \right)\enspace. \] Il vient que les v.a. \((Z_k)_k\) sont i.i.d. de loi exponentielle de paramètre \(\theta\).

3.

On a \[\begin{align*} \sum_{j=1}^n m_{jn} \, Z_j & = \sum_{j=1}^n \frac{Z_j}{n-j+1} \sum_{i=j}^n a_{in} = \sum_{j=1}^n \sum_{i=1}^n 1_{j \leq i} \frac{Z_j}{n-j+1} a_{in}\\ & = \sum_{i=1}^n a_{in} \sum_{j=1}^i \frac{Z_j}{n-j+1} = \sum_{i=1}^n a_{in} X_{i:n}. \end{align*}\]

4.

En utilisant les rappels et le résultat de la question 2., le risque quadratique de l’estimateur est donné par \[ \left(\sum_{j=1}^n m_{jn} -1 \right)^2 \theta^2 + \theta^2 \sum_{j=1}^n m_{jn}\enspace. \]

On résout les questions 5. et 6. comme dans l’exercice 4.