Rappels de Cours

Gaussienne standard sur \({\mathbb{R}}\)

La loi Gaussienne standard est la loi absolument continue par rapport à la mesure de Lebesgue sur \({\mathbb{R}}\) de densité \[ \varphi(x)=\frac1{\sqrt{2\pi}}e^{-\frac{x^2}2}\enspace. \] Elle est caractérisée par sa transformée de Laplace \[ \phi(t)={\mathbb{E}}{\left[e^{tX}\right]}=\int e^{tx-\frac{x^2}2}\frac{dx}{\sqrt{2\pi}}=e^{\frac{t^2}2}\int e^{-\frac{(x-t)^2}2}\frac{dx}{\sqrt{2\pi}}\enspace. \] En posant le changement de variables \(y=x-t\), on voit que
\[ \phi(t)=e^{\frac{t^2}2}\enspace. \]

En développant en série entière \[ \sum_{k\ge 0}\frac{{\mathbb{E}}[X^k]}{k!}t^k=\sum_{k\ge 0}\frac1{2^k(2k)!}t^{2k}\enspace. \] En identifiant les coefficients, on obtient les moments de la gaussienne standard. \[ {\mathbb{E}}[X^{2k-1}]=0,\qquad {\mathbb{E}}[X^{2k}]=\frac{(2k)!}{2^kk!},\qquad \forall k\ge 1\enspace. \] En particulier, on a donc \[ {\mathbb{E}}[X]=0,\;\text{Var}(X)={\mathbb{E}}[X^2]=1,\; {\mathbb{E}}[X^3]=0,\, {\mathbb{E}}[X^4]=3\enspace. \]

Paramètres de la gaussienne sur \({\mathbb{R}}\)

On définit plus généralement, pour tout \(\mu\in{\mathbb{R}}\) et \(\sigma>0\) la loi gaussienne \(\mathsf{N}(\mu,\sigma^2)\) comme la loi de \(\mu+\sigma X\), où \(X\) suit la loi gaussienne standard sur \({\mathbb{R}}\).

Transformée de Laplace \[ \phi_{\mu,\sigma}(t)={\mathbb{E}}[e^{t(\mu+\sigma X)}]=e^{t\mu}\phi(t\sigma)=e^{t\mu+\frac{t^2\sigma^2}2}\enspace. \] Premiers moments \[ {\mathbb{E}}[\mu+\sigma X]=\mu,\qquad \text{Var}(\mu+\sigma X)=\sigma^2\enspace. \] Rmq : nous avons utilisé ces propriétés pour estimer les paramètres \(\mu\) et \(\sigma^2\) en PC1.

Loi gaussienne standard sur \({\mathbb{R}}^d\).

La loi gaussienne standard sur \({\mathbb{R}}^d\) est la loi d’un vecteur \({\bf X}=(X_1,\ldots,X_d)\) dont les coordonées sont indépendantes et de même loi gaussienne standard sur \({\mathbb{R}}\).

La loi gaussienne standard sur \({\mathbb{R}}^d\) est absolument continue par rapport à la mesure de Lebesgue sur \({\mathbb{R}}^d\) et admet pour densité \[ \varphi({\bf x})=\frac1{(2\pi)^{d/2}}e^{-\frac12\sum_{i=1}^dx_i^2}=\frac1{(2\pi)^{d/2}}e^{-\frac{{\left\|{\bf x}\right\|}^2}2}\enspace. \]

Cette loi est caractérisée par sa transformée de Laplace qui associe à tout vecteur \({\bf t}=(t_1,\ldots,t_d)\in{\mathbb{R}}^d\) \[ \phi({\mathbf{t}})={\mathbb{E}}[e^{{\bf t}^T{\bf X}}]={\mathbb{E}}[e^{\sum_{i=1}^dt_iX_i}]=\prod_{i=1}^d{\mathbb{E}}[e^{t_iX_i}]=e^{\frac{{\left\|{\bf t}\right\|}^2}2}\enspace. \] On peut également calculer pour cette loi son vecteur moyenne \[ {\mathbb{E}}[{\bf X}]=({\mathbb{E}}[X_1],\ldots,{\mathbb{E}}[X_d])^T=0\enspace, \] et sa matrice de covariance \[ \text{Cov}({\bf X})={\mathbb{E}}[({\bf X}-{\mathbb{E}}{\bf X})({\bf X}-{\mathbb{E}}{\bf X})^T]=(\text{Cov}(X_i,X_j))_{1\le i,j\le d}=I_d\enspace. \]

Transformation linéaire

Soit \({\bf X}\) un vecteur gaussien standard sur \({\mathbb{R}}^d\), \(A\in\text{Mat}_{k,d}({\mathbb{R}})\) et \(\mu\in{\mathbb{R}}^k\).

Transformée de Laplace de \(\mu+A{\bf X}\) : soit \({\bf t}\in{\mathbb{R}}^k\), \[ {\mathbb{E}}[e^{{\bf t}^T(\mu+A{\bf X})}]=e^{{\bf t}^T\mu}\phi(A^T{\bf t})=e^{{\bf t}^T\mu+\frac12{\bf t}^TAA^T{\bf t}}\enspace. \] La loi de \(\mu+A{\bf X}\) sur \({\mathbb{R}}^k\) est entièrement caractérisée par le vecteur \(\mu\) et la matrice \(AA^T\), on l’appelle la loi gaussienne de paramètres \(\mu\) et \(AA^T\) sur \({\mathbb{R}}^k\).

Premiers moments \[ {\mathbb{E}}[\mu+A{\bf X}]=\mu\enspace, \] \[ \text{Cov}(\mu+A{\bf X})={\mathbb{E}}[A{\bf X}(A{\bf X})^T]=A\text{Cov}(X)A^T=AA^T\enspace. \] Les paramètres de la loi Gaussienne sont donc son vecteur moyenne et sa matrice de covariance.

La matrice de covariance est symétrique et à coefficients réels.

Lien orthogonalité et indépendance

Propriété. Soient \(A_1\) et \(A_2\) deux matrices de \(\text{Mat}_d({\mathbb{R}})\) telles que \[ A_1A_2^T=0\enspace. \] Soient également \(\mu_1\) et \(\mu_2\) deux vecteurs de \({\mathbb{R}}^d\), alors \(\mu_1+A_1{\bf X}\) et \(\mu_2+A_2{\bf X}\) sont indépendants.

Preuve : le vecteur \({\bf Y}=((\mu_1+A_1{\bf X})^T,(A_2+\Pi_2{\bf X})^T)^T\) est le vecteur gaussien de vecteur moyenne \((\mu_1^T,\mu_2^T)^T\) et de matrice de covariance \[ \left(\begin{array}{cc} {\mathbb{E}}[A_1{\bf X}(A_1{\bf X})^T]&{\mathbb{E}}[A_1{\bf X}(A_2{\bf X})^T]\\ {\mathbb{E}}[A_2{\bf X}(A_1{\bf X})^T]&{\mathbb{E}}[A_2{\bf X}(A_2{\bf X})^T] \end{array}\right) = {\left(\begin{array}{cc} A_1A_1^T&0\\ 0&A_2A_2^T \end{array} \right)} \enspace. \] Sa transformée de Laplace associe à tout vecteur \({\bf t}=({\bf t_1}^T,{\bf t_2}^T)^T\) \[ {\mathbb{E}}[e^{{\bf t}^T{\bf Y}}]=e^{{\bf t}_1^T\mu_1+{\bf t}_2^T\mu_2+\frac12{\left({\bf t}_1^TA_1A_1^T{\bf t}_1+{\bf t}_2^TA_2A_2^T{\bf t}_2\right)}}\enspace. \] On a donc \[ {\mathbb{E}}[e^{{\bf t}^T{\bf Y}}]=e^{{\bf t}_1^T\mu_1+\frac12{\bf t}_1^TA_1A_1^T{\bf t}_1}e^{{\bf t}_2^T\mu_2+\frac12{\bf t}_2^TA_2A_2^T{\bf t}_2}\enspace. \]

Autrement dit, pour tout \({\bf t_1}\), \({\bf t_2}\) de \({\mathbb{R}}^d\), \[ {\mathbb{E}}[e^{{\bf t_1}^T(\mu_1+A_1X)+{\bf t_2}^T(\mu_2+A_2X)}]={\mathbb{E}}[e^{{\bf t_1}^T(\mu_1+A_1X)}]{\mathbb{E}}[e^{{\bf t_2}^T(\mu_2+A_2X)}]\enspace. \] Les vecteurs \((\mu_1+A_1X)\) et \((\mu_2+A_2X)\) sont donc indépendants.\(\square\)

Cette propriété est régulièrement utilisée dans le cas où \(A_1\) et \(A_2\) sont deux projecteurs orthogonaux \(\Pi_1\) et \(\Pi_2\) sur des espaces orthogonaux, i.e. vérifiant \[ \Pi_i=\Pi_i^T,\qquad \Pi_i^2=\Pi_i,\qquad \Pi_1\Pi_2=\Pi_2\Pi_1=0\enspace. \] En particulier, les coordonnées d’un vecteur gaussien standard sont, dans toute base orthonormée, indépendantes et de même loi gaussienne standard sur \({\mathbb{R}}\).

Loi du \(\chi^2\)

La loi du \(\chi^2\) à \(d\) degrés de liberté est la loi de \({\left\|{\bf X}\right\|}^2\) lorsque \({\bf X}\) suit la loi gaussienne standard sur \({\mathbb{R}}^d\).

Soit \(\Pi\) un projecteur orthogonal sur un sous-espace de \({\mathbb{R}}^d\) de dimension \(k\). Soit \({\bf e}_1,\ldots,{\bf e}_d\) une base orthonormée de \({\mathbb{R}}^d\) telle que \({\bf e}_1,\ldots,{\bf e}_k\) soit une base orthornomée de \(\text{Im}(\Pi)\).

On a \(\Pi{\bf X}=\sum_{i=1}^kX_i{\bf e}_i\) avec \(X_1,\ldots,X_k\) gaussiennes standards indépendantes, donc \[ {\left\|\Pi {\bf X}\right\|}^2=\sum_{i=1}^kX_i^2\sim\chi^2(k)\enspace. \]

Si \(X\) suit une loi gaussienne standard, pour tout \(t<1/2\), \[ {\mathbb{E}}{\left[e^{tX^2}\right]}=\int e^{-\frac{x^2}{2/(1-2t)}}\frac{dx}{\sqrt{2\pi}}=\frac1{\sqrt{1-2t}}\enspace. \]

La loi \(\Gamma(p,\lambda)\)\(\lambda>0\) et \(p>0\) a pour densité sur \({\mathbb{R}}_+\) \[ p_{p,\lambda}(x)=\frac{\lambda^p}{\Gamma(p)}x^{p-1}e^{-\lambda x} \] Transformée de Laplace : \[ \int \frac{\lambda^p}{\Gamma(p)}x^{p-1}e^{-(\lambda-t) x}dx=\frac{\lambda^p}{(\lambda-t)^p}=\frac1{(1-t/\lambda)^p}\enspace. \]

La loi \(\chi^2(1)\) est la loi \(\Gamma(1/2,1/2)\).

Si \(Y_1\sim\Gamma(p_1,\lambda)\) et \(Y_2\sim\Gamma(p_2,\lambda)\) avec \(Y_1\), \(Y_2\) indépendantes, alors \(Y_1+Y_2\sim \Gamma(p_1+p_2,\lambda)\). Donc \[ \text{la loi }\chi^2(d)\text{ est la loi }\Gamma(d/2,1/2)\enspace. \] Finalement, si \(Y\sim\Gamma(p,\lambda)\) et \(\theta>0\), alors \(\theta Y\sim \Gamma(p,\lambda/\theta)\). Donc \[ \text{si }\sigma^{-2}K\sim \chi^2(d),\text{ alors }K\sim \Gamma(d/2,1/(2\sigma^2))\enspace. \]

Exercice 1

1. Exemple 1

Définissons \(\mathsf{X}={\mathbb{R}}\), \(\mu\) la mesure de Lebesgue sur \({\mathbb{R}}\), \(T(x)=-x\) et \(h(x)=\mathbb{1}_{x\in{\mathbb{R}}_+}\). Pour tout \(\eta>0\), on a \[ A(\eta)=\log\int_{{\mathbb{R}}_+} e^{-\eta x}dx=-\log \eta\enspace. \] Le modèle exponentiel canonique associé au couple \((T,h)\) est donc l’ensemble des lois de densités \[ p_{\eta}(x)=\eta e^{-\eta x}\mathbb{1}_{x\in {\mathbb{R}}_+}\enspace, \]\(\eta\in\Xi={\mathbb{R}}_+^*\).

2. Exemple Gaussien

Définissons \(\mathsf{X}={\mathbb{R}}\), \(\mu\) la mesure de Lebesgue sur \({\mathbb{R}}\), \(T(x)=x\) et \(h(x)=e^{-x^2/2}/\sqrt{2\pi}\). Pour tout \(\eta\in{\mathbb{R}}\), on a \[ A(\eta)=\log\int_{{\mathbb{R}}} \frac1{\sqrt{2\pi}}e^{-\frac{x^2}2+\eta x}dx=-\frac{\eta^2}2\enspace. \] Le modèle exponentiel canonique associé au couple \((T,h)\) est donc l’ensemble des lois de densités \[ p_{\eta}(x)=\frac1{\sqrt{2\pi}} \exp{\left(-\frac{(x-\eta)^2}2\right)}\enspace, \]\(\eta\in\Xi={\mathbb{R}}_+\).

3. \(\Xi\) est convexe

Supposons \(\Xi\) non vide, soient \(\eta_1, \eta_2\) dans \(\Xi\) et soit \(\lambda\in(0,1)\). Par convexité de \(x\mapsto e^{x}\), on a \[ e^{(\lambda\eta_1+(1-\lambda)\eta_2)T(x)}\le \lambda e^{\eta_1T(x)} +(1-\lambda)e^{\eta_2T(x)}\enspace. \] Par définition de \(\Xi\), l’intégrale du terme de droite est non nulle et finie, donc l’intégrale du terme de gauche est finie. Par ailleurs, l’intégrant étant strictement positif, l’intégrale n’est nulle que si \(\mathsf{X}\) est de \(\mu\) mesure nulle ce qui est absurde car alors \(A(\eta_1)\) serait infini.

4. Convexité de \(A\)

Méthode 1 : Hölder

Soient \(\eta_1,\eta_2\) dans \(\Xi\) et \(\alpha\in(0,1)\), on a, d’après l’inégalité de Hölder, \[ e^{A(\alpha\eta_1+(1-\alpha)\eta_2)}\le {\left(\int h(x)e^{\eta_1T(x)}dx\right)}^{\alpha}{\left(\int h(x)e^{\eta_2T(x)}dx\right)}^{1-\alpha}\enspace. \] Comme la fonction logarithme est croissante \[ A(\alpha\eta_1+(1-\alpha)\eta_2)\le \alpha A(\eta_1)+(1-\alpha)A(\eta_2)\enspace. \]

Méthode 2 : Cauchy-Schwarz

Soit \(\eta\) un point à l’intérieur de \(\Xi\). Alors, il existe \(\epsilon>0\) tel que \([\eta-\epsilon,\eta+\epsilon]\subset \Xi\). Soit \(k\ge 0\), il existe une constante \(C_k\) telle que \[ |T(x)|^k\le C_k(e^{\epsilon T(x)}+e^{-\epsilon T(x)})\enspace, \] donc \(\int |T(x)|^kp_\eta(x)\mu(dx)<\infty\). On peut alors appliquer le théorème de dérivation sous le signe intégrale de Lebesgue pour obtenir \[\begin{gather*} A'(\eta)=\frac{\int h(x)T(x)e^{\eta T(x)}\mu(dx)}{\int h(x)e^{\eta T(x)}\mu(dx)}\enspace,\\ A"(\eta)= \frac{\left({\int h(x)T(x)^2e^{\eta T(x)}\mu(dx)}\right)\left({\int h(x)e^{\eta T(x)}\mu(dx)}\right)-\left({\int h(x)T(x)e^{\eta T(x)}\mu(dx)}\right)^2}{\left({\int h(x)e^{\eta T(x)}\mu(dx)}\right)^2}\enspace. \end{gather*}\]

Ce dernier terme est positif d’après l’inégalité de Cauchy-Schwarz.

5.

On répète l’argument de la section précédente. Soit \(\eta\in\Xi\). Comme \(\Xi\) est ouvert, il existe \(\epsilon>0\) tel que \([\eta-\epsilon,\eta+\epsilon]\subset \Xi\). Soit \(k\ge 0\), il existe une constante \(C_k\) telle que \[ |T(x)|^k\le C_k(e^{\epsilon T(x)}+e^{-\epsilon T(x)})\enspace. \] Le résultat est alors une conséquence immédiate du théorème de dérivation sous le signe intégrale de Lebesgue.

6. Méthode des moments

On applique la question précédente avec \(g=h\), on en déduit \[ \int h(x)T(x)e^{\eta T(x)}\mu(dx)=A'(\eta)e^{A(\eta)}\enspace, \] ce qui se réécrit \[ {\mathbb{E}}_\eta[T(X)]=A'(\eta)\enspace. \] Par ailleurs \(A'\) est strictement croissante et continue, donc bijective sur son ensemble d’arrivée. Un estimateur par la méthode des moments de \(\eta\) est donc défini par \[ \widehat{\eta}_n=(A')^{-1}{\left(\frac1n\sum_{i=1}^nT(X_i)\right)}\enspace. \]

7. Estimateur du maximum de vraisemblance

La vraisemblance de l’échantillon associe à tout \(\eta\in\Xi\) \[ L(\eta,X_1,\ldots,X_n)=\prod_{i=1}^nh(X_i)\exp{\left(\eta\sum_{i=1}^nT(X_i)-nA(\eta)\right)}\enspace. \] Cette fonction étant strictement positive et régulière, on cherche un maximiseur de son logarithme \(\ell(\eta,X_1,\ldots,X_n)=\log L(\eta,X_1,\ldots,X_n)\).

On a \[ \ell'(\eta,X_1,\ldots,X_n)=\sum_{i=1}^nT(X_i)-nA'(\eta)\enspace, \] donc tout point critique est égal à l’estimateur des moments de de \(\eta\).

En dérivant une seconde fois, on voit que \(\ell\) est concave car \(A\) est convexe, donc que le point critique est le maximiseur de \(\ell\), donc de la vraisemblance.

L’estimateur du maximum de vraisemblance est un estimateur par la méthode des moments.

Exercice 2

1. Loi de Poisson

On rappelle que la densité de cette loi par rapport à la mesure de comptage sur \({\mathbb{N}}\) est donnée par \[ \frac{\lambda^x}{x!}e^{-\lambda}=\frac1{x!}e^{(\log \lambda)x-\lambda}=h(x)e^{\varphi(\lambda)T(x)-B(\lambda)} \] en utilisant les notations proposées dans l’énoncé.

Pour déterminer le modèle canonique associé, on pose \(\eta=\log(\lambda)\in{\mathbb{R}}\) et on a \[ p_{\eta}(x)=h(x)e^{\eta x-e^{\eta}}\enspace, \] c’est le modèle exponentiel canonique associé au couple \((h,Id)\) car, pour tout \(\eta\in\Xi={\mathbb{R}}\), \[ A(\eta)=\log{\left(\sum_{x=0}^{+\infty}\frac{e^{\eta x}}{x!}\right)}=\log(e^{e^\eta})=e^{\eta}\enspace. \]

2. Loi binomiale

La densité de cette loi par rapport à la mesure de comptage s’écrit \[ \binom{n}{x}\theta^x(1-\theta)^{n-x}=\binom{n}{x}\exp{\left({\left(\log{\left(\frac{\theta}{1-\theta}\right)}\right)}x+n\log(1-\theta)\right)}\enspace. \] En utilisant les notation de l’énoncé, cette densité se réécrit bien \[ h(x)e^{\varphi(\theta)T(x)-B(\theta)}\enspace, \]

Pour déterminer le modèle canonique associé, on pose \(\eta=\log(\theta/(1-\theta))\) de sorte que \(\theta=(1-e^{-\lambda})^{-1}\) et \(\log(1-\theta)=-\log(1+e^\lambda)\), on obtient que la densité de la loi binomiale se réécrit \[ p_\eta(x)=h(x)e^{\eta x-n\log(1+e^\lambda)}\enspace. \] C’est bien le modèle exponentiel canonique associé au couple \((h,Id)\) car pour tout \(\eta\in{\mathbb{R}}\), \[ A(\eta)=\log{\left(\sum_{x=0}^n\binom{n}{x}e^{\eta x}\right)}=\log{\left((1+e^\eta)^n\right)}=n\log(1+e^\eta)\enspace. \]

3. Estimateur du maximum de vraisemblance

On rappelle d’abord que l’estimateur du maximum de vraisemblance du paramètre canonique est donné par (voir la question 7. de l’exercice 1) \[ \widehat{\eta}_n=(A')^{-1}{\left(\frac1n\sum_{i=1}^nT(X_i)\right)}\enspace. \] On a alors que l’estimateur du maximum de vraisemblance de \(\theta=\varphi^{-1}(\eta)\) est \[ \widehat{\theta}_n=\varphi^{-1}(\widehat{\eta}_n)=(A'\circ \varphi)^{-1}{\left(\frac1n\sum_{i=1}^nT(X_i)\right)}\enspace. \]

Exercice 3

1. Modèle statistique

\(Z\) est un vecteur de \({\mathbb{R}}^n\) qu’on munit de sa tribu Borélienne.

La loi de \(X_n\) sachant \(\xi_1,\ldots,\xi_{n-1}\) est une gaussienne centrée en \(\phi X_{n-1}\), de variance \(\sigma^2\).

La densité de la loi de \(X_1,\ldots,X_n\) est le produit des densités des lois conditionnelles de \(X_k\) sachant \((X_1,\ldots,X_{k-1})\), donc sachant \(\xi_1,\ldots,\xi_{n-1}\).

La densité de \(Z\) en \((x_1,\ldots,x_n)\) est donc égale à \[ p_{\phi,\sigma}(x_1,\ldots,x_n)=\prod_{k=1}^n\frac1{\sqrt{2\pi\sigma^2}}\exp{\left(-\frac{(x_k-\phi x_{k-1})^2}{2\sigma^2}\right)}\enspace, \] avec la convention \(x_0=0\).

2. EMV

La log vraisemblance s’écrit \[ \ell((\phi,\sigma),Z)=-\frac{n}2\log{\left(2\pi\sigma^2\right)}-\sum_{k=1}^n\frac{(X_k-\phi X_{k-1})^2}{2\sigma^2}\enspace. \] Les équations de vraisemblance s’écrivent donc \[ \sum_{k=1}^nX_{k-1}(X_k-\phi X_{k-1})=0,\qquad -\frac{n}{2\sigma^2}+\sum_{k=1}^n\frac{(X_k-\phi X_{k-1})^2}{2\sigma^4}\enspace. \]

D’après la première équation le maximum est atteint lorsque \[ \phi=\widehat{\phi}_n=\frac{\sum_{k=1}^nX_{k-1}X_k}{\sum_{k=1}^{n-1}X_k^2}\enspace. \] D’après la seconde, le maximum est alors atteint en \((\widehat{\phi}_n,\widehat{\sigma}_n^2)\), où \[ \widehat{\sigma}_n^2=\frac1n\sum_{k=1}^n(X_k-\widehat{\phi}_nX_{k-1})\enspace. \]

Exercice 4

1.

D’après l’inégalité de Cauchy-Schwarz, \[ {\left(\overline{{\bf t}}\right)}^2={\left(\sum_{i=1}^nn^{-1}t_i\right)}^2\le n^{-1}\sum_{i=1}^nt_i^2=s+{\left(\overline{{\bf t}}\right)}^2\enspace, \] donc \(s\ge0\).

D’après le cas d’égalité dans Cauchy-Schwarz, \(s=0\) si et seulement si \({\bf t}\) est colinéaire à \({\bf 1}\), ce qui n’est pas le cas car il existe deux indices \(i\) et \(j\) tels que \(t_i\ne t_j\).

Ainsi \(s>0\), donc non nul.

2. EMV

On rappelle d’abord la vraisemblance qu’on peut déduire des calculs de l’exercice 2 de la PC1. \[ \frac1{{\left(\sqrt{2\pi\sigma^2}^n\right)}}\exp{\left(-\frac1{2\sigma^2}\sum_{i=1}^n(Y_i-\beta_1-\beta_2t_i)^2\right)}\enspace. \] En dérivant la log-vraisemblance, on tire les équations de vraisemblance \[ \sum_{i=1}^n(Y_i-\beta_1-\beta_2t_i)=0,\qquad \sum_{i=1}^nt_i(Y_i-\beta_1-\beta_2t_i)=0\enspace, \] \[ -\frac n{2\sigma^2}+\frac1{2\sigma^4}\sum_{i=1}^n(Y_i-\beta_1-\beta_2t_i)^2=0\enspace. \]

On note aussi \({\bf Y}=(Y_1,\ldots,Y_n)\) le vecteurs des observations et \(\overline{\bf Y}=n^{-1}\sum_{i=1}^nY_i\). On peut réécrire ces équations \[ \overline{\bf Y}=\beta_1+\beta_2\overline{\bf t},\qquad {\bf t}^T{\bf Y}=n\beta_1\overline{\bf t}+\beta_2\|{\bf t}\|^2\enspace, \] \[ \| {\bf Y}-\beta_1{\bf 1}-\beta_2{\bf t}\|^2=n\sigma^2\enspace. \] Les deux premières équations donnent que le maximum est nécessairement atteint sur le plan \[ \beta_1=\widehat{\beta}_1=\frac{\|{\bf t}\|^2\overline{\bf Y}-\overline{\bf t}{\bf t}^T{\bf Y}}{\|{\bf t}\|^2-n{\left(\overline{\bf t}\right)}^2},\qquad \beta_2=\widehat{\beta}_2=\frac{{\bf t}^T{\bf Y}-n\overline{\bf t}\overline{\bf Y}}{\|{\bf t}\|^2-n{\left(\overline{\bf t}\right)}^2}\enspace. \]

D’après la dernière, le maximum de vraisemblance est le point \((\widehat{\beta}_1,\widehat{\beta}_2,\widehat{\sigma}^2)\), où \[ \widehat{\sigma}^2=\frac1{n}{\left\|{\mathbf{Y}}-\widehat{\beta}_1{\mathbf{1}}-\widehat{\beta}_2{\mathbf{t}}\right\|}^2\enspace. \]

3. Loi de \((\widehat{\beta}_1,\widehat{\beta}_2)\)

Notons \(\Pi\) la matrice de \(\text{Mat}_{2,n}({\mathbb{R}})\) \[ \Pi=\frac1{ns}\left( \begin{array}{c} \frac{{\left\|{\bf t}\right\|}^2}n{\bf 1}^T-\bar{{\bf t}}{\bf t}^T\\ {\bf t}^T-\bar{{\bf t}}{\bf 1}^T \end{array} \right)\enspace. \] Par définition, \[ \left( \begin{array}{c} \widehat{\beta}_1\\ \widehat{\beta}_2 \end{array} \right)=\Pi{\bf Y}\enspace. \]

Comme \[ {\bf Y}\sim\mathsf{N}\left(\beta_1{\bf 1}+\beta_2{\bf t}, \sigma^2I_n\right)\enspace, \] on a \[ \left( \begin{array}{c} \widehat{\beta}_1\\ \widehat{\beta}_2 \end{array} \right)\sim\mathsf{N}\left(\Pi\left( \beta_1{\bf 1}+\beta_2{\bf t}\right),\sigma^2\Pi\Pi^T\right)\enspace. \] Or, \[ \Pi{\bf 1}=\frac1{ns}\left( \begin{array}{c} \frac{{\left\|{\bf t}\right\|}^2}nn-n(\bar{{\bf t}})^2\\ n\bar{{\bf t}}-\bar{{\bf t}}n \end{array} \right)=\left( \begin{array}{c} 1\\ 0 \end{array} \right)\enspace, \] \[ \Pi{\bf t}=\frac1{ns}\left( \begin{array}{c} \frac{{\left\|{\bf t}\right\|}^2}nn\bar{{\bf t}}-\bar{{\bf t}}{\left\|{\bf t}\right\|}^2\\ {\left\|{\bf t}\right\|}^2-\bar{{\bf t}}n\bar{{\bf t}} \end{array} \right)=\left( \begin{array}{c} 0\\ 1 \end{array} \right)\enspace. \]

On a aussi \[ \Pi\Pi^T=\frac1{(ns)^2} \left( \begin{array}{cc} \frac{{\left\|{\bf t}\right\|}^4}{n^2}n+(\bar{{\bf t}})^2{\left\|{\bf t}\right\|}^4-2\bar{{\bf t}}\frac{{\left\|{\bf t}\right\|}^2}n n\bar{{\bf t}}&\frac{{\left\|{\bf t}\right\|}^2}n n\bar{{\bf t}}-\bar{{\bf t}}\frac{{\left\|{\bf t}\right\|}^2}n n-\bar{{\bf t}}{\left\|{\bf t}\right\|}^2+(\bar{{\bf t}})^2n\bar{{\bf t}}\\ \frac{{\left\|{\bf t}\right\|}^2}n n\bar{{\bf t}}-\bar{{\bf t}}\frac{{\left\|{\bf t}\right\|}^2}n n-\bar{{\bf t}}{\left\|{\bf t}\right\|}^2+(\bar{{\bf t}})^2n\bar{{\bf t}}&{\left\|{\bf t}\right\|}^2+n(\bar{{\bf t}})^2-2\bar{{\bf t}}n\bar{{\bf t}} \end{array} \right)\enspace. \] Après simplification, on obtient \[\Pi\Pi^T=\frac1{ns}\left( \begin{array}{cc} \frac{{\left\|{\bf t}\right\|}^2}{n}&-\bar{{\bf t}}\\ -\bar{{\bf t}}&1 \end{array} \right)\enspace, \] et finalement \[ \left( \begin{array}{c} \widehat{\beta}_1\\ \widehat{\beta}_2 \end{array} \right)\sim\mathsf{N}\left(\left( \begin{array}{c} \beta_1\\ \beta_2 \end{array} \right),\frac{\sigma^2}{ns}\left( \begin{array}{cc} \frac{{\left\|{\bf t}\right\|}^2}{n}&-\bar{{\bf t}}\\ -\bar{{\bf t}}&1 \end{array} \right)\right)\enspace. \]

4.

Si \(\widehat{\beta}_1\) et \(\widehat{\beta}_2\) sont indépendants, \(\text{Cov}(\widehat{\beta}_1,\widehat{\beta}_2)=0\), donc \(\bar{{\bf t}}=0\).

Réciproquement, si \(\bar{{\bf t}}=0\), la transformée de Laplace du vecteur \((\widehat{\beta}_1,\widehat{\beta}_2)\) associe à tout couple \(t_1,t_2\) de réels
\[ {\mathbb{E}}[e^{t_1\widehat{\beta}_1+t_2\widehat{\beta}_2}]=e^{t_1\beta_1+t_2\beta_2+\frac12(t_1^2\text{Var}(\widehat{\beta}_1)+t_2\text{Var}(\widehat{\beta}_2))}={\mathbb{E}}[e^{t_1\widehat{\beta}_1}]{\mathbb{E}}[e^{t_2\widehat{\beta}_2}]\enspace. \] Les variables aléatoires \(\widehat{\beta}_1\) et \(\widehat{\beta}_2\) sont indépendantes.

5. Loi de \(\widehat{\sigma}^2\)

Notons maintenant \[ \Pi_2=I_n-\frac1{ns}\left(\frac{{\left\|{\bf t}\right\|}^2}n{\bf 1}{\bf 1}^T-\bar{{\bf t}}{\bf 1}{\bf t}^T+{\bf t}{\bf t}^T-\bar{{\bf t}}{\bf t}{\bf 1}^T\right)\enspace. \] On vérifie que \[ \widehat{\sigma}^2=\frac1n{\left\|\Pi_2{\bf Y}\right\|}^2\enspace. \]

On peut vérifier que \((I_n-\Pi_2)^2=I_n-\Pi_2\), donc \(I_n-\Pi_2\) est un projecteur, comme \(I_n-\Pi_2\) est symétrique, c’est un projecteur orthogonal.

\(\Pi_2\) est donc également un projecteur orthogonal.

En outre, \[ \Pi_2{\bf 1}={\bf 1}-\frac1{ns}\left({\left\|{\bf t}\right\|}^2{\bf 1}-n(\bar{{\bf t}})^2{\bf 1}+{\bf t}n\bar{{\bf t}}-\bar{{\bf t}}{\bf t}n\right)=0 \] \[ \Pi_2{\bf t}={\bf t}-\frac1{ns}\left({\left\|{\bf t}\right\|}^2{\bf 1}\bar{{\bf t}}-\bar{{\bf t}}{\bf 1}{\left\|{\bf t}\right\|}^2+{\bf t}{\left\|{\bf t}\right\|}^2-\bar{{\bf t}}{\bf t}n\bar{{\bf t}}\right)=0\enspace. \]

Ainsi \(\Pi_2{\bf Y}=\Pi_2({\bf Y}-{\mathbb{E}}[{\bf Y}])\).

Comme l’image de \(I_n-\Pi_2\) est incluse dans l’espace engendré par \(({\bf 1},{\bf t})\), \(I_n-\Pi_2\) est de rang au plus \(2\). Donc \[ \text{rg}(\Pi_2)\ge n-\text{rg}(I_n-\Pi_2)\ge n-2\enspace.\]

Comme de plus \(\Pi_2{\bf 1}=\Pi_2{\bf t}=0\), on a \(\dim(\ker(\Pi_2))\ge 2\), donc \[ \text{rg}(\Pi_2)\le n-\dim(\ker(\Pi_2))\le n-2\enspace. \]

Donc \(\text{rg}(\Pi_2)=n-2\). On en déduit finalement \[ n\sigma^{-2}\widehat{\sigma}^2=\left\|\Pi_2{\left(\frac{{\bf Y}-{\mathbb{E}}[{\bf Y}]}{\sigma}\right)}\right\|^2\sim\chi^2(n-2)\enspace, \] et donc \[ \widehat{\sigma}^2\sim\Gamma{\left(\frac{n-2}2,\frac{n}{2\sigma^2}\right)}\enspace. \]

6.

On a \[ (I_n-\Pi_2){\mathbf{Y}}=\widehat{\beta}_1{\mathbf{1}}+\widehat{\beta}_2{\mathbf{t}}\enspace, \]

\[ \widehat{\sigma}^2=n^{-1}{\left\|\Pi_2{\mathbf{Y}}\right\|}^2\enspace. \]

Comme \(\Pi_2(I_n-\Pi_2)=0\), \((I_n-\Pi_{2}){\mathbf{Y}}\) et \(\Pi_{2}{\mathbf{Y}}\) sont indépendants, le résultat s’en déduit.

Exercice 4

1.

La fonction de répartition caractérise une loi de probabilité sur \({\mathbb{R}}\), donc la fonction \(x\mapsto {\mathbb{P}}((x,+\infty))\) aussi.

Pour la loi exponentielle \({\mathcal{E}}(\lambda)\), cette fonction vaut \(1\) pour tout \(x\le 0\) et pour tout \(x>0\), on a \[ {\mathbb{P}}_\lambda{\left(X>x\right)}=\int_{x}^{+\infty}\lambda e^{-\lambda t}dt=e^{-\lambda x}\enspace. \] Par conséquent, toute variable aléatoire telle que \[ \forall x\in {\mathbb{R}},\qquad {\mathbb{P}}{\left(X>x\right)}={\mathbf{1}}_{x\le 0}+e^{-\lambda x}{\mathbf{1}}_{x>0} \] suit la loi \({\mathcal{E}}(\lambda)\).

2.

Pour que le système fonctionne après le temps \(t\), il faut que \(X_0>t\) et \(X_1>t\). Donc \[ {\mathbb{P}}{\left(Z>t\right)}={\mathbb{P}}{\left(X_0>t\cap X_1>t\right)}={\mathbb{P}}{\left(X_0>t\right)}{\mathbb{P}}{\left(X_1>t\right)}\enspace. \] Ainsi, \[ {\mathbb{P}}{\left(Z>t\right)}=e^{-(\lambda_0+\lambda_1)t}\enspace. \] D’après la question 1., on en déduit que \(Z\sim{\mathcal{E}}(\lambda_0+\lambda_1)\).

On veut la probabilité que, si une panne survient, elle soit due à la machine 1. On cherche donc la probabilité que \(X_1<X_0\). \[ {\mathbb{P}}{\left(X_1<X_0\right)}=\int \lambda_1e^{-\lambda_1 x}{\mathbb{P}}{\left(X_0>x\right)}dx=\lambda_1\int e^{-(\lambda_0+\lambda_1)x}dx \] On a donc \[ {\mathbb{P}}{\left(X_1<X_0\right)}=\frac{\lambda_1}{\lambda_0+\lambda_1}\enspace. \]

3.

Soit \(t>0\), on a \[ {\mathbb{P}}{\left(Z>t;I=1\right)}={\mathbb{P}}{\left(\{X_1<X_0\}\cap \{X_0\wedge X_1>t\}\right)}\enspace. \] Autrement dit \[ {\mathbb{P}}{\left(Z>t;I=1\right)}={\mathbb{P}}{\left(t<X_1<X_0\right)}\enspace. \]

Cette probabilité vaut \[ {\mathbb{P}}{\left(Z>t;I=1\right)}=\int_t^{+\infty}\lambda_1e^{-\lambda_1 u}{\mathbb{P}}{\left(X_0>u\right)}du\enspace. \] Ainsi \[ {\mathbb{P}}{\left(Z>t;I=1\right)}=\frac{\lambda_1}{\lambda_0+\lambda_1}e^{-(\lambda_0+\lambda_1)t}={\mathbb{P}}{\left(Z>t\right)}{\mathbb{P}}{\left(I=1\right)}\enspace. \] De même, \[ {\mathbb{P}}{\left(Z>t;I=0\right)}={\mathbb{P}}{\left(Z>t\right)}{\mathbb{P}}{\left(I=0\right)}\enspace. \] Ainsi, \(Z\) et \(I\) sont indépendantes.

4. (a)

On a un \(n\)-échantillon du modèle \[ ({\mathbb{R}},{\mathcal{B}}({\mathbb{R}}),({\mathcal{E}}(\lambda_0+\lambda_1))_{\lambda_0,\lambda_1\in{\mathbb{R}}_+^*})=({\mathbb{R}},{\mathcal{B}}({\mathbb{R}}),({\mathcal{E}}(\lambda))_{\lambda\in{\mathbb{R}}_+^*})\enspace. \] Les paramètres \(\lambda_0\) et \(\lambda_1\) ne sont pas identifiables car pour tout \(\tau\in(0,\lambda_0)\), \({\mathcal{E}}(\lambda_0+\lambda_1)={\mathcal{E}}((\lambda_0-\tau)+(\lambda_1+\tau))\).

4. (b)

On a maintenant un \(n\)-échantillon du modèle \[ ({\mathbb{R}}\times\{0,1\},{\mathcal{B}}({\mathbb{R}})\otimes{\mathcal{P}}(\{0,1\}),({\mathcal{E}}(\lambda_0+\lambda_1)\otimes{\mathcal{B}}(\lambda_1/(\lambda_0+\lambda_1)))_{\lambda_0,\lambda_1\in{\mathbb{R}}_+^*})\enspace. \] Cette fois le modèle est identifiable car si \((\lambda_0,\lambda_1)\) et \((\lambda'_0,\lambda'_1)\) sont deux couples de paramètres tels que \[ {\mathcal{E}}(\lambda_0+\lambda_1)\otimes{\mathcal{B}}(\lambda_1/(\lambda_0+\lambda_1))={\mathcal{E}}(\lambda'_0+\lambda'_1)\otimes{\mathcal{B}}(\lambda'_1/(\lambda'_0+\lambda'_1))\enspace, \] on a \[ \lambda_0+\lambda_1=\lambda'_0+\lambda'_1,\qquad \frac{\lambda_1}{\lambda_0+\lambda_1}=\frac{\lambda'_1}{\lambda'_0+\lambda'_1} \] donc \(\lambda_0=\lambda_0'\) et \(\lambda_1=\lambda_1'\).