TD12 - Estimation

👍
1. Soit $f$ une fonction continue sur $[0,1]$. Rappeler quelle est la limite de la suite de terme général $u_n=\dfrac 1n\dsum_{k=1}^n f\left(\frac kn\right)$.
2. En déduire $\dlim_{n\to +\infty}\dsum_{k=1}^n\dfrac 1{n+k}$.
  On considère une suite de variables aléatoires indépendantes $(X_k)_{k\in\N^*}$ suivant la même loi d'espérance $m$ et de variance $\sigma^2$. On pose $Y_n=\dsum_{k=1}^{n}\dfrac{X_k}{n+k}$.
3. Montrer que $Y_n$ est un estimateur de $m$.
4. Calculer $\dlim_{n\to +\infty}\E(Y_n)$ et déterminer un équivalent de $\V(Y_n)$ quand $n\to +\infty$.
5. En déduire une constante $\alpha$ telle que $Z_n=\alpha Y_n$ est un estimateur asymptotiquement sans biais de $m$.
6. Donner une expression du risque quadratique de $Z_n$ pour l'estimation de $m$ et montrer que cette suite d'estimateurs est convergente.
👍 Soit $p\in]0,1[$.
1. Soit $x\in[0,1[$. Montrer que pout tout $t\in[0,x]$, $0\leq \dfrac{x-t}{1-t}\leq x$. En utilisant une formule de Taylor, en déduire que: $$-\ln(1-x)=\dsum_{k=1}^{+\infty}\dfrac{x^k}k$$
  Soit $X$ une variable aléatoire réelle à valeurs dans $\N^*$ dont la loi est donnée par, $\forall k\in\N^*$, $$\Pb([X=k])=-\dfrac{(1-p)^k}{k\ln(p)}$$
2. Montrer que pour $r\in\N^*$, $\E(X^r)$ existe.
3. Calculer $\E(X)$ et $\E(X^2)$.
  Soit $X_1,...,X_n$ un échantillon de cette loi.
4. Justifier que les suites de v.a.r de termes généraux $U_n=\dfrac 1n\left(\dsum_{k=1}^nX_k\right)$ et $V_n=\dfrac 1n\left(\dsum_{k=1}^nX_k^2\right)$ convergent en probabilité vers $\E(X)$ et $\E(X^2)$.
5. Montrer que la suite de terme général $\ln(U_n)-\ln(V_n)$ converge en probabilité vers $\ln(p)$.
6. En déduire que $\dfrac {\dsum_{k=1}^nX_k}{\dsum_{k=1}^nX_k^2}$ est un estimateur convergent de $p$.
👍 On étudie dans une population une grandeur $X$ suivant une loi uniforme sur un intervalle de longueur $1$ : $[ \theta, \theta +1]$ et on cherche à estimer $\theta$.
On considère donc un échantillon $(X_1,\ldots,X_n)$ indépendant extrait de la loi uniforme sur $[\theta , \theta +1]$.
On pose $\disp S_n= \max_{1 \leq i \leq n} X_i$ et $\disp I_n= \min_{1 \leq i \leq n} X_i$.
1. Déterminer la loi de $S_n$, son espérance et sa variance.
2. En remarquant que $\disp I_n=-\max_{1 \leq i \leq n}(- X_i)$, donner l'espérance et la variance de $I_n$.
3. On pose, pour $\alpha \in [0,1]$, $\Theta_n(\alpha) = \alpha (S_n -1) + (1 - \alpha )I_n$.
  1. Déterminer $\alpha$ pour que $\Theta_n(\alpha)$ soit un estimateur sans biais de $\theta$. On note $\Theta_n$ l'estimateur ainsi obtenu.
  2. En admettant que $\disp \text{cov}(S_n , I_n) = \frac{1 }{ {(n+1)^2(n+2)}}$, calculer la variance de $\Theta_n$.
4. On pose $\disp \overline{X_n} = \frac{1 }{ n} \sum_{i=1}^n X_i $ et $\Theta_n' = \overline{X_n}-\frac{1 }{ 2}$.
  1. Montrer que $\Theta_n'$ est un estimateur sans biais et convergent de $\theta$.
  2. Si vous deviez estimer $\theta$, quel estimateur choisiriez-vous et pourquoi?
👍 Toutes les variables aléatoires de cet exercice sont définies sur un espace probabilisé $(\Omega,\mathcal{A},\Pb)$.
1. On note $F$ la fonction définie sur $\R$ par : $$F(x)=\left\{\begin{array}{ccc}0&\text{ si }& x\le -1\\\frac 12\left(x+1\right)^2&\text{ si }&-1< x\le 0\\\\1-\frac 12\left(x-1\right)^2&\text{ si }&0 < x <1\\1& \text{ si }&x\ge 1\end{array}\quad\right.$$
  1. Démontrer que $F$ est de classe $C^1$ sur $\R$.
  2. On note $f$ la fonction dérivée de $F$ et, pour tout nombre réel $\theta$, $f_{\theta}$ la fonction définie sur $\R$ par : $$\forall x\in\R,\quad f_{\theta}(x)=f(x-\theta).$$ Vérifier que $f_{\theta}$ est une densité de probabilité.
  3. Soit $X$ une variable aléatoire définie sur un espace probabilisé $(\Omega,\mathcal{A},\Pb)$, admettant $f_{\theta}$ pour densité.
    Montrer que $X$ possède une espérance et une variance et les calculer.
2. Soit $\left(X_n\right)_{n\in\N^*}$ une suite de variables aléatoires, définies sur $(\Omega,\mathcal{A},\Pb)$, indépendantes, de même loi, admettant pour densité $f_{\theta}$.
  Pour tout entier $n\ge 1$, on note $$U_n=\inf\left(X_1,\:X_2,\:\dots,\:X_n\right)\text{ et }V_n=\sup\left(X_1,\:X_2,\:\dots,\:X_n\right)$$
  1. Exprimer, à l'aide de $F$, $\theta$ et $n$, les fonctions de répartition de $U_n$ et $V_n$.
  2. Justifier, pour tout $\epsilon\in ]0,1[$, l'inégalité : $$\Pb\left(\left[-1+\theta\le U_n< -1+\theta +2\epsilon\right]\cap\left[1+\theta -2\epsilon < V_n\le 1+\theta\right]\right)\le \\ \Pb\left(\left[\left|\frac {U_n+V_n}{2}-\theta \right|<\epsilon\right]\right).$$
  3. En déduire que $\left(\dfrac{U_n+V_n}{2}\right)_{n\geq 1}$ converge en probabilité vers $\theta$. Que peut-on en déduire pour l'estimation de $\theta$?
😨 On veut estimer $g(\theta)$, où $\theta$ est le paramètre d'une loi discrète. Soit $(X_{1},...,X_{n})$ un $n$-échantillon de cette loi et $S_{n}$ un estimateur de $g(\theta)$.
On suppose que la "statistique" $S_n$ est exhaustive i.e. pour tout $k\in\zint{1,n}$ et $x$ tel que $\Pb([S_n=x])\neq 0$, la loi de $(X_1,...,X_n)$ sachant $[S_n=x]$ ne dépendant pas de $\theta$.

Soit $T_n=\varphi_n(X_{1},...,X_{n})$ soit un autre estimateur de $g(\theta)$, sans biais admettant aussi une variance.
Pour tout $x\in S_n(\Omega)$, on pose $f_n(x)=\E_{[S_n=x]}(T_n)$ avec la convention habituelle si $\Pb([S_n=x])=0$.
1. Un exemple. On suppose que la loi est la loi binomiale de paramètre $(r,\theta)$ et on pose $S_n=\dsum_{k=1}^n X_k$. Montrer que $S_n$ est exhaustive.
2. Montrer que pour tout $x\in S_n(\Omega)$, $f_n(x)$ ne dépend pas de $\theta$.
3. Pour tout $x\in S_n(\Omega)$, justifier l'inégalité: $\E_{[S_n=x]}(T_n^2)\geq (f_n(x))^2$.
4. En déduire que $$\V(T_n)\geq \E\left((f_n(S_n))^2\right)-(g(\theta))^2$$
5. Montrer que $\E\left(f_n(S_n)\right)=g(\theta)$, comparer $\V(T_n)$ et $\V(f_n(S_n))$. Comparer alors les risques quadratiques des estimateurs $T_n$ et $f_n(S_n)$ de $g(\theta)$. Conclusion?
👍 - - Soit $T$ une variable aléatoire qui suit la loi normale centrée, de variance $\sigma^2$ inconnue, $\sigma$ étant un réel strictement positif. Pour $n$ entier supérieur ou égal à $2$, on dispose d'un $n$-échantillon indépendant, identiquement distribué (i.i.d.), $T_1, T_2,\dots,T_n$ de la loi de $T$. On considère la variable aléatoire $S_n$ définie par: $\displaystyle S_n={1\over n}\sum_{i=1}^nT_i^2$.
On considère aussi $n$ variables aléatoires indépendantes $U_1, U_2,\dots,U_n$ de i.i.d de loi normale $(0,1)$. On pose: $\displaystyle W_n=\sum_{i=1}^n U_i^2$.
1. Déterminer la loi de $\frac 12U_i^2$ et en déduire celle de $W_n$.
2. Montrer que $S_n$ est un estimateur sans biais et convergent du paramètre $\sigma^2$.
3. Soit $\alpha$ un réel vérifiant: $0 <\alpha< 1$. Justifier qu'il existe un réel $k_\alpha$ unique strictement positif tel que: $\Pb([W_n\ge k_\alpha]) = 1-\alpha$.
4. Montrer que l'intervalle $\displaystyle \left]0,{nS_n\over k_\alpha}\right]$ est un intervalle de confiance de $\sigma^2$ au risque $\alpha$.
😨 - - On possède $n$ urnes ($n\ge 3$) numérotées de $1$ à $n$, dans lesquelles on répartit au hasard et de façon indépendante, $m$ boules indiscernables ($m\ge 4$), de sorte que, pour tout $i$ de $\zint{1,n}$, la probabilité pour chaque boule d'être placée dans l'urne numéro $i$ soit égale à $1/n$.
On suppose que cette expérience est modélisée par un espace probabilisé $(\Omega,\A, \Pb)$. À l'issue de cette expérience, on pose pour tout $i$ de $\zint{1,n}$: $$X_i=\begin{cases} 1&\text{ si l'urne }i\text{ est vide}\\ 0 &\text{ sinon}\end{cases}$$ On pose $\displaystyle W_n = \sum_{i=1}^nX_i$.
1. Déterminer pour tout $i$ de $\zint{1,n}$, la loi de la variable aléatoire $X_i$.
  1. Pour tout couple $(i,j)$ d'entiers de $\zint{1,n}$ distincts, calculer $\Pb([X_i = 1]\cap [X_j=1])$, ainsi que la covariance de $X_i$ et $X_j$. Les variables aléatoires $X_i$ et $X_j$ sont-elles indépendantes ?
  2. Exprimer l'espérance $\E(W_n)$ de $W_n$ en fonction de $n$ et $m$.
2. On note $\V(W_n)$ la variance de $W_n$.
  1. Calculer $\V(W_n)$ en fonction de $n$ et $m$.
  2. Vérifier l'égalité: $\displaystyle \E(W_n) - \V(W_n) = n^2\Bigl(1-{1\over n}\Bigr)^{2m}-n(n-1)\Bigl(1-{2\over n}\Bigr)^m$ .
  3. En déduire que $\E(W_n)-\V(W_n)\ge 0$.
3. Dans cette question, l'entier $m$ vérifie $m=\entiere{n\ln n+\theta n}$, où $\theta$ est une constante réelle positive et $\entiere x$ désigne la partie entière de $x$.
  1. Calculer $\displaystyle \lim_{n\to+\infty} E(W_n)$.
  2. Montrer que $\displaystyle \lim_{n\to+\infty}\bigl(\E(W_n)-\V(W_n)\bigr) = 0$.
  3. Soit $T_n$ une variable aléatoire qui suit une loi de Poisson de paramètre $\mu_n=E(W_n)$.
    On admet que pour tout $k$ de $\N$, on a: $$\left|\Pb([W_n=k])-\Pb([T_n=k])\right|\le\min\Bigl(1,{1\over \mu_n}\Bigr)\times\bigl(\mu_n-\V(W_n)\bigr)$$
    Quelle est la limite en loi de la suite de variables aléatoires $(W_n)_{n\ge 3}$ ?
4. On pose $\mu=\e^{-\theta}$, et on suppose que le paramètre $\mu$ est inconnu. Dans cette question, on veut estimer $\mu$.
  Pour $p$ entier de $\N^*$, on considère un $p$-échantillon indépendant, identiquement distribué $(T_1,T_2,\dots,T_p)$ de la loi de Poisson de paramètre $\mu$. On pose: $$\overline{T_p}={1\over p}\sum_{i=1}^pT_i\text{ et } U_p=\sqrt p{\overline{T_p}-\mu\over\sqrt\mu}$$
  1. Montrer que $\overline{T_p}$ est un estimateur sans biais et convergent du paramètre $\mu$.
  2. Quelle est la limite en loi de la suite de variables aléatoires $(U_p)_{p\ge 1}$ ?
  3. On veut construire, pour $p$ assez grand, un intervalle de confiance asymptotique du paramètre $\mu$ au risque $\alpha$ donné. Soit $u$ le réel strictement positif tel que $P([U\ge u])={\alpha/ 2}$ où $U$ est une variable aléatoire qui suit la loi normale centrée réduite.
    Justifier que pour $p$ assez grand, on peut écrire: $\Pb([\left|U_p\right|\le u])=1-\alpha$, et déterminer alors un intervalle de confiance asymptotique $[I_p, J_p]$ pour l'estimation de $\mu$ au niveau de risque $\alpha$.
👨‍🏫
😨
- On considère un espace probabilisé $(\Omega,\A,\Pb)$ et $(X_k)_{k\geq 1}$ est une suite de variables aléatoires réelles, continues, i.i.d., de fonction de répartition $F$.
  Pour tout $\omega\in\Omega$, on ordonne $X_1(\omega),...,X_n(\omega)$ dans l'ordre croissant et on note alors $X_{(1),n}(\omega),...,X_{(n),n}(\omega)$ les valeurs obtenues. En particulier $X_{(1),n}(\omega)$ est la plus petite des valeurs $X_1(\omega),...,X_n(\omega)$ et $X_{(n),n}$ la plus grande.
- On note aussi pour tout $\omega\in\Omega$ et $x$ réel, $N_{x,n}(\omega)$ le nombre d'indices $k$ compris entre $1$ et $n$ tels que $X_k(\omega)\leq x$.
1. Déterminer la loi de probabilité de $N_{x,n}$, son espérance et sa variance. Montrer que pour tout $x\in\R$,$\left(\dfrac{N_{x,n}}n\right)_{n\geq 1}$ converge en probabilité vers $F(x)$, puis en loi vers $F(x)$.
2. 1. A quel événement défini à partir de la variable $N_{x,n}$, l'événement $[X_{(k),n}\leq x]$ est-il égal?
  2. En déduire que $\disp\Pb([X_{(k),n}\leq x])=\sum_{r=k}^n \left(\begin{array}{c}n \\ r \end{array}\right)(F(x))^r(1-F(x))^{n-r}$ et que $X_{(k),n}$ est une variable aléatoire réelle continue.
  Soit $q\in]0,1[$. On suppose qu'il existe un unique $\beta$ tel que $F(\beta)=q$. On pose $q_n=\entiere{nq}$ et $Y_n=X_{(q_n),n}$.
3. En utilisant la question 1, montrer que $(Y_n)_{n\geq 1}$ converge en probabilité vers $\beta$.
4. On souhaite estimer $\beta$ par intervalle de confiance. Soit $a_n$ un entier naturel plus grand que $2$ tel que $1\leq q_n-a_n$ et $q_n+a_n\leq n$.
  1. Montrer que: $$\Pb\left(\left[\beta\in [X_{(q_n-a_n),n},X_{(q_n+a_n),n}]\right]\right)\geq\Pb\left([|N_{\beta,n}-q_n|< a_n]\right)\geq \Pb\left([|N_{\beta,n}-nq|< a_n-1]\right)$$
  2. En déduire que si $a_n=\entiere{2+\sqrt{n\frac{q(1-q)}{\alpha}}}$, alors $\left[X_{(q_n-a_n),n},X_{(q_n+a_n),n}\right]$ est un intervalle de confiance d'estimation de $\beta$ au niveau de risque $\alpha$.
5. En utilisant la fonction de tri $\tt{gsort}$, réaliser la simulation de $Y_n$ pour $q=\frac 14$, $n=200$ lorsque la loi commune est la loi normale $(0,1)$. Comparer cette valeur à la valeur du premier quartile de la loi normale ($q$ tel que $\Phi(q)=\frac 14$) obtenu en utilisant la fonction $\tt{cdfnor}$.
6. On veut estimer par intervalle de confiance, le paramètre $\theta$ d'une loi de Cauchy dont une ddp $f$ est définie sur $\R$ par, $f:t\mapsto \dfrac{\theta}{\pi(t^2+{\theta}^2)}$.
  1. Déterminer, en fonction de $\theta$, l'unique réel $\beta$ tel que $F(\beta)=\frac 34$.
  2. En déduire un intervalle de confiance d'estimation de $\theta$ au niveau de risque $\alpha$.
👍 - - Un sondage consiste à proposer l'affirmation $\mathcal{A}$ à certaines personnes d'une population donnée. Le sujet abordé étant délicat, le stratagème suivant est mis en place afin de mettre en confiance les personnes sondé es pour qu'elles ne mentent pas.
- L'enquêteur dispose d'un paquet de $20$ cartes, numérotées de $1$ à $20$, qu'il remet à la personne sondée.
- Celle-ci tire une carte au hasard et ne la montre pas à l'enquêteur.
- La règle est alors la suivante:
  - si la carte porte le numéro $1$, la personne sondée répond "vrai" si elle est d'accord avec l'affirmation $\mathcal{A}$ et 'faux" sinon.
  - si la carte porte un autre numéro, la personne sondée répond "vrai" si elle n'est pas d'accord avec l'affirmation $\mathcal{A}$ et 'faux" sinon.
Le but de l'enquête est d'évaluer la proportion $p$ de gens de cette population qui sont réellement d'accord avec l'affirmation $\mathcal{A} $.
1. On interroge une personne selon ce procédé et on considère l'événement suivant, noté $V$: "la personne répond 'vrai' ". On note $\theta =\Pb(V)$.
  En utilisant la formule des probabilités totales, exprimer $\theta $ en fonction de $p$, puis en déduire $p$ en fonction de $\theta$.
2. Certaines considérations théoriques laissent penser que $p=\dfrac{17}{% 18}$.
  1. Vérifier que $\theta =\dfrac{1}{10}$.
  2. Calculer la probabilité pour qu'une personne ayant répondu 'vrai' soit d'accord avec l'affirmation $\mathcal{A}$.
  On revient au cas général où l'on ne connaît ni $p$, ni $\theta $.
3. On considère un échantillon aléatoire, de taille $n$, extrait de la population considérée et on note $S_{n}$, le nombre de réponses 'vrai' obtenues. On suppose $n$ assez grand pour pouvoir considérer que cet échantillonnage est assimilable à un tirage avec remise.
  1. Donner la loi de $S_{n}$ ainsi que son espérance et sa variance.
  2. Justifier que $\dfrac{S_{n}}{n}$, est un estimateur sans biais et convergent de $\theta $.
4. Dans cette question, on suppose que l'on a réalisé un échantillon de $% 100$ personnes et on constate que $23$ personnes ont répondu "vrai".
  1. Donner une estimation ponctuelle de $\theta $ et de $p$.
  2. Donner un intervalle de confiance à $95\%$ de $\theta $ puis de $p$.