Statistique — estimation de paramètres

On ne peut presque jamais mesurer une population entière, aussi estime-t-on ses paramètres à partir d'un échantillon. Mais tous les estimateurs ne se valent pas : on veut un estimateur sans biais et dont la variance est la plus faible possible. Dans cette page, nous verrons ce qu'est un estimateur sans biais, la notion d'efficacité, le calcul de l'erreur quadratique moyenne (MSE) et de l'erreur-type de la moyenne, et l'influence de la taille d'échantillon sur la précision.

Contexte et définitions de base

Un paramètre est une valeur numérique décrivant la population (comme la moyenne \(\mu\) ou la variance \(\sigma^2\)), tandis qu'un estimateur est une formule calculée à partir de l'échantillon pour estimer ce paramètre (comme la moyenne de l'échantillon \(\bar{x}\)). La valeur numérique obtenue s'appelle estimation ponctuelle.

Propriétés d'un bon estimateur :

Sans biais (Unbiased) : en moyenne, sur de nombreux échantillons, l'estimateur atteint le paramètre, c'est-à-dire \( E(\hat{\theta}) = \theta \). Le biais est \( \text{Bias} = E(\hat{\theta}) - \theta \).
Efficacité (Efficiency) : entre deux estimateurs sans biais, le plus efficace est celui dont la variance est la plus faible — il « disperse » moins autour du paramètre.

L'erreur quadratique moyenne (MSE) mesure la qualité globale de l'estimateur :

\[ \text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) + \big(\text{Bias}(\hat{\theta})\big)^2 \]

Pour un estimateur sans biais, le biais est nul, donc \( \text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) \).

La moyenne de l'échantillon est le meilleur estimateur ponctuel de \(\mu\), et elle est sans biais : \( E(\bar{x}) = \mu \). Sa dispersion se mesure par l'erreur-type de la moyenne :

\[ \text{SE}(\bar{x}) = \frac{\sigma}{\sqrt{n}} \]

La variance sans biais de la population est estimée par la variance de l'échantillon, avec division par \((n-1)\) :

\[ s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} \]

Étapes de résolution

Étape 1 — Identifiez le paramètre à estimer (\(\mu\), \(\sigma^2\), \(p\)) et l'estimateur approprié.
Étape 2 — Pour vérifier l'absence de biais, calculez \( E(\hat{\theta}) \) et comparez au paramètre ; égaux \(\Rightarrow\) sans biais.
Étape 3 — Pour comparer l'efficacité entre estimateurs sans biais, choisissez celui dont la variance est la plus faible.
Étape 4 — Pour calculer le MSE, utilisez \( \text{Var} + \text{Bias}^2 \) ; si sans biais, \( \text{MSE} = \text{Var} \).
Étape 5 — Pour l'erreur-type de la moyenne, divisez \(\sigma\) par \(\sqrt{n}\) : \( \text{SE} = \frac{\sigma}{\sqrt{n}} \).
Étape 6 — Pour la taille d'échantillon requise, isolez \(n\) dans l'équation de SE : \( n = \left(\frac{\sigma}{\text{SE}}\right)^2 \).

Exemples résolus

Exemple 1 : Erreur-type de la moyenne

Énoncé : Pour une population, on sait que l'écart-type est \( \sigma = 20 \). On prélève un échantillon de taille \( n = 25 \). Quelle est l'erreur-type de la moyenne de l'échantillon ?

Solution :

On utilise la formule \( \text{SE}(\bar{x}) = \frac{\sigma}{\sqrt{n}} \).
On substitue : \( \text{SE} = \frac{20}{\sqrt{25}} = \frac{20}{5} \).
On calcule : \( \frac{20}{5} = 4 \).
Remarque : plus l'échantillon est grand, plus l'erreur-type est petite — car \(\sqrt{n}\) au dénominateur augmente.

Réponse : L'erreur-type est \( 4 \).

Exemple 2 : Taille d'échantillon requise

Énoncé : On souhaite une erreur-type de la moyenne ne dépassant pas \( 2 \). L'écart-type de la population est \( \sigma = 16 \). Quelle taille d'échantillon est requise ?

Solution :

On part de la formule \( \text{SE} = \frac{\sigma}{\sqrt{n}} \) et on isole \(n\).
On isole la racine : \( \sqrt{n} = \frac{\sigma}{\text{SE}} = \frac{16}{2} = 8 \).
On élève au carré : \( n = 8^2 = 64 \).
Vérification : \( \frac{16}{\sqrt{64}} = \frac{16}{8} = 2 \) — exactement ce qui est requis.

Réponse : Un échantillon de taille \( n = 64 \) est requis.

Exemple 3 : Variance de l'échantillon à partir des observations

Énoncé : Un échantillon de quatre observations : \( 4, 7, 9, 12 \). Calculez la variance de l'échantillon sans biais \( s^2 \).

Solution :

D'abord la moyenne : \( \bar{x} = \frac{4+7+9+12}{4} = \frac{32}{4} = 8 \).
Écarts à la moyenne : \( -4, -1, 1, 4 \) ; leurs carrés : \( 16, 1, 1, 16 \).
Somme des carrés des écarts : \( 16 + 1 + 1 + 16 = 34 \).
On divise par \( (n-1) = 3 \) : \( s^2 = \frac{34}{3} \approx 11{,}33 \).

Réponse : \( s^2 = \frac{34}{3} \approx 11{,}33 \).

Exemple 4 : MSE d'un estimateur sans biais

Énoncé : La moyenne de l'échantillon \( \bar{x} \) est un estimateur sans biais de \(\mu\). On donne \( \sigma = 12 \) et \( n = 9 \). Quel est \( \text{MSE}(\bar{x}) \) ?

Solution :

Comme \( \bar{x} \) est sans biais, le biais est nul, donc \( \text{MSE}(\bar{x}) = \text{Var}(\bar{x}) \).
La variance de la moyenne de l'échantillon est \( \text{Var}(\bar{x}) = \frac{\sigma^2}{n} \).
On substitue : \( \frac{12^2}{9} = \frac{144}{9} \).
On calcule : \( \frac{144}{9} = 16 \) (notez que c'est aussi \( \text{SE}^2 = 4^2 \)).

Réponse : \( \text{MSE}(\bar{x}) = 16 \).

Exemple 5 : Choisir l'estimateur le plus efficace

Énoncé : Deux estimateurs sans biais de \(\theta\) : l'estimateur \(A\) a une variance \( \text{Var}(A) = 9 \), l'estimateur \(B\) a une variance \( \text{Var}(B) = 4 \). Lequel est préférable ?

Solution :

Les deux estimateurs sont sans biais, c'est-à-dire \( E(A) = E(B) = \theta \) — pas de différence de biais.
Dans ce cas, le critère est l'efficacité : on préfère l'estimateur dont la variance est la plus faible.
Comme \( \text{Var}(B) = 4 \lt 9 = \text{Var}(A) \), l'estimateur \(B\) est plus efficace.
Pour des estimateurs sans biais, le MSE est égal à la variance, donc \(B\) a aussi un MSE plus faible.

Réponse : L'estimateur \(B\) est préférable (plus efficace, variance plus faible).

Erreurs fréquentes

✗ Erreur fréquente : On calcule la variance de l'échantillon en divisant par \(n\) au lieu de \((n-1)\).

✓ La bonne méthode : Diviser par \(n\) donne un estimateur biaisé vers le bas (trop petit). L'estimateur sans biais de la variance de la population utilise \((n-1)\) : \( s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} \).

✗ Erreur fréquente : On confond l'écart-type de l'échantillon \(s\) et l'erreur-type de la moyenne \(\text{SE}\).

✓ La bonne méthode : \(s\) décrit la dispersion des observations individuelles, tandis que \( \text{SE} = \frac{\sigma}{\sqrt{n}} \) décrit la dispersion de la moyenne entre les échantillons. L'erreur-type est toujours plus petite et diminue encore quand \(n\) augmente.

✗ Erreur fréquente : On oublie de prendre la racine carrée de \(n\) et on calcule \( \text{SE} = \frac{\sigma}{n} \).

✓ La bonne méthode : Le dénominateur est \(\sqrt{n}\) et non \(n\). Ainsi, multiplier la taille de l'échantillon par \(4\) ne divise l'erreur-type que par \(2\), car \( \sqrt{4} = 2 \).

Conseils d'entraînement

Conseil — Pour diviser l'erreur-type par \(2\), il faut multiplier la taille de l'échantillon par \(4\), car \(n\) est sous une racine.
Conseil — Un bon estimateur = sans biais + efficace. Vérifiez d'abord l'absence de biais, puis comparez les variances pour choisir le plus efficace.
Conseil — Pour retenir le MSE : \( \text{MSE} = \text{Var} + \text{Bias}^2 \). Si l'estimateur est sans biais, le MSE se réduit à la variance.
Conseil — Pour calculer la taille d'échantillon, utilisez directement \( n = \left(\frac{\sigma}{\text{SE}}\right)^2 \) et arrondissez à l'entier supérieur.

Résumé et formules clés

Estimateur sans biais : \( E(\hat{\theta}) = \theta \).
Efficacité : parmi les estimateurs sans biais, le plus efficace est celui dont la variance est la plus faible.
MSE \( = \text{Var}(\hat{\theta}) + \text{Bias}^2 \) ; sans biais \( \Rightarrow \text{MSE} = \text{Var} \).
Erreur-type de la moyenne : \( \text{SE} = \frac{\sigma}{\sqrt{n}} \).
Taille d'échantillon : \( n = \left(\frac{\sigma}{\text{SE}}\right)^2 \).
Variance de l'échantillon : \( s^2 = \frac{\sum (x_i-\bar{x})^2}{n-1} \).