Estadística: estimación de parámetros

Casi nunca podemos medir una población entera, por lo que estimamos sus parámetros a partir de una muestra. Sin embargo, no todos los estimadores son igualmente buenos: queremos un estimador insesgado y con la menor varianza posible. En esta página aprenderemos qué es un estimador insesgado, qué es la eficiencia, calcularemos el error cuadrático medio (MSE) y el error estándar de la media, y veremos cómo el tamaño de la muestra afecta la precisión.

Contexto y definiciones básicas

Parámetro es un valor numérico que describe la población (como la media \(\mu\) o la varianza \(\sigma^2\)), mientras que un estimador es una fórmula calculada a partir de la muestra que se usa para aproximar el parámetro (como la media muestral \(\bar{x}\)). El valor numérico obtenido se llama estimación puntual.

Propiedades de un buen estimador:

Insesgado (Unbiased): en promedio, sobre muchas muestras, el estimador acierta el parámetro, es decir, \( E(\hat{\theta}) = \theta \). El sesgo es \( \text{Bias} = E(\hat{\theta}) - \theta \).
Eficiencia (Efficiency): entre dos estimadores insesgados, el más eficiente es el de menor varianza — se «dispersa» menos alrededor del parámetro.

Error cuadrático medio (MSE) mide la calidad global del estimador:

\[ \text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) + \big(\text{Bias}(\hat{\theta})\big)^2 \]

Para un estimador insesgado el sesgo es cero, por lo que \( \text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) \).

La media muestral es el mejor estimador puntual de \(\mu\) y es insesgada: \( E(\bar{x}) = \mu \). Su dispersión se mide con el error estándar de la media:

\[ \text{SE}(\bar{x}) = \frac{\sigma}{\sqrt{n}} \]

La varianza insesgada de la población se estima mediante la varianza muestral, dividiendo por \((n-1)\):

\[ s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} \]

Pasos de resolución

Paso 1 — Identifica el parámetro que estás estimando (\(\mu\), \(\sigma^2\), \(p\)) y el estimador adecuado.
Paso 2 — Para verificar insesgamiento, calcula \( E(\hat{\theta}) \) y compáralo con el parámetro; si son iguales \(\Rightarrow\) insesgado.
Paso 3 — Para comparar eficiencia entre estimadores insesgados, elige el de menor varianza.
Paso 4 — Para calcular el MSE usa \( \text{Var} + \text{Bias}^2 \); si es insesgado, \( \text{MSE} = \text{Var} \).
Paso 5 — Para el error estándar de la media divide \(\sigma\) entre la raíz de \(n\): \( \text{SE} = \frac{\sigma}{\sqrt{n}} \).
Paso 6 — Para el tamaño de muestra requerido, despeja \(n\) de la ecuación del SE: \( n = \left(\frac{\sigma}{\text{SE}}\right)^2 \).

Ejemplos resueltos

Ejemplo 1: Error estándar de la media

Enunciado: En una población se sabe que la desviación estándar es \( \sigma = 20 \). Se extrae una muestra de tamaño \( n = 25 \). ¿Cuál es el error estándar de la media muestral?

Solución:

Usamos la fórmula \( \text{SE}(\bar{x}) = \frac{\sigma}{\sqrt{n}} \).
Sustituimos: \( \text{SE} = \frac{20}{\sqrt{25}} = \frac{20}{5} \).
Calculamos: \( \frac{20}{5} = 4 \).
Nota: cuanto mayor es la muestra, menor es el error estándar, porque \(\sqrt{n}\) en el denominador crece.

Respuesta: El error estándar es \( 4 \).

Ejemplo 2: Tamaño de muestra requerido

Enunciado: Se desea que el error estándar de la media no supere \( 2 \). La desviación estándar de la población es \( \sigma = 16 \). ¿Cuál es el tamaño de muestra necesario?

Solución:

Partimos de la fórmula \( \text{SE} = \frac{\sigma}{\sqrt{n}} \) y despejamos \(n\).
Despejamos la raíz: \( \sqrt{n} = \frac{\sigma}{\text{SE}} = \frac{16}{2} = 8 \).
Elevamos al cuadrado: \( n = 8^2 = 64 \).
Verificación: \( \frac{16}{\sqrt{64}} = \frac{16}{8} = 2 \) — exactamente lo requerido.

Respuesta: Se requiere una muestra de tamaño \( n = 64 \).

Ejemplo 3: Varianza muestral a partir de observaciones

Enunciado: Muestra de cuatro observaciones: \( 4, 7, 9, 12 \). Calcula la varianza muestral insesgada \( s^2 \).

Solución:

Primero la media: \( \bar{x} = \frac{4+7+9+12}{4} = \frac{32}{4} = 8 \).
Desviaciones respecto a la media: \( -4, -1, 1, 4 \); sus cuadrados: \( 16, 1, 1, 16 \).
Suma de cuadrados de las desviaciones: \( 16 + 1 + 1 + 16 = 34 \).
Dividimos entre \( (n-1) = 3 \): \( s^2 = \frac{34}{3} \approx 11.33 \).

Respuesta: \( s^2 = \frac{34}{3} \approx 11.33 \).

Ejemplo 4: MSE de un estimador insesgado

Enunciado: La media muestral \( \bar{x} \) es un estimador insesgado de \(\mu\). Dado \( \sigma = 12 \) y \( n = 9 \). ¿Cuánto vale \( \text{MSE}(\bar{x}) \)?

Solución:

Como \( \bar{x} \) es insesgado, el sesgo es cero, por tanto \( \text{MSE}(\bar{x}) = \text{Var}(\bar{x}) \).
La varianza de la media muestral es \( \text{Var}(\bar{x}) = \frac{\sigma^2}{n} \).
Sustituimos: \( \frac{12^2}{9} = \frac{144}{9} \).
Calculamos: \( \frac{144}{9} = 16 \) (nótese que también es \( \text{SE}^2 = 4^2 \)).

Respuesta: \( \text{MSE}(\bar{x}) = 16 \).

Ejemplo 5: Elegir el estimador más eficiente

Enunciado: Dos estimadores insesgados de \(\theta\): el estimador \(A\) tiene varianza \( \text{Var}(A) = 9 \) y el estimador \(B\) tiene varianza \( \text{Var}(B) = 4 \). ¿Cuál es preferible?

Solución:

Ambos estimadores son insesgados, es decir, \( E(A) = E(B) = \theta \) — no hay diferencia en sesgo.
En este caso el criterio es la eficiencia: se prefiere el estimador de menor varianza.
Como \( \text{Var}(B) = 4 \lt 9 = \text{Var}(A) \), el estimador \(B\) es más eficiente.
Para estimadores insesgados, el MSE es igual a la varianza, por lo que \(B\) también tiene menor MSE.

Respuesta: El estimador \(B\) es preferible (más eficiente, menor varianza).

Errores comunes

✗ Error común: Se calcula la varianza muestral dividiendo entre \(n\) en lugar de \((n-1)\).

✓ La forma correcta: Dividir entre \(n\) produce un estimador sesgado hacia abajo (demasiado pequeño). El estimador insesgado de la varianza poblacional usa \((n-1)\): \( s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} \).

✗ Error común: Se confunde la desviación estándar muestral \(s\) con el error estándar de la media \(\text{SE}\).

✓ La forma correcta: \(s\) describe la dispersión de las observaciones individuales, mientras que \( \text{SE} = \frac{\sigma}{\sqrt{n}} \) describe la dispersión de la media entre distintas muestras. El SE siempre es menor y disminuye al crecer \(n\).

✗ Error común: Se olvida extraer la raíz de \(n\) y se calcula \( \text{SE} = \frac{\sigma}{n} \).

✓ La forma correcta: En el denominador figura \(\sqrt{n}\), no \(n\). Por eso, cuadruplicar el tamaño de la muestra solo reduce el error estándar a la mitad, ya que \( \sqrt{4} = 2 \).

Consejos de práctica

Consejo — para reducir el error estándar a la mitad, es necesario multiplicar el tamaño de la muestra por 4, porque \(n\) está bajo la raíz.
Consejo — un buen estimador = insesgado + eficiente. Primero verifica el insesgamiento y luego compara varianzas para elegir el más eficiente.
Consejo — para recordar el MSE: \( \text{MSE} = \text{Var} + \text{Bias}^2 \). Si el estimador es insesgado, el MSE se reduce a la varianza.
Consejo — para calcular el tamaño de muestra usa directamente \( n = \left(\frac{\sigma}{\text{SE}}\right)^2 \) y redondea hacia arriba al entero más cercano.

Resumen y fórmulas clave

Estimador insesgado: \( E(\hat{\theta}) = \theta \).
Eficiencia: entre los insesgados, el más eficiente es el de menor varianza.
MSE \( = \text{Var}(\hat{\theta}) + \text{Bias}^2 \); para insesgado \( \text{MSE} = \text{Var} \).
Error estándar de la media: \( \text{SE} = \frac{\sigma}{\sqrt{n}} \).
Tamaño de muestra: \( n = \left(\frac{\sigma}{\text{SE}}\right)^2 \).
Varianza muestral: \( s^2 = \frac{\sum (x_i-\bar{x})^2}{n-1} \).