Virtual Laboratories > Point Estimation > [1] 2 3 4 5 6
Como de costumbre, nuestro punto de partida es un experimento aleatorio con un espacio muestral y una medida de probabilidad P. En el modelo estadístico básico, tenemos una variable aleatoria observable X que toma valores de un conjunto S. Recuerde que en general, X puede tener una estructura bastante complicada. Por ejemplo, si el experimento consiste en muestrear n objetos de una población y registrar varias medidas de interés, entonces
X = (X1, X2, ..., Xn)
donde Xi es el vector de medidas del i-ésimo objeto. El caso particular más importante es cuando X1, X2, ..., Xn son independientes e idénticamente distribuidas (IID). En este caso las n variables aleatorias de una muestra aleatoria de longitud n de la distribución común.
Recuerde también que una estadística es una función observable de la variable resultado del experimento aleatorio:
W
= h(X).Por lo tanto, una estadística es simplemente una variable aleatoria derivada de los datos de la variable X, asumiendo además que W también es observable. Tipicamente, W también es un vector.
En el sentido general, un parámetro a es una función de la distribución de X, que toma valores en un espacio del parámetro A. Usualmente, la distribución de X tendrá k parámetros reales de interés, de manera que a = (a1, a2, ..., ak), y A es un subconjunto de Rk. En muchos casos, uno o más de los parámetros son desconocidos y deben ser estimados a partir del vector resultado X. Este es uno de los problemas estadísticos básico y de mayor importancia, y es al sujeto de este capítulo.
Suponga ahora que tenemos un parámetro real a desconocido que
toma valores en un espacio del parámetro A
R. Una estadística real W que se usa para estimar al parámetro a
se llama, apropriadamente, un estimador de a. Por
consiguiente, el estimador es una variable aleatoria y por lo tanto tiene una
distribución, media, varianza, etc. Cuando llevamos a cabo el
experimento y observamos los datos, el valor observado w
(que es un número) es la estima del parámetro a.
El error (aleatorio) es la diferencia entre el estimador y el parámetro:
W
- a.El valor esperado del error se lo conoce como sesgo:
sesgo(W) = E(W - a)
1. Use
las propiedades básicas del valor
esperado para demostrar que
sesgo(W) = E(W) - a.
Así, se dice que el estimador es no sesgado si el sesgo es igual
a 0 para todos los valores de a, o de manera equivalente si el
valor esperado del estimador es igual al parámetro que está siendo estimado: E(W) = a
para a A.
La calidad del estimador se mide usualmente computando el error cuadrático medio:
ECM(W) = E[(W - a)2].
2. Use
las propiedades básicas del valor esperado y la varianza para demostrar que
ECM(W) = var(W) + sesgo2(W).
En particular, si el estimador es no sesgado, entonces el error cuadrático medio de W es simplemente la varianza de W.
Idealmente, quisieramos tener estimadores no sesgados con error cuadrático medio pequeño. Sin embargo, esto no siempre es posible, y el Ejercicio 2 muestra la delicada relación entre el sesgo y el error cuadrático medio. En la sección siguiente, veremos un ejemplo con dos estimadores que son múltiplos el uno del otro; uno es no sesgado, pero el otro tiene el error cuadrático medio más pequeño.
No obstante, si tenemos dos estimadores no sesgados de a, llamados U y V, naturalmente preferiríamos aquel que tiene la varianza más pequeña (error cuadrático medio). La eficiencia relativa de V a U es simplemente el cociente de las varianzas:
var(U) / var(V).
Considere el caso especial donde la variable de datos X tiene la forma
X = (X1, X2, ...)
y donde tenemos un parámetro real a de interés. De nuevo, ésta es la situación normal que ocurre cuando muestreamos repetidamente de una población; tipicamente, Xi es el vector de medidas del i-ésimo objeto en la muestra. Por consiguiente, para cada n, (X1, ..., Xn) son las variables de observación para la muestra de longitud n. En esta situactión, usualmente tenemos una fórmula general que define un estimador de a para cualquier longitud muestral. Técnicamente, esto da una secuencia de estimadores de a:
Wn
= hn(X1, X2, ..., Xn), n = 1, 2, ...En esta caso, podemos discutir las propiedades asintóticas de los estimadores a medida que n se incrementa. La mayoría de las definiciones son generalizaciones naturales de las que acabamos de presentar.
La secuencia de estimadores Wn se dice que es asintóticamente no sesgada para a si
sesgo(Wn) 0
a medida que n
para a
A.
3.
Demuestre que Wn
es asintóticamente no sesgada si y solo si
E
(Wn)Suponga que Un y Vn son dos secuencias de estimadores que son asintóticamente no sesgadas para a. La eficiencia relativa asintótica de Vn a Un es el siguiente límite, si este existe:
limn [var(Un) / var(Vn)].
Naturalmente, esperaremos que nuestros estimadores mejoren, en cierto sentido, a medida que n aumenta. Específicamente la secuencia de estimadores Wn se dice que es consistente para a si Wn converge a a en probabilidad a medida que n aumenta:
P
[|Wn - a| > r] 4.
Suponga que ECM(Wn)
0
a medida que n
para todo a
A.
Demuestre que Wn es consistente para a. Ayuda: Use
la desigualdad de Markov.
La condición en el Ejercicio 4 se conoce como consistencia cuadrática media. Por consiguiente, la consistencia cudrática media implica consistencia simple. Esta es simplemente la versión estadística del teorema que expone que convergencia cuadrática media implica convergencia en probabilidad.
Suponga que (X1, X2, ..., Xn) es una muestra aleatoria de longitud n de una distribución de una variable aleatoria real X con media µ y varianza d2. Recuerde que la media muestral y la varianza muestral, respectivamente, estan definidos por
Mn
= (1 / n)
Sn2 = [1 / (n - 1)]i
= 1, ..., n (Xi - Mn)2.
Las propiedades de estas estadísticas son estudiadas en detalle en el capítulo sobre Muestras Aleatorias. Aquí, redefiniremos algunas de estas propiedades en el lenguaje de estimación.
5.
Demuestre o recuerde que
6. En
el experimento
media muestral, ajuste la distribución de muestreo a gamma. Incremente la
cantidad de muestras con la barra cursora y note graficamente y numéricamente
las propiedades de no sesgo y consistencia. Corra el experimento 1000 veces
actualizando cada 10.
7.
Corra el experimento
de la estimación normal 1000 veces, actualizando cada 10 corridas, para
varios valores de los parámetros. En cada caso, compare el sesgo empírico y el
error cuadrático medio de Mn con los valores
teóricos.
La consistencia de Mn como un estimador de µ es simplemente la ley débil de los grandes números. Además, hay un número importante de casos especiales provenientes de los resultados del Ejercicio 5. Vea la sección sobre Distribuciones Empíricas en el capítulo sobre Muestras Aleatorias para mayor información.
8. En
el experimento
de coincidencias , la variable aleatoria es el número de coincidencias.
Corra la simulación 1000 veces actualizando cada 10 corridas y note la
convergencia aparente de
En los siguientes problemas, asumimos que d4 = E[(X - µ)4] es finito.
9.
Demuestre o recuerde que
10.
Corra el
experimento
exponencial 1000 veces con una frecuencia de actualización de 10. Note la
convergencia aparente de la desviación estándard muestral a la desviación
estándard de la distribución.
Recuerde que si µ es conocido, un estimador natural de d2 es
Wn2 = (1 / n)i
= 1, ..., n (Xi - µ)2.
11.
Demuestre o recuerde que
12.
Demuestre que la eficiencia relativa asintótica de Sn2
a Wn2
es 1.
13.
Corra el experimento
de la estimación normal 1000 veces, actualizando cada 10 corridas, para
varios valores de los parámetros. En cada caso, compare el sesgo empírico y el
error cuadrático medio de Sn2 y de Wn2
con sus valores teóricos. Cuál de los estimadores parece funcionar mejor?
Los estimadores de la media y la varianza que hemos considerado en esta sección han sido naturales en cierto sentido. Sin embargo, para otros parámetros, no es muy claro como encontrar un estimador razonable desde un primer momento. En las varias secciones siguientes, consideraremos el problema de construir estimadores.