Virtual Laboratories > Point Estimation > 1 2 [3] 4 5 6
Suponga nuevamente que tenemos una variable aleatoria observable X para un experimento, que toma valores en un conjunto S. Suponga también que la distribución de X depende de un parámetro desconocido a, que toma valores en el espacio del parámetro A. Específicamente, denotaremos la función densidad de X a x por f(x | a). En general, X y a son vectores.
La función probabilidad L es la función obtenida de intercambiar los roles de x y a; esto es, vemos a a como la variable y a x como la información dada (lo cual es precisamente el punto de vista en estimación):
L(a | x) = f(x | a)
para a
A y x
S.
En el método de máxima probabilidad, tratamos de encontrar un valor u(x) del parámetro a que maximiza L(a | x) para cada x en S. Si podemos hacer esto, entonces u(X) es llamado estimador de máxima probabilidad de a. El método apela a la intuición--tratamos de encontrar los valores de los parámetros que habrían producido mas frecuentemente los datos que de hecho observamos.
Puesto que la función logaritmo natural ln es estrictamente creciente, el máximo valor de L(a | x), si este existe, ocurrirá en el mismo punto que el máximo valor de ln[L(a | x)]. Esta última función es llamada función probabilidad logaritmica (log) y en en muchos casos es más fácil trabajar con esta función que con la función probabilidad (usualmente debido a que la función densidad f(x | a) tiene una estructura de producto).
Un caso especial importante es cuando a = (a1, a2,
..., ak) es un vector de k parámetros reales,
de manera que A
Rk.
En este caso, el problema de máxima probabilidad es maximizar una
función de varias variables. Si A es un conjunto continuo, los
métodos del cálculo integrodiferencial pueden ser usados: si el máximo valor ocurre en un punto a
en el interior de A, entonces L(· | x)
tiene un máximo local en a
y por lo tanto
(d/dai)L(a | x) = 0 para i = 1, 2, ..., k.
Por otro lado, el máximo valor puede llegar a ocurrir en un punto de la frontera de A, o puede llegar a no existir después de todo.
Considere el siguiente caso en donde X = (X1, X2, ..., Xn) es una muestra aleatoria de longuitud n proveniente de la variable aleatoria X cuya función densidad es g(x | a). Entonces la densidad conjunta de X es el producto de las densidades marginales, por lo tanto la función probabilidad en este caso especial se convierte en
L(a | x) = f(x | a) = g(x1 | a)g(x2 | a)···g(xn | a) donde x = (x1, x2, ..., xn).
En las siguientes subsecciones, estudiaremos la estimación de máxima probabilidad en una serie de casos clásicos.
Suponga que tenemos una moneda con una probabilidad p de caras desconocida. Tiramos la moneda n veces y anotamos la secuencia de caras y secas. Asi, los datos (I1, I2, ..., In) son una muestra aleatoria de longitud n proveniente de la distribución de Bernoulli con un parámetro de éxito p. Sea Xn = I1 + I2 + ··· + In que denota el número de caras y Mn = Xn / n la proporción de caras (la media muestral).
1.
Suponga que p
varia entre (0, 1). Demuestre que el estimador de máxima probabilidad de p
es Mn.
Recuerde que Mn es también el estimador según el método de los momentos de p.
2.
Suponga que la moneda puede ser de cara y seca (justa) o de dos caras, entonces p
varía entre {1/2, 1}. Demuestre que el estimador de máxima probabilidad de p
es el dado a continuación e interprete el resultado:
Un = 1 si Xn = n; Un = 1/2 si Xn < n.
Los ejercicios 1 y 2 muestran que el estimador de máxima probabilidad de un parámetro, como la solución de cualquier problema de maximización, depende críticamente del dominio.
3.
Demuestre que
4.
Demuestre que
5.
Demuestre que Un
es uniformente mejor que Mn en el espacio del parámetro {1/2, 1}.
En los ejercicios siguientes, recuerde que si (X1, X2, ..., Xn) es una muestra aleatoria proveniente de una distribución con media µ y varianza d2, entonces los estimadores del método de los momentos de µ y d2 son, respectivamente,
Por supuesto, Mn es la media muestral y Tn2 = (n - 1)Sn2 / n donde Sn2 es la varianza muestral.
6.
Suponga que (X1,
X2, ..., Xn) es una muestra
aleatoria proveniente de la distribución
de Poisson con un parámetro desconocido a
> 0. Demuestre que el estimador de máxima probabilidad de a es Mn.
7.
Suponga que (X1,
X2, ..., Xn) es una muestra aleatoria
proveniente de una distribución
normal con media desconocida µ en R y varianza d2 > 0.
Demuestre que los estimadores de máxima probabilidad de µ y d2
son respectivamente Mn y Tn2.
8.
Suponga que (X1,
X2, ..., Xn) es una muestra aleatoria
proveniente de la distribución
gamma con un parámetro de forma k conocidon y un parámetro
de escala desconocido b > 0. Demuestre que el estimador de máxima probabilidad
de b es Vn = Mn / k.
9.
Corra el experimento
de la estimación gamma 1000 veces, actualizando cada 10 corridas, para
diferentes valores del parámetro de forma k y del parámetro de
escala b. En cada caso, compare el estimador del método de los momentos
Un con el estimador de máxima probabilidad
Vn. ¿Cuál de los estimadores parece funcionar mejor en
términos de error cuadrático medio?
10.
Suponga que (X1,
X2, ..., Xn) es una muestra aleatoria
proveniente de la distribución
beta con parametros a > 0 y b = 1. Demuestre
que el estimador de máxima probabilidad de a es
Vn = -n / j
= 1, ..., n ln(Xj).
11.
Corra el experimento
de la estimación beta 1000 veces, actualizando cada 10 corridas, para
diferentes valores de a. En cada caso, compare el estimador del método de los momentos
Un
con el estimador de máxima probabilidad
Vn. ¿Cuál de los estimadores parece funcionar mejor en
términos de error cuadrático medio?
12.
Suponga que (X1,
X2, ..., Xn) es una muestra aleatoria
proveniente de la distribución
Pareto con parámetro de forma a > 0. Demuestre que el estimador de máxima probabilidad
de a es
Vn = n / j
= 1, ..., n ln(Xj).
En esta sección estudiaremos un problema de estimación que sirve para aclarar los conceptos vistos. En cierto sentido, este problema de estimación es el análogo contínuo de un problema de estimación estudiado en la sección sobre Estadísticas de Orden en el capítulo Modelos de Muestreo Finito.
Suponga que (X1, X2, ..., Xn) es una muestra aleatoria con una distribución uniforme en el intervalo [0, a], donde a > 0 es un parámetro desconocido.
13.
Demuestre que el estimador según el método de los momentos de a es Un = 2Mn.
14.Demuestre
que Un
es no sesgado.
15.
Demuestre que var(Un)
= a2 / 3n, por lo tanto Un
es consistente.
16.
Demuestre que el estimador de máxima probabilidad de a es X(n)
la n-ésima estadística
de orden.
17.
Demuestre que E[X(n)]
= na / (n + 1), por lo tanto Vn = (n + 1)X(n)
/ n es no sesgado.
18.
Demuestre que var[Vn]
= a2 / [n(n + 2)], entonces Vn
es consistente.
19.
Demuestre que la eficiencia relativa asintótica de Vn a Un
es infinita.
El último ejercicio muestra que Vn es mucho mejor estimador que Un; de hecho, un estimador tal como Vn, cuyo error cuadrático medio decrece en un orden de 1 / n2, es llamado super eficiente. Ahora, habiendo encontrado un estimador realmente bueno, veamos si podemos encontrar uno realmente malo. Un candidato natural es un estimador basabo en X(1), la primera estadística de orden.
20.
Demuestre que X(1)
tiene la misma distribución que a - X(n).
21.
Demuestre que E[X(1)]
= a / (n + 1) y de ahí Wn = (n + 1)X(1)
es no sesgado.
22.
Demuestre que var[Wn]
= na2 / (n + 2), asi que Wn
no es siquiera consistente.
23.
Corra el experimento
de la distribución uniforme 1000 veces, actualizando cada 10 corridas,
para diferentes valores de a. En cada caso, compare el sesgo
empírico y el error cuadrático medio de los estimadores con sus valores
teóricos. Clasifique los estimadores en términos de error cuadrático medio
empírico.
Volviendo al marco general, suponga ahora que h es una función uno a uno desde un espacio de parámetro A hacia un conjunto B. Podemos ver a b = h(a) como un nuevo parámetro tomando valores en el espacio B, además es fácil re-parametrizar la función densidad conjunta con el nuevo parámetro. De ese modo, sea
f1(x | b) =
f[x | h-1(b)]
para x
S, b
B.
La función probabilidad correspondiente es
L1(b | x)
= L[h-1(b) | x]
para b
B y x
S.
24. Suponga que u(x)
A
maximiza a L(· | x) para cada x
S. Demuestre que h[u(x)]
B maximiza a L1(· | x)
para cada x
S.
Del ejercicio17 se ve que si U es un estimador de máxima probabilidad para a, entonces V = h(U) es un estimador de máxima probabilidad para b = h(a). A este resultado se lo conoce como la propiedad de invarianza.
25.
Suponga que (X1,
X2, ..., Xn) es una muestra aleatoria
proveniente de la distribución de Poisson con media µ, y sea p = P(Xi = 0) = e-µ.
Encuentre el estimador de máxima probabilidad de p en dos formas
diferentes:
Si la función h no es uno a uno, el problema de máxima probabilidad para el nuevo vector parámetro b = h(a) no está bien definido, porque no podemos parametrizar la función densidad conjunta en términos de b. Sin embargo, hay una generalización natural del problema de máxima probabilidad en este caso. Definiendo
L1(b | x)
= max{L[a | x]: a
en A, h(a) = b}
para b
B y x
S.
26. Suponga nuevamente que u(x)
A maximiza L(· | x) para
cada x
S. Demuestre que h[u(x)]
B maximiza L1(· | x)
para cada x
S.
El resultado en el último ejercicio extiende la propiedad de invarianza a transformaciones del parámetro del tipo muchos a uno: si U es un estimador de máxima probabilidad para a, entonces V = h(U) es un estimador de máxima probabilidad para b = h(a).
27.
Suponga que (I1,
I2, ..., In) es una muestra aleatoria
de longitud n
proveniente de una distribución de Bernoulli con un parámetro de éxito
desconocido p en (0, 1). Encuentre el estimador de máxima probabilidad
de p(1 - p), la varianza de la distribución muestral.
28.
Suponga que (X1,
X2, ..., Xn) es una muestra aleatoria
proveniente de una distribución normal con media desconocida µ perteneciente a
R y varianza d2 > 0. Encuentre el estimador de máxima probabilidad
de µ2 + d2.