Virtual Laboratories > Point Estimation > 1 2 3 [4] 5 6
Suponga nuevamente que tenemos una variable aleatoria observable X para un experimento, que toma valores en un conjunto S. Suponga también que la distribución de X depende de un parámetro a que toma valores en un espacio del parámetro A. Como ya se hizo anteriormente, denotaremos la función densidad de X en el punto x por f(x | a).
En análisis Bayesiano, tratamos al vector parámetro a como una variable aleatoria, con una dada función densidad h(a), a perteneciente a A. La distribución correspondiente se llama distribución a priori de a y su propósito es reflejar nuestro conocimiento (si hay alguno) del vector parámetro, antes de que obtengamos los datos.
Usaremos entonces el teorema de Bayes, llamado así por Thomas Bayes, para calcular la función densidad condicional de a dado X = x en S:
h(a | x) = f(x | a)h(a) / g(x),
para a
A y x
S
donde g es la función densidad (marginal) de X. Recuerde que para un x fijo en S, se puede obtener g(x) integrando (para el caso continuo) o sumando (para el caso discreto) a f(x | a)h(a) cuya variable de integración (suma) es a perteneciente al conjunto A. De manera equivalente, g(x) es simplemente la constante de normalización para f(x | a)h(a) como una función de a. La distribución condicional de a dado X = x se llama distribución a posteriori, y es una distribución actualizada, dada la información en los datos.
Si a es un parámetro real, el valor esperado condicional E(a | X) es el estimador de Bayes de a. Recuerde que E(a | X) es una función de X y, entre todas las funciones de X, es la más cercana a a en sentido cuadrático medio.
En muchos casos especiales importantes, podemos encontrar una familia paramétrica de distribuciones con la siguiente propiedad: Si la distribución a priori de a pertenece a la familia entonces la distribución a posteriori de a dado X = x también pertenece. Se dice entonces que la familia es conjugada para la distribución de X. Las familias cojugadas son buenas desde el punto de vista computacional, puesto que a menudo podemos calcular la distribución a posteriori a traves de una fórmula simple en la cual estan involucrados los parámetros de la familia, sin tener que usar el teorema de Bayes directamente.
Suponga que tenemos una moneda con una probabilidad desconocida de caras p. Arrojamos la moneda n veces y anotamos el vector de salida I = (I1, I2, ..., In). Para una dada probabilidad p, estas variables forman una muestra aleatoria con una distribución de Bernoulli con un parámetro p. Sea Xn = I1 + I2 + ··· + In que denota el numero de caras
Suponga ahora que damos a p una distribución beta a priori con parámetros a y b, donde a y b son escogidos de manera tal que reflejen nuestra información inicial sobre la moneda. Por ejemplo, si no sabemos nada acerca de la moneda, podríamos adoptar a = b = 1, de manera que la distribución a priori de p sea uniforme entre (0, 1). Por otro lado,si creemos que la moneda tiene propensión a salir cara con p aproximadamente 2 / 3, podríamos adoptar a = 4, b = 2 (y por lo tanto la media de la distribución a priori es 2 / 3).
1.
Demuestre que la distribución a posteriori de p dado I es
beta con parámetros a + Xn y b + (n - Xn).
El ejercicio 1 muestra que la distribución beta es conjugada a la distribución de Bernoulli. Note además que para la distribución a posteriori, el primer parámetro beta se incrementa por el número de caras y el segundo parámetro beta se incrementa por el número de secas.
2. En
el experimento
de la moneda beta, elija n = 10, p = 0.7, y
además a
= b = 1 (distribución a priori uniforme). Corra la simulación 100 veces, actualizando después de cada corrida. Note
la forma y ubicación de la densidad a posteriori en cada corrida.
3.
Demuestre que el estimador de Bayes de p es Un = (Xn + a)
/ (n + a + b).
4. En
el experimento
de la moneda beta, elija n = 20, p = 0.3, y
además a
= 4, b = 2. Corra la simulación 100 veces, actualizando después de cada corrida.
Fíjese en la estima de p y en la forma y ubicación de la
densidad a posteriori en cada corrida.
5.
Demuestre que sesgo(Un
| p) = (a - pa - pb) / (n + a + b)
y de ahí que Un es asintóticamente no sesgado.
Fíjese que en el ejercicio 3 no podemos elegir a a y a b de manera que Un resulte no sesgado, puesto que tal elección involucraría al verdadero valor de p, el cual no conocemos.
6. En
el experimento de la moneda beta,
varíe los parámetros and note el cambio en el sesgo (bias). Ahora elíja
n = 20, p = 0.8, a = 2, y b = 6. Corra la simulación 1000 veces, actualizando cada 10 corridas.
Fíjese en la estima de p y en la forma y ubicación de la
densidad a posteriori en cada actualización.. Note la convergencia aparente del
sesgo empírico hacia el sesgo real.
7.
Demuestre que el error cuadrático medio de Un es como se
indica a continuación, y de ahí que Un es consistente:
ECM(Un | p) = [p(n - 2a2 - 2ab) + p2(-n + a2 + b2 + 2ab) + a2] / (n + a + b)2.
8. En
el experimento de la moneda beta,
varíe los parámetros y vea el cambio en el error cuadrático medio. Ahora
elíja n = 10, p = 0.7, a = 1, y b
= 1. Corra la simulación 1000 veces, actualizando cada 10 corridas. Fíjese en
la estima de p
y en la forma y ubicación de la densidad a posteriori en cada actualización. Note
la convergencia aparente del error cuadrático medio empírico hacia el error
cuadrático medio verdadero.
Interesantemente, podemos elegir a y b de manera que Un tenga un error cuadrático medio independiente de p:
9.
Demuestre que si a
= b = n1/2 / 2 entonces ECM(Un | p)
= n / [4(n + n1/2)2] para
todo p.
10. En
el experimento de la moneda beta,
elija n = 36 y a = b =
3. Varíe p y fíjese que el error cuadrático medio no cambia.
Ahora elíja p
= 0.8 y corra la simulación 1000 veces, actualizando cada 10 corridas. Fíjese
en la estima de p
y en la forma y ubicación de la densidad a posteriori en cada actualización. Note
la convergencia aparente del sesgo y del error cuadrático medio empíricos
hacia sus valores verdaderos.
Recuerde que la media muestral Mn = Xn / n (la proporción de caras) es ambos, el estimador según el método de los momentos y el estimador de máxima probabilidad de p, y que tiene un error cuadrático medio ECM(Mn | p) = p(1 - p) / n.
11.
Haga un gráfico del ECM(Un | p) y del ECM(Mn
| p) del Ejercicio 6, como funciones de p, en el
mismo par de ejes cartesianos.
Suponga ahora que la moneda puede ser de una o dos caras, pero nosotros no sabemos cual de las dos. Damos a p la distribución a priori con una función densidad como la dada a continuación, donde se elige a a entre (0, 1) para reflejar nuestro conocimiento previo de la probabilidad de caras.
h(1) = a, h(1 / 2) = 1 - a.
12.
Demuestre que la distribución a posteriori de p dado I
es la siguiente.
Interprete el resultado.
13.
Demuestre que el estimador de Bayes de p es
Un = pn si Xn = n, Un = 1 / 2 si Xn < n,
donde pn = [a + (1 - a)(1 / 2)n + 1] / [a + (1 - a) (1 / 2)n].
14.
Demuestre que
15.
Demuestre que
Suponga que X = (X1, X2, ..., Xn) es una muestra aleatoria de longitud n proveniente de una distribución de Poisson con parámetro a. Más aún, suponga que a tiene una distribución gamma a priori con parámetro de forma k y parámetro de escala b. Sea
Yn = X1 + X2 + ··· + Xn.
16. Demuestre que la distribución a posteriori de a dado X
es gamma parámetro de forma k + Yn y
parámetro de escala b / (nb + 1).
Sigue que la distribución gamma es conjugada a la distribución de Poisson.
17.
Demuestre que el estimador
Bayes de a es Vn = (k + Yn)b
/ (nb + 1).
18.
Demuestre que sesgo(Vn | µ) = (kb - a) / (nb + 1)
y de ahí que Vn es asintóticamente no sesgado.
Note que, como antes, no podemos elegir k y b para hacer a Vn no sesgado.
19.
Demuestre que el error cuadrático medio de Vn es el
siguiente, y de ahí que Vn es consistente:
ECM(Vn | a) = [(nb2 - 2kb)a + a2 + k2b2) / [(nb + 1)2].
Suponga que X = (X1, X2, ..., Xn) es una muestra aleatoria de longitud n proveniente de una distribución normal con media µ y varianza d2, donde µ es desconocido y d2 es conocido. Más aún, suponga que µ tiene una distribución normal a priori con media a y varianza b2, ambas conocidas por supuesto. Sea
Yn = (X1 + X2 + ··· + Xn).
20.
Demuestre que la distribución a posteriori de µ dado X
es normal con media y varianza dadas aqui abajo.
Por consiguiente, la distribución normal es conjugada a la distribución normal con media desconocida y varianza conocida. Más aún, se demuestra que el estimador de Bayes de µ es
Un = (Ynb2 + ad2) / (d2 + nb2).
21.
Demuestre que sesgo(Un | µ) = d2(a - µ) / (d2
+ nb2) y de ahí que Un es asintóticamente
no sesgado.
22.
Demuestre que ECM(Un
| µ) = [nd2b4 + d4(a
- µ)2] / (d2 + nb2)2
y de ahí que Un es consistente.