Virtual Laboratories > Point Estimation > 1 2 3 [4] 5 6

4.Estimadores de Bayes 


El Método

Suponga nuevamente que tenemos una variable aleatoria observable X para un experimento, que toma valores en un conjunto S. Suponga también que la distribución de X depende de un parámetro a que toma valores en un espacio del parámetro A. Como ya se hizo anteriormente, denotaremos la función densidad de X en el punto x por f(x | a).

En análisis Bayesiano, tratamos al vector parámetro a como una variable aleatoria, con una dada función densidad h(a), a perteneciente a A. La distribución correspondiente se llama distribución a priori de a y su propósito es reflejar nuestro conocimiento (si hay alguno) del vector parámetro, antes de que obtengamos los datos.

Usaremos entonces el teorema de Bayes, llamado así por Thomas Bayes, para calcular la función densidad condicional de a dado X = x en S:

h(a | x) = f(x | a)h(a) / g(x), para a A y x S

donde g es la  función densidad (marginal) de X. Recuerde que para un  x fijo en S, se puede obtener g(x) integrando (para el caso continuo) o sumando (para el caso discreto) a  f(x | a)h(a) cuya variable de integración (suma) es a perteneciente al conjunto A. De manera equivalente, g(x) es simplemente la constante de normalización para  f(x | a)h(a) como una función de a. La distribución condicional de a dado X = x se llama distribución a posteriori, y es una distribución actualizada, dada la información en los datos.

Si a es un parámetro real, el valor esperado condicional E(a | X) es el estimador de Bayes de a. Recuerde que E(a | X) es una función de X y, entre todas las funciones de X, es la más cercana a  a en sentido cuadrático medio.

Familias Conjugadas 

En muchos casos especiales importantes, podemos encontrar una familia paramétrica de distribuciones con la siguiente propiedad: Si la distribución a priori de a pertenece a la familia entonces la distribución a posteriori de a dado X = x también pertenece. Se dice entonces que la familia es conjugada para la distribución de X. Las familias cojugadas son buenas desde el punto de vista computacional, puesto que a menudo podemos  calcular la distribución a posteriori a traves de una fórmula simple en la cual estan involucrados los parámetros de la familia, sin tener que usar el teorema de Bayes directamente.

La Distribución de Bernoulli 

Suponga que tenemos una moneda con una probabilidad desconocida de caras p. Arrojamos la moneda n veces y anotamos el vector de salida I = (I1, I2, ..., In). Para una dada probabilidad p, estas variables forman una muestra aleatoria con una  distribución de Bernoulli con un parámetro p. Sea  Xn = I1 + I2 + ··· + In  que denota el numero de caras

Suponga ahora que damos a  p una distribución beta a priori con parámetros a y b, donde a y b son escogidos de manera tal que reflejen nuestra información inicial sobre la moneda. Por ejemplo, si no sabemos nada acerca de la moneda, podríamos adoptar a = b = 1, de manera que la distribución a priori de p sea uniforme entre (0, 1). Por otro lado,si creemos que la moneda tiene propensión a salir cara con  p aproximadamente 2 / 3, podríamos adoptar a = 4, b = 2 (y por lo tanto la media de la distribución a priori es 2 / 3).

Mathematical Exercise 1. Demuestre que la distribución a posteriori de p dado I es beta con parámetros a + Xn y b + (n - Xn).

El ejercicio 1 muestra que la distribución beta es conjugada a la distribución de Bernoulli. Note además que para la distribución a posteriori, el primer parámetro beta se incrementa por el número de caras y el segundo parámetro beta se incrementa por el número de secas.

Simulation Exercise 2. En el  experimento de la moneda beta, elija  n = 10, p = 0.7, y además a = b = 1 (distribución a priori uniforme). Corra la simulación 100 veces, actualizando después de cada corrida. Note la forma y ubicación de la densidad a posteriori en cada corrida.

Mathematical Exercise 3. Demuestre que el estimador de Bayes de  p es Un = (Xn + a) / (n + a + b).

Simulation Exercise 4. En el experimento de la moneda beta, elija n = 20, p = 0.3, y además a = 4, b = 2. Corra la simulación 100 veces, actualizando después de cada corrida. Fíjese en la estima de p y en  la forma y ubicación de la densidad a posteriori en cada corrida.

Mathematical Exercise 5. Demuestre que sesgo(Un | p) = (a - pa - pb) / (n + a + b) y de ahí que Un es asintóticamente no sesgado.

Fíjese que en el ejercicio 3 no podemos elegir a  a y a b de manera que Un resulte no sesgado, puesto que tal elección involucraría al verdadero valor de p, el cual no conocemos.

Simulation Exercise 6. En el experimento de la moneda beta, varíe los parámetros and note el cambio en el sesgo (bias). Ahora elíja  n = 20, p = 0.8, a = 2, y b = 6. Corra la simulación 1000 veces, actualizando cada 10 corridas. Fíjese en  la estima de p y en la forma y ubicación de la densidad a posteriori en cada actualización.. Note la convergencia aparente del sesgo empírico hacia el sesgo real.

Mathematical Exercise 7. Demuestre que el error cuadrático medio de Un es como se indica a continuación, y de ahí que Un es consistente:

ECM(Un | p) = [p(n - 2a2 - 2ab) + p2(-n + a2 + b2 + 2ab) + a2] / (n + a + b)2.

Simulation Exercise 8. En el experimento de la moneda beta, varíe los parámetros y vea el cambio en el error cuadrático medio. Ahora elíja n = 10, p = 0.7, a = 1, y b = 1. Corra la simulación 1000 veces, actualizando cada 10 corridas. Fíjese en la estima de p y en la forma y ubicación de la densidad a posteriori en cada actualización. Note la convergencia aparente del error cuadrático medio empírico hacia el error cuadrático medio verdadero.

Interesantemente, podemos elegir a y b de manera que Un tenga un error cuadrático medio independiente de p:

Mathematical Exercise 9. Demuestre que si a = b = n1/2 / 2 entonces ECM(Un | p) = n / [4(n + n1/2)2] para todo p.

Simulation Exercise 10. En el experimento de la moneda beta, elija n = 36 y a = b = 3. Varíe p y fíjese que el error cuadrático medio no cambia. Ahora elíja  p = 0.8 y corra la simulación 1000 veces, actualizando cada 10 corridas. Fíjese en la estima de p y en la forma y ubicación de la densidad a posteriori en cada actualización. Note la convergencia aparente del sesgo y del error cuadrático medio empíricos hacia sus valores verdaderos.

Recuerde que la media muestral Mn = Xn / n (la proporción de caras) es ambos, el estimador según el método de los momentos y el estimador de máxima probabilidad de p, y que tiene un error cuadrático medio ECM(Mn | p) = p(1 - p) / n.

Mathematical Exercise 11. Haga un gráfico del ECM(Un | p)  y del ECM(Mn | p) del  Ejercicio 6, como funciones de p, en el mismo par  de ejes cartesianos.

Suponga ahora que la moneda puede ser de una o dos caras, pero nosotros no sabemos cual de las dos. Damos a  p la distribución a priori con una función densidad como la dada a continuación, donde se elige a  a entre (0, 1) para reflejar nuestro conocimiento previo de la probabilidad de caras.

h(1) = a, h(1 / 2) = 1 - a.

Mathematical Exercise 12. Demuestre que la distribución a posteriori de p dado I es la siguiente. Interprete el resultado.

  1. h(1 | I) = a / [a + (1 - a) (1 / 2)n] si Xn = n.
  2. h(1 | I) = 0 si Yn < n.
  3. h(1 / 2 | I) = 1 - h(1 | I).

Mathematical Exercise 13. Demuestre que el estimador de Bayes de p es

Un = pn si Xn = n, Un = 1 / 2 si Xn < n,

donde pn = [a + (1 - a)(1 / 2)n + 1] / [a + (1 - a) (1 / 2)n].

Mathematical Exercise 14. Demuestre que

  1. E(Un | p = 1) = pn.
  2. E(Un | p = 1 / 2) = (1 / 2)n pn + (1 / 2) [1 - (1 / 2)n].
  3. Un es asintóticamente no sesgado.

Mathematical Exercise 15. Demuestre que

  1. ECM(Un | p = 1) = (pn - 1)2.
  2. ECM(Un | p = 1 / 2) = (1 / 2)n (pn - 1 / 2)2.
  3. Un es consistente.

La Distribución de Poisson 

Suponga que X = (X1, X2, ..., Xn) es una muestra aleatoria de longitud n proveniente de una distribución de Poisson con parámetro a. Más aún, suponga que a tiene una distribución gamma a priori con parámetro de forma k y parámetro de escala b. Sea

Yn = X1 + X2 + ··· + Xn.

Mathematical Exercise 16. Demuestre que la distribución a posteriori de a dado X es gamma parámetro de forma k + Yn y parámetro de escala b / (nb + 1).

Sigue que la distribución gamma es conjugada a la distribución de Poisson.

Mathematical Exercise 17. Demuestre que el estimador Bayes de a es Vn = (k + Yn)b / (nb + 1).

Mathematical Exercise 18. Demuestre que sesgo(Vn | µ) = (kb - a) / (nb + 1) y de ahí que Vn es asintóticamente no sesgado.

Note que, como antes, no podemos elegir k y b para hacer a Vn no sesgado.

Mathematical Exercise 19. Demuestre que el error cuadrático medio de  Vn es el siguiente, y de ahí que Vn es consistente:

ECM(Vn | a) = [(nb2 - 2kb)a + a2 + k2b2) / [(nb + 1)2].

La Distribución Normal

Suponga que X = (X1, X2, ..., Xn) es una muestra aleatoria de longitud n proveniente de una distribución normal con media µ y varianza d2, donde µ es desconocido y d2 es conocido. Más aún, suponga que µ tiene una distribución normal a priori con media a y varianza b2, ambas conocidas por supuesto. Sea

Yn = (X1 + X2 + ··· + Xn).

Mathematical Exercise 20. Demuestre que la distribución a posteriori de µ dado X es normal con media y varianza dadas aqui abajo.

  1. E(µ | X) = (Ynb2 + ad2) / (d2 + nb2)
  2. var(µ | X) = d2b2 / (d2 + nb2)

Por consiguiente, la distribución normal es conjugada a la distribución normal con media desconocida y varianza conocida. Más aún, se demuestra que el estimador de Bayes de µ es

Un = (Ynb2 + ad2) / (d2 + nb2).

Mathematical Exercise 21. Demuestre que sesgo(Un | µ) = d2(a - µ) / (d2 + nb2) y de ahí que Un es asintóticamente no sesgado.

Mathematical Exercise 22. Demuestre que ECM(Un | µ) = [nd2b4 + d4(a - µ)2] / (d2 + nb2)2 y de ahí que Un es consistente.