Virtual Laboratories > Point Estimation > 1 2 [3] 4 5 6

3. Máxima Probabilidad


El Método General 

Suponga nuevamente que tenemos una variable aleatoria observable X para un experimento, que toma valores en un conjunto S. Suponga también que la distribución de X depende de un parámetro desconocido a, que toma valores en el espacio del parámetro A. Específicamente, denotaremos la función densidad de X a x por f(x | a). En general, X y a son vectores.

La función probabilidad L es la función obtenida de intercambiar los roles de x y a; esto es, vemos a  a como la variable y a x como la información dada (lo cual es precisamente el punto de vista en estimación):

L(a | x) = f(x | a) para a A y x S.

En el método de máxima probabilidad, tratamos de encontrar un valor u(x) del parámetro a que maximiza L(a | x) para cada x en S. Si podemos hacer esto, entonces u(X) es llamado estimador de máxima probabilidad de a. El método apela a la intuición--tratamos de encontrar los valores de los parámetros que habrían producido mas frecuentemente los datos que de hecho observamos.

Puesto que la función logaritmo natural ln es estrictamente creciente, el máximo valor de L(a | x), si este existe, ocurrirá en el mismo punto que el máximo valor de ln[L(a | x)]. Esta última función es llamada función probabilidad logaritmica (log) y en en muchos casos es más fácil trabajar con esta función que con la función probabilidad (usualmente debido a que la función  densidad  f(x | a) tiene una estructura de producto).

Casos Especiales 

Un caso especial importante es cuando a = (a1, a2, ..., ak) es un vector de k  parámetros reales, de manera que A subset Rk. En este caso,  el problema de máxima probabilidad es maximizar una función de varias variables. Si A es un conjunto continuo, los métodos del cálculo integrodiferencial pueden ser usados: si el máximo valor ocurre en un punto a en el interior de A, entonces L(· | x) tiene un máximo local en a y por lo tanto

(d/dai)L(a | x) = 0 para i = 1, 2, ..., k.

Por otro lado, el máximo valor puede llegar a ocurrir en un punto de la frontera de A, o puede llegar a no existir después de todo.

Considere el siguiente caso en donde X = (X1, X2, ..., Xn) es una muestra aleatoria de longuitud n proveniente de la variable aleatoria  X cuya función densidad es g(x | a). Entonces la densidad conjunta de X es el producto de las densidades marginales, por lo tanto la función probabilidad en este caso especial se convierte en 

L(a | x) = f(x | a) = g(x1 | a)g(x2 | a)···g(xn | a) donde x = (x1, x2, ..., xn).

En las siguientes subsecciones, estudiaremos la estimación de máxima probabilidad en una serie de casos clásicos.

La Distribución de Bernoulli 

Suponga que tenemos una moneda con una probabilidad  p de caras desconocida. Tiramos la moneda n veces y anotamos la secuencia de caras y secas. Asi, los datos (I1, I2, ..., In) son una muestra aleatoria de longitud n proveniente de la distribución de Bernoulli con un parámetro de éxito p. Sea  Xn = I1 + I2 + ··· + In que denota el número de caras y Mn = Xn / n la proporción de caras (la media muestral).

Mathematical Exercise 1. Suponga que  p varia entre (0, 1). Demuestre que el estimador de máxima probabilidad de p es Mn.

Recuerde que Mn es también el estimador según el método de los momentos de p.

Mathematical Exercise 2. Suponga que la moneda puede ser de cara y seca (justa) o de dos caras, entonces p varía entre {1/2, 1}. Demuestre que el estimador de máxima probabilidad de p es el dado a continuación e interprete el resultado:

Un = 1 si Xn = n; Un = 1/2 si Xn < n.

Los ejercicios 1 y 2 muestran que el estimador de máxima probabilidad de un parámetro, como la solución de cualquier problema de maximización, depende críticamente del dominio.

Mathematical Exercise 3. Demuestre que

  1. E(Un) = 1 si p = 1, E(Un) = 1/2 + (1/2)n + 1 si p = 1/2.
  2. Un es sesgado, pero asintóticamente no sesgado.

Mathematical Exercise 4. Demuestre que

  1. ECM(Un) = 0 si p = 1, ECM(Un) = (1/2)n + 2 si p = 1/2.
  2. Un es consistente.

Mathematical Exercise 5. Demuestre que Un es uniformente mejor que Mn en el espacio del parámetro {1/2, 1}.

Otras Distribuciones Básicas

En los ejercicios siguientes, recuerde que si (X1, X2, ..., Xn) es una muestra aleatoria proveniente de una distribución con media µ y varianza d2, entonces los estimadores del método de los momentos de µ y d2 son, respectivamente,

  1. Mn = (1 / n)sumj = 1, ..., n Xj.
  2. Tn2 = (1 / n)sumj = 1, ..., n (Xj - Mn)2

Por supuesto, Mn es la media muestral y Tn2 = (n - 1)Sn2 / n donde Sn2 es la varianza muestral.

Mathematical Exercise 6. Suponga que (X1, X2, ..., Xn) es una muestra aleatoria proveniente de la distribución de Poisson con un parámetro desconocido a > 0. Demuestre que el estimador de máxima probabilidad de a es Mn.

Mathematical Exercise 7. Suponga que (X1, X2, ..., Xn) es una muestra aleatoria proveniente de una distribución normal con media desconocida µ en R y varianza d2 > 0. Demuestre que los estimadores de máxima probabilidad de µ y d2 son respectivamente Mn y Tn2.

Mathematical Exercise 8. Suponga que (X1, X2, ..., Xn) es una muestra aleatoria proveniente de la distribución gamma con un parámetro de forma k conocidon y un parámetro de escala desconocido b > 0. Demuestre que el estimador de máxima probabilidad de b es Vn = Mn / k.

Simulation Exercise 9. Corra el experimento de la estimación gamma 1000 veces, actualizando cada 10 corridas, para diferentes valores del parámetro de forma k y del parámetro de escala b. En cada caso, compare el estimador del método de los momentos Un con el estimador de máxima probabilidad Vn. ¿Cuál de los estimadores parece funcionar mejor en términos de error cuadrático medio?

Mathematical Exercise 10. Suponga que (X1, X2, ..., Xn) es una muestra aleatoria proveniente de la distribución beta con parametros a > 0 y b = 1. Demuestre que el estimador de máxima probabilidad de a es

Vn = -n / sumj = 1, ..., n ln(Xj).

Simulation Exercise 11. Corra el  experimento de la estimación beta 1000 veces, actualizando cada 10 corridas, para diferentes valores de a. En cada caso, compare el estimador del método de los momentos Un con el estimador de máxima probabilidad Vn. ¿Cuál de los estimadores parece funcionar mejor en términos de error cuadrático medio?

Mathematical Exercise 12. Suponga que (X1, X2, ..., Xn) es una muestra aleatoria proveniente de la distribución Pareto con parámetro de forma a > 0. Demuestre que el estimador de máxima probabilidad de a es

Vn = n / sumj = 1, ..., n ln(Xj).

La Distribución Uniforme entre [0, a]

En esta sección estudiaremos un problema de estimación que sirve para aclarar los conceptos vistos. En cierto sentido, este problema de estimación es el análogo contínuo de un problema de estimación estudiado en la sección sobre Estadísticas de Orden en el capítulo Modelos de Muestreo Finito.

Suponga que (X1, X2, ..., Xn) es una muestra aleatoria con una distribución uniforme en el intervalo [0, a], donde a > 0 es un parámetro desconocido.

Mathematical Exercise 13. Demuestre que el estimador según el método de los momentos de a es Un = 2Mn.

Mathematical Exercise 14.Demuestre que Un es no sesgado.

Mathematical Exercise 15. Demuestre que var(Un) = a2 / 3n, por lo tanto Un es consistente.

Mathematical Exercise 16. Demuestre que el estimador de máxima probabilidad de a es X(n) la n-ésima estadística de orden.

Mathematical Exercise 17. Demuestre que E[X(n)] = na / (n + 1), por lo tanto Vn = (n + 1)X(n) / n es no sesgado.

Mathematical Exercise 18. Demuestre que var[Vn] = a2 / [n(n + 2)], entonces Vn es consistente.

Mathematical Exercise 19. Demuestre que la eficiencia relativa asintótica de Vn a Un es infinita.

El último ejercicio muestra que Vn es mucho mejor estimador que Un; de hecho, un estimador tal como Vn, cuyo error cuadrático medio decrece en un orden de 1 / n2, es llamado super eficiente. Ahora, habiendo encontrado un estimador realmente bueno, veamos si podemos encontrar uno realmente malo. Un candidato natural es un estimador basabo en  X(1), la primera estadística de orden.

Mathematical Exercise 20. Demuestre que X(1) tiene la misma distribución que a - X(n).

Mathematical Exercise 21. Demuestre que E[X(1)] = a / (n + 1) y de ahí Wn = (n + 1)X(1) es no sesgado.

Mathematical Exercise 22. Demuestre que var[Wn] = na2 / (n + 2), asi que Wn no es siquiera consistente.

Simulation Exercise 23. Corra el experimento de la distribución uniforme 1000 veces, actualizando cada 10 corridas, para diferentes valores de a. En cada caso, compare el sesgo empírico y el error cuadrático medio de los estimadores con sus valores teóricos. Clasifique los estimadores en términos de error cuadrático medio empírico.

La Propiedad de Invarianza

Volviendo al marco general, suponga ahora que h es una función uno a uno desde un espacio de parámetro A hacia un conjunto B. Podemos ver a  b = h(a) como un nuevo parámetro tomando valores en el espacio B, además es fácil re-parametrizar la función densidad conjunta con el nuevo parámetro. De ese modo, sea

f1(x | b) = f[x | h-1(b)] para x S, b B.

La función probabilidad correspondiente es 

L1(b | x) = L[h-1(b) | x] para b B y x S.

Mathematical Exercise 24. Suponga que u(x) A maximiza a L(· | x) para cada x S. Demuestre que h[u(x)] B maximiza a L1(· | x) para cada  x S.

Del ejercicio17 se ve que si U es un estimador de máxima probabilidad para a, entonces V = h(U) es un estimador de máxima probabilidad para  b = h(a). A este resultado se lo conoce como la propiedad de invarianza.

Mathematical Exercise 25. Suponga que (X1, X2, ..., Xn) es una muestra aleatoria proveniente de la distribución de Poisson con media µ, y sea p = P(Xi = 0) = e. Encuentre el estimador de máxima probabilidad de p en dos formas diferentes:

  1. Directamente, encontrando la función probabilidad correspondiente para el parámetro p.
  2. Usando el resultado del ejercicio 2 y la propiedad de invarianza.

Si la función h no es uno a uno, el problema de máxima probabilidad para el nuevo vector parámetro b = h(a) no está bien definido, porque no podemos parametrizar la función densidad conjunta en términos de b. Sin embargo, hay una generalización natural del problema de máxima probabilidad en este caso. Definiendo

L1(b | x) = max{L[a | x]: a en A, h(a) = b} para b B y x S.

Mathematical Exercise 26. Suponga nuevamente que u(x) A maximiza L(· | x) para cada  x S. Demuestre que h[u(x)] B maximiza L1(· | x) para cada x S.

El resultado en el último ejercicio extiende la propiedad de invarianza a transformaciones del parámetro del tipo muchos a uno: si U es un estimador de máxima probabilidad para a, entonces V = h(U) es un estimador de máxima probabilidad para b = h(a).

Mathematical Exercise 27. Suponga que (I1, I2, ..., In) es una muestra aleatoria de longitud n proveniente de una distribución de Bernoulli con un parámetro de éxito desconocido p en (0, 1). Encuentre el estimador de máxima probabilidad de p(1 - p), la varianza de la distribución muestral.

Mathematical Exercise 28. Suponga que (X1, X2, ..., Xn) es una muestra aleatoria proveniente de una distribución normal con media desconocida µ perteneciente a R y varianza d2 > 0. Encuentre el estimador de máxima probabilidad de µ2 + d2.