Maximum Likelihood

3. Máxima Probabilidad

El Método General

Suponga nuevamente que tenemos una variable aleatoria observable X para un experimento, que toma valores en un conjunto S. Suponga también que la distribución de X depende de un parámetro desconocido a, que toma valores en el espacio del parámetro A. Específicamente, denotaremos la función densidad de X a x por f(x | a). En general, X y a son vectores.

La función probabilidad L es la función obtenida de intercambiar los roles de x y a; esto es, vemos a a como la variable y a x como la información dada (lo cual es precisamente el punto de vista en estimación):

L(a | x) = f(x | a) para a A y x S.

En el método de máxima probabilidad, tratamos de encontrar un valor u(x) del parámetro a que maximiza L(a | x) para cada x en S. Si podemos hacer esto, entonces u(X) es llamado estimador de máxima probabilidad de a. El método apela a la intuición--tratamos de encontrar los valores de los parámetros que habrían producido mas frecuentemente los datos que de hecho observamos.

Puesto que la función logaritmo natural ln es estrictamente creciente, el máximo valor de L(a | x), si este existe, ocurrirá en el mismo punto que el máximo valor de ln[L(a | x)]. Esta última función es llamada función probabilidad logaritmica (log) y en en muchos casos es más fácil trabajar con esta función que con la función probabilidad (usualmente debido a que la función densidad f(x | a) tiene una estructura de producto).

Casos Especiales

Un caso especial importante es cuando a = (a₁, a₂, ..., a_k) es un vector de k parámetros reales, de manera que A R^k. En este caso, el problema de máxima probabilidad es maximizar una función de varias variables. Si A es un conjunto continuo, los métodos del cálculo integrodiferencial pueden ser usados: si el máximo valor ocurre en un punto a en el interior de A, entonces L(· | x) tiene un máximo local en a y por lo tanto

(d/da_i)L(a | x) = 0 para i = 1, 2, ..., k.

Por otro lado, el máximo valor puede llegar a ocurrir en un punto de la frontera de A, o puede llegar a no existir después de todo.

Considere el siguiente caso en donde X = (X₁, X₂, ..., X_n) es una muestra aleatoria de longuitud n proveniente de la variable aleatoria X cuya función densidad es g(x | a). Entonces la densidad conjunta de X es el producto de las densidades marginales, por lo tanto la función probabilidad en este caso especial se convierte en

L(a | x) = f(x | a) = g(x₁ | a)g(x₂ | a)···g(x_n | a) donde x = (x₁, x₂, ..., x_n).

En las siguientes subsecciones, estudiaremos la estimación de máxima probabilidad en una serie de casos clásicos.

La Distribución de Bernoulli

Suponga que tenemos una moneda con una probabilidad p de caras desconocida. Tiramos la moneda n veces y anotamos la secuencia de caras y secas. Asi, los datos (I₁, I₂, ..., I_n) son una muestra aleatoria de longitud n proveniente de la distribución de Bernoulli con un parámetro de éxito p. Sea X_n = I₁ + I₂ + ··· + I_n que denota el número de caras y M_n = X_n / n la proporción de caras (la media muestral).

$Mathematical Exercise$ 1. Suponga que p varia entre (0, 1). Demuestre que el estimador de máxima probabilidad de p es M_n.

Recuerde que M_n es también el estimador según el método de los momentos de p.

$Mathematical Exercise$ 2. Suponga que la moneda puede ser de cara y seca (justa) o de dos caras, entonces p varía entre {1/2, 1}. Demuestre que el estimador de máxima probabilidad de p es el dado a continuación e interprete el resultado:

U_n = 1 si X_n = n; U_n = 1/2 si X_n < n.

Los ejercicios 1 y 2 muestran que el estimador de máxima probabilidad de un parámetro, como la solución de cualquier problema de maximización, depende críticamente del dominio.

$Mathematical Exercise$ 3. Demuestre que

E(U_n) = 1 si p = 1, E(U_n) = 1/2 + (1/2)^{n + 1} si p = 1/2.
U_n es sesgado, pero asintóticamente no sesgado.

$Mathematical Exercise$ 4. Demuestre que

ECM(U_n) = 0 si p = 1, ECM(U_n) = (1/2)^{n
+ 2} si p = 1/2.
U_n es consistente.

$Mathematical Exercise$ 5. Demuestre que U_n es uniformente mejor que M_n en el espacio del parámetro {1/2, 1}.

Otras Distribuciones Básicas

En los ejercicios siguientes, recuerde que si (X₁, X₂, ..., X_n) es una muestra aleatoria proveniente de una distribución con media µ y varianza d², entonces los estimadores del método de los momentos de µ y d² son, respectivamente,

M_n = (1 / n)_{j
= 1, ..., n} X_j.
T_n² = (1 / n)_{j
= 1, ..., n} (X_j - M_n)²

Por supuesto, M_n es la media muestral y T_n² = (n - 1)S_n² / n donde S_n² es la varianza muestral.

$Mathematical Exercise$ 6. Suponga que (X₁, X₂, ..., X_n) es una muestra aleatoria proveniente de la distribución de Poisson con un parámetro desconocido a > 0. Demuestre que el estimador de máxima probabilidad de a es M_n.

$Mathematical Exercise$ 7. Suponga que (X₁, X₂, ..., X_n) es una muestra aleatoria proveniente de una distribución normal con media desconocida µ en R y varianza d² > 0. Demuestre que los estimadores de máxima probabilidad de µ y d² son respectivamente M_n y T_n².

$Mathematical Exercise$ 8. Suponga que (X₁, X₂, ..., X_n) es una muestra aleatoria proveniente de la distribución gamma con un parámetro de forma k conocidon y un parámetro de escala desconocido b > 0. Demuestre que el estimador de máxima probabilidad de b es V_n = M_n / k.

9. Corra el experimento de la estimación gamma 1000 veces, actualizando cada 10 corridas, para diferentes valores del parámetro de forma k y del parámetro de escala b. En cada caso, compare el estimador del método de los momentos U_n con el estimador de máxima probabilidad V_n. ¿Cuál de los estimadores parece funcionar mejor en términos de error cuadrático medio?

$Mathematical Exercise$ 10. Suponga que (X₁, X₂, ..., X_n) es una muestra aleatoria proveniente de la distribución beta con parametros a > 0 y b = 1. Demuestre que el estimador de máxima probabilidad de a es

V_n = -n / _{j

= 1, ..., n} ln(X_j).

11. Corra el experimento de la estimación beta 1000 veces, actualizando cada 10 corridas, para diferentes valores de a. En cada caso, compare el estimador del método de los momentos U_n con el estimador de máxima probabilidad V_n. ¿Cuál de los estimadores parece funcionar mejor en términos de error cuadrático medio?

$Mathematical Exercise$ 12. Suponga que (X₁, X₂, ..., X_n) es una muestra aleatoria proveniente de la distribución Pareto con parámetro de forma a > 0. Demuestre que el estimador de máxima probabilidad de a es

V_n = n / _{j
= 1, ..., n} ln(X_j).

La Distribución Uniforme entre [0, `a`]

En esta sección estudiaremos un problema de estimación que sirve para aclarar los conceptos vistos. En cierto sentido, este problema de estimación es el análogo contínuo de un problema de estimación estudiado en la sección sobre Estadísticas de Orden en el capítulo Modelos de Muestreo Finito.

Suponga que (X₁, X₂, ..., X_n) es una muestra aleatoria con una distribución uniforme en el intervalo [0, a], donde a > 0 es un parámetro desconocido.

$Mathematical Exercise$ 13. Demuestre que el estimador según el método de los momentos de a es U_n = 2M_n.

$Mathematical Exercise$ 14.Demuestre que U_n es no sesgado.

$Mathematical Exercise$ 15. Demuestre que var(U_n) = a² / 3n, por lo tanto U_n es consistente.

$Mathematical Exercise$ 16. Demuestre que el estimador de máxima probabilidad de a es X_(n)la n-ésima estadística de orden.

$Mathematical Exercise$ 17. Demuestre que E[X_(n)] = na / (n + 1), por lo tanto V_n = (n + 1)X_(n) / n es no sesgado.

$Mathematical Exercise$ 18. Demuestre que var[V_n] = a² / [n(n + 2)], entonces V_n es consistente.

$Mathematical Exercise$ 19. Demuestre que la eficiencia relativa asintótica de V_n a U_n es infinita.

El último ejercicio muestra que V_n es mucho mejor estimador que U_n; de hecho, un estimador tal como V_n, cuyo error cuadrático medio decrece en un orden de 1 / n², es llamado super eficiente. Ahora, habiendo encontrado un estimador realmente bueno, veamos si podemos encontrar uno realmente malo. Un candidato natural es un estimador basabo en X₍₁₎, la primera estadística de orden.

$Mathematical Exercise$ 20. Demuestre que X₍₁₎ tiene la misma distribución que a - X_(n).

$Mathematical Exercise$ 21. Demuestre que E[X₍₁₎] = a / (n + 1) y de ahí W_n = (n + 1)X₍₁₎ es no sesgado.

$Mathematical Exercise$ 22. Demuestre que var[W_n] = na² / (n + 2), asi que W_n no es siquiera consistente.

23. Corra el experimento de la distribución uniforme 1000 veces, actualizando cada 10 corridas, para diferentes valores de a. En cada caso, compare el sesgo empírico y el error cuadrático medio de los estimadores con sus valores teóricos. Clasifique los estimadores en términos de error cuadrático medio empírico.

La Propiedad de Invarianza

Volviendo al marco general, suponga ahora que h es una función uno a uno desde un espacio de parámetro A hacia un conjunto B. Podemos ver a b = h(a) como un nuevo parámetro tomando valores en el espacio B, además es fácil re-parametrizar la función densidad conjunta con el nuevo parámetro. De ese modo, sea

f₁(x | b)= f[x | h^-1(b)] para x S, b B.

La función probabilidad correspondiente es

L₁(b | x) = L[h^-1(b) | x] para b B y x S.

$Mathematical Exercise$ 24. Suponga que u(x) A maximiza a L(· | x) para cada x S. Demuestre que h[u(x)] B maximiza a L₁(· | x) para cada x S.

Del ejercicio17 se ve que si U es un estimador de máxima probabilidad para a, entonces V = h(U) es un estimador de máxima probabilidad para b = h(a). A este resultado se lo conoce como la propiedad de invarianza.

$Mathematical Exercise$ 25. Suponga que (X₁, X₂, ..., X_n) es una muestra aleatoria proveniente de la distribución de Poisson con media µ, y sea p = P(X_i = 0) = e^-µ. Encuentre el estimador de máxima probabilidad de p en dos formas diferentes:

Directamente, encontrando la función probabilidad correspondiente para el parámetro p.
Usando el resultado del ejercicio 2 y la propiedad de invarianza.

Si la función h no es uno a uno, el problema de máxima probabilidad para el nuevo vector parámetro b = h(a) no está bien definido, porque no podemos parametrizar la función densidad conjunta en términos de b. Sin embargo, hay una generalización natural del problema de máxima probabilidad en este caso. Definiendo

L₁(b | x) = max{L[a | x]: a en A, h(a) = b} para b B y x S.

$Mathematical Exercise$ 26. Suponga nuevamente que u(x) A maximiza L(· | x) para cada x S. Demuestre que h[u(x)] B maximiza L₁(· | x) para cada x S.

El resultado en el último ejercicio extiende la propiedad de invarianza a transformaciones del parámetro del tipo muchos a uno: si U es un estimador de máxima probabilidad para a, entonces V = h(U) es un estimador de máxima probabilidad para b = h(a).

$Mathematical Exercise$ 27. Suponga que (I₁, I₂, ..., I_n) es una muestra aleatoria de longitud n proveniente de una distribución de Bernoulli con un parámetro de éxito desconocido p en (0, 1). Encuentre el estimador de máxima probabilidad de p(1 - p), la varianza de la distribución muestral.

$Mathematical Exercise$ 28. Suponga que (X₁, X₂, ..., X_n) es una muestra aleatoria proveniente de una distribución normal con media desconocida µ perteneciente a R y varianza d² > 0. Encuentre el estimador de máxima probabilidad de µ² + d².