Virtual Laboratories > Point Estimation > 1 2 3 4 5 [6]

6. Estadísticas Suficientes, Completas y Auxiliares


Considere nuevamente el modelo estadístico básico, en el cual tenemos un experimento aleatorio con una variable aleatoria observable X que toma valores en un conjunto S. Como ya se estudió anteriormente, el experimento consiste en muestrear n objetos provenientes de una población y registrar un vector de medidas para cada item. En este caso, X tiene la forma

X = (X1, X2, ..., Xn).

donde Xi es el  i-ésimo item en el vector de medidas.

Suponga que la distribuciónde X depende de un parámetro a que toma valores en un espacio del parámetro A. Generalmente,  a es un vector de parámetros reales.

Estadísticas Suficientes 

Intuitivamente, una estadística U = h(X) es suficiente para a si U contiene toda la información sobre a que está disponible en la variable de datos X. Formalmente, U es suficiente para a si la distribución condicional de X dado U no depende de a.

La suficiencia está relacionada con el concepto de reducción de datos. Suponga que X toma valores en Rn. Si podemos encontrar una estadística suficiente U que toma valores en Rj., entonces podemos reducir el vector de datos X (cuya dimensión n usualmente es grande) al vector de estadística U (cuya dimensión  j es mucho menor que n) sin pérdida de información sobre el parámetro a.

El siguiente resultado da una condición de suficiencia que es equivalente a la definición anterior.

Mathematical Exercise 1. Sea U = h(X) , y sean  f(x | a) y g(u | a) las funciones densidad de probabilidad de X y U respectivamente. Demuestre que U es suficiente para a si y solo si

f(x | a) / g(h(x) | a)

es independiente de a para cualquier x perteneciente a S. Ayuda: La distribución conjunta de (X, U) está concentrada en el conjunto {(x, h(x)): x in S}.

Mathematical Exercise 2. Suponga que I1, I2, ..., In es una muestra aleatoria de longitud n con una distribución de Bernoulli con parámetro p entre (0, 1). Demuestre que Xn = I1 + I2 + ··· + In es suficiente para p.

El resultado en el Ejercicio 2 apela a la intuición: en una secuencia de pruebas de Bernoulli, toda la información acerca de la probabilidad de éxito p está contenida en el número de éxitos Xn. El orden particular de éxitos y fallos no provee información adicional.

El Teorema de Factorización

La definición precisamente toma la noción intuitiva de suficiencia dada anteriormente, pero ésta definición puede ser difícil de aplicar. Debemos conocer por adelantado una estadística candidata U, y luego debemos ser capaces de calcular la distribución condicional de X dado U. El teorema de factorización dado en el siguiente ejercicio permite frecuentemente la identificación de una estadística suficiente de la forma de la función densidad de X.

Mathematical Exercise 3. Sea f(x | a) la función densidad de X. Demuestre que U = h(X) es suficiente para a si y solo si existen las funciones G(u | a) y r(x) tales que

f(x | a) = G[h(x) | a] r(x) para x S y a A.

Como lo indica la notación, r depende solamente de los datos x y no del parámetro a.

Mathematical Exercise 4. Demuestre que si U y V son estadísticas equivalentes y U es suficiente para a entonces V es suficiente para a.

Mathematical Exercise 5. Suponga que la distribución de X es una familia exponencial de parámetro k con estadística natural h(X). Demuestre que h(X) es suficiente para a.

A causa de este resultado, se hace referencia a h(X) como la estadística suficiente natural para la familia exponencial.

Mathematical Exercise 6. Suponga que X1, X2, ..., Xn es una muestra aleatoria de longitud n con una distribución normal, con media µ perteneciente a R y varianza d2 > 0.

  1. Demuestre que (X1 + X2 + ··· + Xn, X12 + X22 + ··· + Xn2) es suficiente para (µ, d2),
  2. Demuestre que (M, S2) es suficiente para (µ, d2) donde M es la media muestral y S2 es la varianza muestral. Ayuda: Use la parte (a) y equivalencia.

Mathematical Exercise 7. Suponga que X1, X2, ..., Xn es una muestra aleatoria de longitud n con una distribución de Poisson con parámetro a > 0. Demuestre que X1 + X2 + ··· + Xn es suficiente para a donde??????????????

Mathematical Exercise 8. Suponga que X1, X2, ..., Xn es una muestra aleatoria con una distribución gamma con parámetro de forma  k > 0 y parámetro de escala b > 0.

  1. Demuestre que (X1 + X2 + ··· + Xn, X1X2 ··· Xn) es suficiente para (k, b).
  2. Demuestre que (M, U) es suficiente para (k, b) donde M es la media muestral (aritmética) y U es la media muestral geométrica. Ayuda: Use la parte (a) y equivalencia.

Mathematical Exercise 9. Suponga que X1, X2, ..., Xn es una muestra aleatoria con una distribución beta con parámetros a > 0 y b > 0. Demuestre que (U, V) es suficiente para (a, b) donde

U = X1X2 ··· Xn, V = (1 - X1)(1 - X2) ··· (1 - Xn).

Mathematical Exercise 10. Suponga que X1, X2, ..., Xn es una muestra aleatoria con una distribución uniforme en el intervalo [0, a] donde a > 0. Demuestre que X(n) (la n-ésima estadística de orden) es suficiente para a.

Estadísticas Suficientes Mínimas 

La variable de datos X es trivialmente suficiente para a. Sin embargo, como se hizo notar anteriormente, usualmente existe una estadística U que es suficiente para a y tiene menor dimensión, de esta manera podemos lograr una reducción de datos significante. Naturalmente, nos gustaría hallar la estadística U que tiene la menor dimensión posible. En muchos casos, ésta dimensión más pequeña  j será la misma que la dimensión k del vector parámetro a. Sin embargo, como ya veremos, éste no siempre es necesariamente el caso; j puede ser menor o mayor que k.

Formalmente, Suponga que una estadística U es suficiente para a. Entonces U es mínimamente suficiente si U es una función de cualquier otra estadística V que es suficiente para a.

Nuevamente, la definición toma la noción de suficiencia mínima, pero es difícil de aplicar. El siguiente ejercicio provee una condición equivalente.

Mathematical Exercise 11. Sea f(x | a) la función densidad de X y suponga que U = h(X). Demuestre que U es mínimamente suficiente para a si se cumple la siguiente condición:

f(x | a) / f(y | a) no depende de a si y solo si h(x) = h(y).

Ayuda: Si V = g(X) es otra estadística suficiente, use el teorema de factorización y la condición dada para demostrar que g(x) = g(y) implica que h(x) = h(y). Entonces concluya que U es una función de V.

Mathematical Exercise 12. Demuestre que si U y V son estadísticas equivalentes y U es mínimamente suficiente para a entonces V es mínimamene suficiente para a.

Mathematical Exercise 13. Suponga que la distribución de X es una familia exponencial de parámetro k con estadística suficiente natural U = h(X). Demuestre que U es mínimamente suficiente para a. Ayuda: Recuerde que  j es el menor entero tal que X es una familia exponencial de parámetro  j.

Mathematical Exercise 14. Demuestre que las estadísticas suficientes dadas ateriormente para las familias Bernoulli, Poisson, normal, gamma, y beta son mínimamente suficientes para los parámetros dados.

Mathematical Exercise 15. Suponga que X1, X2, ..., Xn es una muestra aleatoria con una distribución uniforme en el intervalo [a, a + 1] donde a > 0. Demuestre que (X(1), X(n)) es mínimamente suficiente para a.

En el último ejercicio, note que tenemos un parámetro simple, pero la estadística mínimamente suficiente es un vector de dimensión 2.

Propiedades de las Estadísticas Suficientes 

La suficiencia está relacionada con varios de los métodos de construcción de estimadores que hemos estudiado.

Mathematical Exercise 16. Suponga que U es suficiente para a y que existe un Estimador de Máxima Probabilidad de a. Demuestre que existe un EMP V que es una función de U. Ayuda: Utilice el teorema de factorización.

En particular, Suponga que V es el único EMP de a y que V es suficiente para a. Si U es suficiente para a entonces V es una función de U por el ejercicio previo. De ahí surge que V es mínimamente suficiente para a.

Mathematical Exercise 17. Suponga que la estadística U es suficiente para el parámetro a y que V es un estimador de Bayes de a. Demuestre que V es una función de U. Ayuda: Utilice el teorema de factorización.

El siguiente ejercicio presenta al  teorema de Rao-Blackwell. El teorema demuestra como una estadística suficiente puede ser usada para mejorar a un estimador no sesgado.

Mathematical Exercise 18. Suponga que U es suficiente para a y que V es un estimador no sesgado de un parámetro real  b = b(a). Use la suficiencia y las propiedades de la esperanza y varianza condicionales para demostrar que

  1. E(V | U) es una estadística válida ( no depende de a) y es una función de U.
  2. E(V | U) es un estimador no sesgado de b.
  3. var[E(V | U)] <= var(V) para cualquier a por lo tanto E(V | U) es uniformemente mejor que V.

Estadísticas Completas 

Suponga que U = h(X) es una estadística. Entonces U es completa si

E[g(U) | a] = 0 para todo a A implica P[g(U) = 0 | a] = 1 para todo a A.

Mathematical Exercise 19. Demuestre que si U y V son estadísticas equivalentes y U es completa para a entonces V es completa para a.

Mathematical Exercise 20. Suponga que I1, I2, ..., In es una muestra aleatoria de longitud n con una distribución de Bernoulli con parámetro p entre (0, 1). Demuestre que la suma es completa para p:

Y = I1 + I2 + ··· + In.

Ayuda: Fíjese que Ep[g(Y)] puede ser escrita como un polinomio en t = p / (1 - p). Si este polinomio es 0 para todo t > 0, entonces los coeficientes deben ser 0.

Mathematical Exercise 21. Suponga que X1, X2, ..., Xn es una muestra aleatoria de longitud n con una distribución de Poisson con parámetro a > 0. Demuestre que la suma es completa para a:

Y = X1 + X2 + ··· + Xn.

Ayuda: Fíjese que Ea[g(Y)] puede ser escrita como una serie de potencias en a. Si esta serie es 0 para todo a > 0, entonces los coeficientes deben ser 0.

Mathematical Exercise 22. Suponga que X1, X2, ..., Xn es una muestra aleatoria de longitud n con una distribución exponencial con parámetro de escala b > 0. Demuestre que la suma es completa para b.

Y = X1 + X2 + ··· + Xn.

Ayuda: Demuestre que Eb[g(Y)] es la transformada de Laplace de una determinada función. Si esta transformada es 0 para todo b > 0, entonces la función debe ser idénticamente 0.

El resultado en el ejercicio previo generaliza para las familias exponenciales, aunque la demostración general es complicada. Específicamente, si la distribución de X es una familia exponencial de parámetro j con un vector de estadística suficiente natural U = h(X) entonces U es completa para a (y además mínimamente suficiente para a). Esto se aplica para muestras aleatorias con distribuciones de Bernoulli, Poisson, normal, gamma, y beta. 

La noción de completitud depende fundamentalmente del espacio del parámetro.

Mathematical Exercise 23. Suponga que I1, I2, I3 es una muestra aleatoria de longitud 3 con una distribución de Bernoulli con parámetro p en {1/3, 1/2}. Demuestre que Y = I1 + I2 + I3 no es completa para p.

El próximo ejercicio muestra la importancia de las estadísticas suficientes completas; es conocido como el teorema de Lehmann-Scheffe.

Mathematical Exercise 24. Suponga que U es suficiente y completa para a y que T = r(U) es un estimador no sesgado de parámetro real  b(a). Demuestre que T es un estimador de b(a) uniformemente no sesgado de mínima varianza. La demostración está basada en los siguientes pasos:

  1. Suponga que V es un estimador no sesgado de b(a). Por el teorema de Rao-Blackwell, E(V | U) es también un estimador no sesgado de b(a) y es uniformemente mejor que V.
  2. Puesto que E(V | U) es una función de U, use la completitud para concluir que T = E(V | U) (con probabilidad 1).

Mathematical Exercise 25. Suponga que (I1, I2, ..., In) es una muestra aleatoria de longitud n con una distribución de Bernoulli con parámetro p entre (0, 1). Demuestre que un UMVUE para p(1 - p), la varianza de la distribución de la muestra, es

X / (n - 1) - X2 / [n(n - 1)] donde X = I1 + I2 + ··· + In.

Mathematical Exercise 26. Suponga que X1, X2, ..., Xn es una muestra aleatoria de longitud n con una distribución de Poisson con parámetro a. Demuestre que un UMVUE para P(X = 0) = e-a es

[(n - 1) / n]Y donde Y = X1 + X2 + ··· + Xn.

Ayuda: Use la función generadora de probabilidad de Y.

Estadísticas Auxiliares

Suponga que V = r(X) es una estadística. Si la distribución de V no depende de a, entonces V es llamada estadística  auxiliar para a. Así, la noción estadística auxiliar es complementaria a la noción de estadística suficiente ( la cual contiene toda la información sobre el parámetro que está contenido en la muestra ). De este modo, el resultado en el siguiente teorema, demostrado por Basu, muestra más precisamente a este concepto  .

Mathematical Exercise 27. Suponga que U es completa y suficiente para a y que V es una estadística auxiliar. Demuestre que U y V son independientes. Los siguientes pasos introducen a la demostración:

  1. Suponga que V toma valores en T . Sea g la función densidad de V y sea g(· | U) la densidad condicional de V dado U.
  2. Utilice propiedades del valor esperado condicional para demostrar que E[g(v | U)] = g(v) para v perteneciente a T.
  3. Utilice la completitud para concluir que g(v | U) = g(v) con probabilidad 1.

Mathematical Exercise 28. Demuestre que si U y V son estadísticas equivalentes y U es auxiliar para a entonces V es auxiliar para a.

Mathematical Exercise 29. Suponga que X1, X2, ..., Xn es una muestra aleatoria proveniente de una familia de escala con parámetro de escala b > 0. Demuestre que si V es una función de X1 / Xn, X2 / Xn, ..., Xn - 1 / Xn entonces V es una estadística auxiliar para b.

Mathematical Exercise 30. Suponga que X1, X2, ..., Xn es una muestra aleatoria de longitud n con una distribución gamma con parámetro de forma k > 0 y parámetro de escala b > 0. Sea M la media muestral común y U la media muestral geométrica. Demuestre que M / U es auxiliar para b, y así concluya que M y M / U son independientes. Ayuda: Utilice el ejercicio anterior.