Introduction

Introducción

Pruebas de Bernoulli

El proceso de las pruebas de Bernoulli, así llamado debido a James Bernoulli, es uno de los más simples pero más importantes procesos aleatorios en probabilidad. Esencialmente, el proceso es la abstracción matemática del lanzamiento de una moneda, pero debido a su extensa aplicabilidad, es usualmente establecido en terminos de una secuencia de pruebas genéricas que satisfacen las siguientes suposiciones:

Cada prueba tiene dos posibles resultados, genéricamente llamados éxito y fracaso.
Las pruebas son independientes. Intuitivamente, el resultado de una prueba no tiene influencia alguna sobre el resultado de otra prueba.
En cada prueba, la probabilidad de éxito es p y la probabilidad de fracaso es 1- p.

Matemáticamente, podemos describir el proceso de las pruebas de Bernoulli con una secuencia de variables aleatorias indicadoras:

I₁, I₂, I₃, ...

Una variable indicadora es una variable aleatoria que toma sólo los valores 1 y 0, que en este contexto denotan éxito y fracaso respectivamente. La variable indicadora j-ésima simplemente registra el resultado de la prueba j. De este modo, las variables indicadoras son independientes y tienen la misma función densidad:

P(I_j = 1) = p, P(I_j = 0) = (1 - p)

Así, el proceso de las pruebas de Bernoulli se caracteriza por un sólo parámetro p.

Como mencionamos anteriormente, el ejemplo más obvio de las pruebas de Bernoulli es el lanzamiento de una monedad, dónde éxito significa cara y fracaso significa ceca. El parámetro p es la probabilidad de obtener cara.

1. En el experimento básico de la moneda, fijamos n = 20 y p = 0.1. Hacer correr el experimento y observar los resultados. Repetir con p = 0.3, 0.5, 0.7, 0.9.

$Mathematical Exercise$ 2. Use las suposiciones básicas para mostrar que:

P(I₁ = i₁, I₂ = i₂, ..., I_n = i_n) = p^k(1 - p)^n-k dónde k = i₁ + i₂ + ··· + i_n.

$Mathematical Exercise$ 3. Suponga que I₁, I₂, I₃, ... es un proceso de pruebas de Bernoulli con parámetro p. Mostrar que 1 - I₁, 1 - I₂, 1 - I₃, ... es una secuencia de pruebas de Bernoulli con parámetro 1 - p.

Ejemplos Genéricos

En algún sentido, el ejemplo más general de pruebas de Bernoulli sucede cuando un experimento es reproducido. Específicamente, suponga que tenemos un experimento aleatorio básico y un evento de interés A. Suponga ahora que creamos un experimento compuesto que consiste de reproducciones independientes del experimento básico. Defina éxito en la prueba j como la ocurrencia del evento A en el ensayo j-ésimo, y defina fracaso en la prueba j como la no ocurrencia del evento A en el ensayo j-ésimo. Esto claramente define un proceso de pruebas de Bernoulli con parámetro p = P(A).

Las pruebas de Bernoulli se forman también cuando tomamos muestras desde una población dicotómica.Specificamente, suponga que tenemos una población de dos tipos de objetos, a los cuales nos referiremos como tipo 0 y tipo 1. Por ejemplo, los objetos pueden ser personas, clasificadas como femenimo ó masculino, ó los objetos pueden ser componentes, clasificados como buenos ó defectuosos. Tomamos una muestra de n objetos en forma aleatoria entre la población; por definición, esto significa que en el momento de la selección cada elemento de la población tiene la misma probabilidad de ser escogido.Si el muestreo es con reposición, cada objeto escogido es luego repuesto antes de la próxima selección. En este caso, selecciones sucesivas son independientes, por lo que los tipos de objetos en la muestra forman una secuencia de pruebas de Bernoulli, en las cuales el parámetro p es la proporción de objetos tipo 1 dentro de la población. Si el muestreo es sin reposición, entonces las selecciones sucesivas son dependientes, por lo que los tipos de objetos en la muestra no forman una secuencia de pruebas de Bernoulli. Sin embargo, si el tamaño de la población es grande comparado con el tamaño de la muestra, la dependencia causada por no reponer los objetos puede ser despreciable, de modo que para todos los propósitos prácticos, los tipos de los objetos en la muestra pueden ser tratados como una secuencia de pruebas de Bernoulli. En el capítulo Modelos de Muestreo Finito encontramos discusión adicional acerca del muestreo desde una población dicotómica.

Momentos

Para referencia futura, calculemos la media, varianza, y función generadora de probabilidad de una variable indicadora genérica I con P(I = 1) = p.

$Mathematical Exercise$ 4. Mostrar que E(I) = p

$Mathematical Exercise$ 5. Mostrar que var(I) = p(1 - p)

$Mathematical Exercise$ 6.Mostrar que E(t^I) = 1 - p + pt para t en R.

$Mathematical Exercise$ 7. Realizar el gráfico de la varianza del Ejercicio 5 como una función de p. Note en particular que la varianza es más grande cuando p = 1/2 y más chica cuando p = 0 ó p = 1.

Ejercicios

$Mathematical Exercise$ 8. Suponga que un estudiante tiene un exámen de tipo multiple choice. El exámen tiene 10 preguntas, cada una de las cuales tiene 4 posibles respuestas (sólo una es correcta). Si el estudiante adivina ciegamente la respuesta a cada pregunta, ¿las preguntas forman una secuencia de pruebas de Bernoulli? Si es así, identifique los resultados de la prueba y el parámetro p.

$Mathematical Exercise$ 9. El candidato A está intentando ganar las elecciones en cierta ciudad. Se seleccionan aleatoriamente 20 personas de la población empadronadas para votar y se les pregunta si prefieren al candidato A. ¿Forman sus respuestas una secuencia de pruebas de Bernoulli? Si es así identifique los resultados de la prueba y el significado del parámetro p.

$Mathematical Exercise$ 10. Una ruleta americana consta de 38 ranuras; 18 son coloradas, 18 son negras, y 2 son verdes. Un apostador juega a la ruleta 15 veces, apostando a colorado cada vez. ¿Forman los resultados una secuencia de pruebas de Bernoulli? Si es así, identifique los resultados de la prueba y el parámetro p.

$Mathematical Exercise$ 11. Dos jugadores de tenis juegan un set de 6 games. ¿Forman los games una secuencia de pruebas de Bernoulli? Si es así identifique los resultados de la prueba y el significado del parámetro p.

El Test de la Sangre Acumulada

Suponga que cada persona en una población tiene, independientemente de todas las demás, una cierta enfermedad con probabilidad p. La enfermedad puede ser identificada con una prueba de sangre, pero por supuesto la prueba tiene un costo.

Vamos a comparar dos estrategias para un grupo de k > 1 personas. La primera es hacerle la prueba a k personas en forma individual, por lo que obviamente, se necesitan k pruebas. La segunda estrategia es acumular las muestras de sangre de las k personas y hacer primero la prueba de la muestra acumulada. Asumimos que la prueba es negativa si y sólo si todas las k personas están libres de la enfermedad; en este caso necesitamos nada más que una sóla prueba. Por el contrario, la prueba es positiva si y sólo si al menos una persona posee la enfermedad, en cuyo caso tendremos que hacerle la prueba a las personas en forma individual; en este caso se necesitan k + 1 pruebas. Por lo tanto, dejemos que X denote el número de pruebas requeridas para la estrategia de la sangre acumulada.

$Mathematical Exercise$ 12. Demostrar que

P(X = 1) = (1 - p)^k, P(X = k + 1) = 1 - (1 - p)^k.
E(X) = (k + 1) - k (1 - p)^k.

$Mathematical Exercise$ 13. Demostrar que, en términos del valor esperado, la estrategia de la sangre acumulada es mejor que la estrategia básica si y sólo si

p < 1 - (1 / k)^{1 / k}.

El gráfico del valor crítico p_k = 1 - (1 / k)^{1 / k}como una función de k en el intervalo [2, 20] se muestra a continuación:

The graph of pk

$Mathematical Exercise$ 14. Demostrar que

El máximo valor de p_k occurre en k = 3, y p₃ ~ 0.307.
p_k decrece a 0 cuando k se incrementa de 3 a .

De los ejercicios 13 y 14, concluimos que si p > 0.307, la acumulación nunca tiene sentido, independientemente del tamaño k del grupo. En el otro extremo, si p es muy chico, de manera que la enfermedad es algo rara, la acumulación es mejor al menos que el tamaño k del grupo sea muy grande.

Ahora suponga que tenemos n personas. Para cualquier k que divide a n, podemos dividir la población en n / k grupos de k personas cada uno, y acumular las muestras de sangre en cada grupo. Note que k = 1 corresponde a hacer las pruebas en forma individual. Dejemos que X_i denote el número de pruebas requeridas para el grupo i.

$Mathematical Exercise$ 15. Razone que si k > 1, X₁, X₂, ..., X_n/k son independientes y cada una tiene la distribución dada en el Ejercicio 12.

El número total de pruebas requeridas para este esquema de partición es

Y_k = X₁+ X₂+ ··· + X_n/k.

$Mathematical Exercise$ 16. Demuestre que el número total esperado de pruebas es

E(Y_k) = n si k = 1
E(Y_k) = n[1 + 1 / k - (1 - p)^k] si k > 1.

Por lo tanto, en términos del valor esperado, la estrategia óptima es agrupar la población en n / k grupos de tamaño k, dónde k minimiza la función definida en el ejercicio anterior. Es difícil conseguir una expresión de forma cerrada para encontrar el valor óptimo de k, pero este valor puede ser determinado numericamente para n y p específicos.

$Mathematical Exercise$ 17. Para los siguientes valores de n y p, encuentre el tamaño de acumulación k óptimo y el número de pruebas esperado.

n = 100, p = 0.01.
n = 1000, p = 0.05
n = 1000, p = 0.001