Essa é uma revisão anterior do documento!
Tabela de conteúdos
Variáveis Aleatórias Discretas
Introdução
Ao observar um fenômeno aleatório, muitas vezes números podem ser associados aos elementos do espaço amostral. Quando o espaço amostral for finito ou infinito, mas enumerável, é conveniente associar números (em geral no conjunto dos inteiros) aos seus elementos. Veja o exemplo abaixo.
Exemplo: Uma moeda honesta é arremessada duas vezes consecutivas e, consequentemente, o espaço amostral é formado por
Ao conjunto podemos associar números de uma forma conveniente. Considere X a quantidade de caras obtidas nos dois lançamentos. Deste modo, X é uma função que leva os elementos do espaço amostral aos números reais, mas especificamente ao conjunto .
É mais fácil notar que a variável aleatória é uma função do espaço amostral se adotarmos a notação abaixo:
Dependendo do par de resultados nos dois lançamentos X assume um valor real.
- X é denominada de variável aleatória discreta, se assume valores num conjunto enumerável, com certa probabilidade;
- X será denominada variável aleatória contínua se seu conjunto de valores é qualquer intervalo dos números reais, o que seria um conjunto não enumerável. Este tipo de variáveis serão tratadas posteriormente no curso.
Função discreta de probabilidade
Seja X uma variável aleatória discreta e ,…, seus diferentes valores.
A função que atribui a cada valor da variável aleatória sua probabilidade é denominada de função discreta de probabilidade ou, simplesmente, função de probabilidade.
ou ainda,
Uma função de probabilidade satisfaz:
e .
As variáveis aleatórias são completamente caracterizadas pela sua função de probabilidade e uma parte importante da Estatística é, justamente, obter para uma dada variável de interesse, a função de probabilidade que melhor represente seu comportamento na população.
Exemplo 3.1: Com dados do último censo, a assistente social de um Centro de Saúde contatou que para as famílias da região, 20% não têm filhos, 30% têm um filho, 35% têm dois e as restantes se dividem igualmente entre três, quatro ou cinco filhos. Suponha que uma família será escolhida, aleatoriamente, nessa região e o número de filhos averiguado.
Definimos N como sendo a variável aleatória número de filhos. Desse modo, estamos sorteando um valor de N dentre 0,1,2,3,4 ou 5.
A função de probabilidade dessa variável segue as informações disponíveis:
- Como 20% das famílias não têm filhos, então a probabilidade de uma família sorteada ao acaso não ter filhos é .
- De forma semelhante, temos que e .
- Para completar a caracterização probabilística de N, falta obter , e .
Segundo as informações fornecidas, elas são iguais, digamos a p. Utilizando a definição de função discreta de probabilidade, temos que:
Logo, a função de probabilidade para N é dada pela tabela a seguir:
Figura 3.1a - Função de Probabilidade para N (Número de Filhos)
Devemos lembrar que probabilidade é uma função cujo comportamento pode ser visualizado em um plano cartesiano, conforme o gráfico exibido na Figura 3.1a.
Função de distribuição de probabilidade
A função de distribuição acumulada de probabilidade é definida como:
A função F(x) acumula probabilidades até um determinado valor x. Perguntas tais como:
- Qual a probabilidade de ocorrência de valores menores ou iguais a dois no lançamento de um dado?
- Qual a probabilidade de encontrar uma família com dois filhos ou menos em uma determinada localização ?
- Qual a probabilidade de realizar 4 lançamentos, ou menos, de uma moeda honesta até a obtenção da primeira cara ?
Exemplo 3.5: Uma população de 1000 crianças foi analisada num estudo para determinar a efetividade de uma vacina contra um tipo de alergia. No estudo, as crianças recebiam uma dose da vacina e, após um mês, passavam por um novo teste. Caso ainda tivessem tido alguma reação alérgica, recebiam outra dose da vacina. Ao fim de 5 doses, todas as crianças foram consideradas imunizadas. Os resultados completos estão na tabela a seguir:
Doses | 1 | 2 | 3 | 4 | 5 |
freq.abs. | 245 | 288 | 256 | 145 | 66 |
Conforme o quadro acima, a variável número de doses recebidas obedece a seguinte lei de probabilidade:
Uma questão importante para o planejamento do posto de saúde pode ser: qual a probabilidade da criança necessitar no máximo de 2 doses ? Pelos dados levantados na população de 1000 crianças, esta probabilidade será encontrada avaliando-se a funçao de distribuição acumulada no valor . Então:
Após o cálculo, verifica-se que a probabilidade de uma criança tomar 2 doses ou menos é igual a 53,3%.
Medidas de posição para variáveis aleatórias discretas
Quando há o conhecimento da distribuição de probabilidade de uma variável aleatória X, as medidas resumo de tendência central podem ser obtidas a partir das probabilidades. Por exemplo, seja X uma variável com a seguinte distribuição de probabilidades:
A média da variável aleatória X pode ser encontrado através de uma média dos valores de X ponderados pelas suas respectivas probabilidades.
Desde que sejam conhecidas as probabilidades, a média, também conhecida por valor esperado ou esperança da variável aleatória X é obtida através da expressão:
- Média de uma variável aleatória X
- Mediana (Md) de uma variável aleatória X
A mediana de uma variável aleatória é um número (Md) tal que:
e
- Moda (Mo) de uma variável aleatória X
A moda é o valor que tem a maior probabilidade de ocorrência. Tal como ocorre para um conjunto de dados, a moda pode não existir. Isto ocorre para a variável aleatória com distribuição uniforme discreta.
Exemplo 4.3 Seja uma variável aleatória discreta com a seguinte função de probabilidade:
- A média é obtida através de
- Para o cálculo da mediana, observe a tabela abaixo:
Md=8 pois : e
- A moda é o valor com maior probabilidade associada.
Medidas de dispersão para uma variável aleatória discreta
Variância
Conforme visto anteriormente, a variância é obtida através da média dos desvios quadráticos. Quando há conhecimento do modelo probabilístico para uma variável aleatória discreta a variância é obtida como a média ponderada dos desvios quadráticos e a ponderação é dada pelas probabilidades.
Na expressão acima, lembre-se que a média é obtida conforme:
se este termo for substituído na expressão da variância, após alguma álgebra podemos reexpressar o resultado:
Desvio padrão
Uma vez calculada a variância, o desvio padrão é encontrado a partir da raiz deste número.
Para o cálculo das duas quantidades acima, é necessário o conhecimento do modelo probabilístico pois este descreve completamente o comportamento da variável aleatória discreta. Vejamos o exemplo abaixo:
Exemplo 4.4 O tempo de duração de uma lâmpada (quantidade em horas) foi modelado por uma variável aleatória X com a seguinte função de probabilidade:
Qual a variância e desvio padrão do tempo de duração desta lâmpada ?
Para calcular a variância, primeiramente calculamos a média:
Calculamos o valor esperado de X2
e calculamos a variância como:
.
O desvio padrão, por consequência é :
Frequência Esperada x Frequência Observada
Caso haja conhecimento sobre o modelo probabilístico, pode-se avaliar a aderência de dados amostrais à este modelo.
Exemplo 3.6: Num estudo sobre a incidência de câncer foi registrado, para cada paciente com esse diagnóstico, o número de casos de câncer em parentes próximos (pais, irmãos, filhos, primos e sobrinhos). Os dados de 26 pacientes são os seguintes:
Paciente | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 |
Incidência | 2 | 5 | 0 | 2 | 1 | 5 | 3 | 3 | 3 | 2 | 0 | 1 | 1 | 4 | 5 | 2 | 2 | 3 | 2 | 1 | 5 | 4 | 0 | 0 | 3 | 3 |
Estudos anteriores assumem que a incidência de câncer e, parentes próximos pode ser teoricamente modelada pela seguinte função discreta de probabilidade:
Os dados observados concordam com o modelo teórico?
Da tabela de dados brutos com as 26 observações, coletamos para cada valor da variável, o número de suas ocorrências. Por outro lado, seguindo o modelo teórico, a frequência esperada é calculada como . A tabela a seguir apresenta os resultados:
Incidência | ni | ei |
0 | 4 | 2,6 |
1 | 4 | 2,6 |
2 | 6 | 7,8 |
3 | 6 | 7,8 |
4 | 2 | 2,6 |
5 | 4 | 2,6 |
Total | 26 | 26 |
Figura 3.2a: Gráfico de frequências observadas x esperadas.
Notamos da Figura 3.2a que os dados observados seguem a mesma tendência do modelo teórico, porém seus valores são discrepantes. É uma amostra pequena, mas parece não haver boa adaptação entre os dois conjuntos de números.
Principais Modelos Discretos
Algumas variáveis aleatórias aparecem com bastante frequência em situações práticas e justificam um estudo mais aprofundado. Nestes casos, a distribuição de probabilidade pode ser escrita de uma maneira mais compacta, ie, existe uma lei para atribuir probabilidades. Vejamos algumas delas…
Modelo Uniforme Discreto
Seja X uma variável aleatória discreta cujos possíveis valores são representados por .
Dizemos que X segue o modelo Uniforme Discreto se sua função de probabilidade é dada por:
OBS: Esta expressão realmente representa uma função de probabilidade pois:
- seus valores estão no intervalo [0,1];
- a soma de todas as probabilidades é igual a 1.
Exemplo 3.7: Uma rifa tem 100 bilhetes numerados de 1 a 100. Tenho 5 bilhetes consecutivos numerados de 21 a 25 e meu colega tem outros 5 bilhetes, com os números 1, 11, 29, 68 e 93. Quem tem maior possibilidade de ser sorteado?
Assumindo a honestidade da rifa, todos os números tem a mesma probabilidade de ocorrência, com 1/100 para cada um.
A variável o número sorteado segue o modelo Uniforme e, portanto, eu e meu colega com 5 bilhetes temos a mesma probabilidade de ganhar a rifa.
Segundo o modelo Uniforme a maior ou menor probabilidade de ganhar depende de quantos bilhetes se tem e não da particular escolha do número.
- Comentários
- O modelo uniforme é adequado para fenômenos aleatórios com espaço amostral finito.
- No modelo uniforme, os eventos elementares do espaço amostral finito têm todos a mesma probabilidade.
- Quando não há conhecimento sobre a distribuição de probabilidades, este modelo é o que melhor representa ignorância sobre o fenômeno aleatório pois atribui iguais probabilidades aos elementos de
- O gráfico de F(x) da função de distribuição de probabilidades (figura 3.3a) assemelha-se a uma escada em que os degraus tem a mesma altura.
Figura 3.3a - Função de Distribuição de Probabilidade para Variável Uniforme Discreta(k=6)
Modelo Bernoulli
Em muitas situações práticas a variável de interesse assume somente dois valores:
- uma peça é classificada como boa ou defeituosa;
- o entrevistado concorda ou não com a afirmação feita;
- a vacina imunizou ou não a criança.
Estas situações têm alternativas dicotômicas, que genericamente podem ser representadas por respostas do tipo sucesso-fracasso.
Experimentos deste tipo recebem o nome de Ensaios de Bernoulli e dão origem a uma variável aleatória com o mesmo nome.
Dizemos que uma variável X segue o modelo Bernoulli se atribui 0 ou 1 à ocorrência de fracasso ou sucesso, respectivamente.
Com p representando a probabilidade de sucesso, , sua função discreta de probabilidade é dada por:
OBS: A repetição de ensaios de Bernoulli independentes dá origem à mais importante variável aleatória discreta cujo modelo é denominado Modelo Binomial.
Exemplo 3.8: Sabe-se que a eficiência de uma vacina é de 80%. Um grupo de três indivíduos é sorteado, dentre a população vacinada, e submetido a testes para averiguar se a imunização foi efetiva, evento representado por I.
Consideramos que a escolha dos 3 indivíduos foi feita de uma população muito grande, ie, é como se a escolha tivesse sido com reposição.
Suponha que cada indivíduo escolhido tem probabilidade 0,80 de estar imunizado, independente dos outros indivíduos na população.
Se classificarmos como sucesso a ocorrência de imunização, temos a repetição independente de três ensaios de Bernoulli.
Desejamos estudar o comportamento da variável X: número de indivíduos imunizados nesse grupo
X assume os valores 0, 1, 2, 3 com as seguintes probabilidades:
Eventos | Probabilidade | X |
3 | ||
2 | ||
2 | ||
2 | ||
1 | ||
1 | ||
1 | ||
0 |
A função de probabilidade de X fica então:
As probabilidade acima podem ser escritas através da expressão:
em que
.
OBS: Estas probabilidades correspondem aos termos do desenvolvimento em binômio de Newton de , o que justifica o nome escolhido para esse modelo.
Modelo Binomial
Considere a repetição de n ensaios de Bernoulli independentes e todos com a mesma probabilidade de sucesso p.
A variável aleatória X que conta o número total de sucessos é denominada Binomial com parâmetros n e p e a denotaremos por X ~ b(n,p).
Sua função de probabilidade é dada por:
Frequência Esperada x Frequência Observada
Caso haja conhecimento sobre o modelo probabilístico, novamente pode-se avaliar a aderência de dados amostrais à este modelo.
Exemplo 3.10: Um veterinário está estudando o índice de natalidade em porcos sijeitos à inseminação artificial. Para tal, coletou informações sobre a variável número de filhos nascidos vivos em cada uma das 100 inseminações realizadas com o mesmo reprodutor, N.
N | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
Freq. Observada | 1 | 6 | 7 | 23 | 26 | 21 | 12 | 3 | 1 |
Seria interessante estabelecer um modelo probabilístico para a variável de interesse pois isso possibilitaria a comparação de reprodutores.
O veterinário informa que a ocorrência de 11 ou mais filhotes nascidos vivos é rara e pode ser desprezada em termos do modelo.
Traduzindo para a linguagem de modelos, ele sugeriu que a variável N: número de filhotes nascidos vivos poderia ser ajustada pelo modelo Binomial com parâmetros n=10 e p=0,5.
O que você acha da sugestão do veterinário?
Com o modelo sugerido calculamos as probabilidades de cada um dos valores de 0 a 10, e a partir deles, os resultados esperados em 100 inseminações.
Por exemplo:
Então, segundo o modelo espera-se 11,7 nascimentos com 7 filhotes dentre 100 inseminações.
N | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
Freq. Observada | 0 | 1 | 6 | 7 | 23 | 26 | 21 | 12 | 3 | 1 | 0 |
Freq. Esperada | 0,1 | 1 | 4,4 | 11,7 | 20,5 | 24,6 | 20,5 | 11,7 | 4,4 | 1 | 0,1 |
O modelo proposto parece se ajustar bem aos dados observados e tendemos a acreditar que o modelo Binomial é uma escolha adequada.
Figura 3.4: Gráfico de frequências observadas x esperadas-natalidade em porcos.
Outros Modelos Discretos
Os modelos Geométrico, Poisson e Hipergeométrico, têm várias aplicações práticas, conforme ilustram os exemplos desta seção.
Na seção anterior, os modelos definidos assumiram apenas um número finito de valores distintos. Como veremos a seguir, os modelos Geométrico e Poisson podem ter um número infinito de valores dentre os inteiros positivos.
Modelo Geométrico
Dizemos que uma variável aleatória X tem distribuição Geométrica de parâmetro p, ie X ~G(p), se sua função de probabilidade tem a forma
Interpretando p como a probabilidade de sucesso, a distribuição Geométrica pode ser pensada como o número de ensaios de Bernoulli até o primeiro sucesso.
Exemplo 3.11: Uma linha de produção está sendo analisada para efeito de controle da qualidade das peças produzidas. Tendo em vista o alto padrão requerido, a produção é interrompida para regulagem toda vez que uma peça defeituosa é observada. Se 0,1 é a probabilidade da peça ser defeituosa, estude o comportamento da variável Q, quantidade de peças boas produzidas antes da 1a. defeituosa.
Admitindo que a probabilidade de uma peça ser defeituosa seja constante, independentemente da qualidade das demais.
Sendo a ocorrência de peça defeituosa um sucesso, podemos aplicar o modelo Geométrico.
Observe que o número de peças boas produzidas é exatamente o quanto se "espera" para a ocorrência do primeiro sucesso.
cuja representação gráfica está na Figura 3.5.
Figura 3.5: Modelo Geométrico (p=0,1).
Modelo Poisson
Uma variável aleatória X tem distribuição de Poisson com parâmetro , ie X ~Po(), se sua função de probabilidade é dada por
com o parâmetro sendo usualmente referido como a taxa de ocorrência ou também a frequência média ou esperada de ocorrências num determinado intervalo de tempo.
Exemplo 3.13: Engenheiros da companhia telefônica estudam se o modelo de Poisson pode ser ajustado ao número N de chamadas interestaduais que chegam por hora a uma central telefônica, durante o período noturno.
Os dados coletados referentes a 650 períodos de uma hora, estão representados a seguir:
N | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | ≥8 |
Freq. Observada | 9 | 38 | 71 | 115 | 125 | 106 | 79 | 50 | 57 |
Freq. Esperada | 7,22 | 32,50 | 73,13 | 109,66 | 123,37 | 111,02 | 83,27 | 53,56 | 56,36 |
Os engenheiros sugerem utilizar uma taxa de ocorrência de 4,5 chamadas por hora no período estudado.
Seguindo o modelo indicado, a frequência esperada de ocorrências com k chamadas é obtida multiplicando 650 pela probabilidade de k chamadas.
Para k=2 por exemplo, temos
Freq. esperada para 2 chamadas=
O ajuste do modelo Poisson com parece razoável.
OBS: Se o intervalo de tempo é alterado, a variável aleatória mantém a mesma distribuição de Poisson, mas com o valor do parâmetro ajustado de forma conveniente. Assim se o período de tempo considerado for por exemplo de duas horas, teremos que o número de chamadas em duas horas terá distribuição Po(9).