Tabela de conteúdos

Variáveis Aleatórias Contínuas

Variáveis Aleatórias Contínuas

Introdução

Discutiremos agora a caracterização de variáveis cujos possíveis valores ocorrem aleatoriamente e pertencem a um intervalo dos números reais: variáveis aleatórias contínuas.

Exemplos de variáveis aleatórias contínuas:

Precisamos caracterizar a distribuição de probabilidade de uma variável aleatória contínua.

Exemplo 6.1: Estudos anteriores revelam a existência de um grande lençol de água no subsolo de uma região. No entanto, sua profundidade ainda não foi determinada, sabendo-se apenas que o lençol pode estar situado em qualquer ponto entre 20 e 100 metros.

Vamos supor que escolhemos, ao acaso, um ponto nessa região e dispomos de uma sonda que, ao fazer a perfuração, detecta com precisão a profundidade do reservatório de água.

Denotamos por X a variável aleatória representando a profundidade.

Note que apesar de X poder ser qualquer número entre 20 e 100 metros, o instrumento com que trabalhamos, pode não ser tão preciso como gostaríamos. Por exemplo, uma profundidade de 32,571 metros poderia ser medida por 32,6 metros. Vamos assumir, entretanto, que temos um instrumento ideal que não faz aproximações.

Nessas condições, podemos supor a sonda acoplada a um instrumento indicador da profundidade e um dispositivo que, quando a sonda encontrar a água, provoque a imediata interrupção da perfuração.

Uma vez que não temos informações adicionais a respeito da profundidade do lençol, é razoável assumirmos que a sonda pode parar em qualquer ponto entre 20 e 100 metros, sem que tenhamos motivos para privilegiar essa ou aquela profundidade.

Em geral, em situações como esta, não é de interesse considerar um único valor para avariável aleatória, mas intervalos de valores na atribuição de probabilidades.

Neste caso, sabemos que o espaço amostral corresponde ao intervalo [20, 100] e as profundidades são igualmente prováveis.

Para construir um histograma podemos supor que 1/8 é a frequência relativa da ocorrência de cada um dos intervalos.

As ordenadas do gráfico são as densidades, calculadas de modo que a área de cada retângulo seja a frequência relativa (probabilidade) do intervalo.

Histograma em 8 intervalos

Note que, dada as características do problema, a divisão em 8 intervalos produziu o mesmo valor de densidade de 1/80 para todos eles.

Histograma em 16 intervalos

O histograma mostra que, apesar de termos diferentes intervalos, a densidade permanece com o mesmo valor, igual a 1/80.

Densidade de Probabilidade

Graph

Nesse exemplo, a função densidade é bastante simples, e portanto a probabilidade de que a profundidade do lençol esteja em um dado intervalo pode ser calculada com o uso de áreas de figuras planas.

Para obter a probabilidade de uma profundidade pelo menos igual a 25, mas inferior a 29, calculamos a área do retângulo:

Área do retângulo

e, portanto, Graph


Função Densidade de Probabilidade

Dizemos que f(x) é uma função contínua de probabilidade ou função densidade de probabilidade para uma variável aleatória contínua X, se satisfaz duas condições:

  1. f(x) ≥ 0, para todo Graph;
  2. A área definida por f(x) é igual a 1, ou seja,

Graph

Da mesma forma, para calcular probabilidades, temos que para Graph.

Graph

a integral acima, indica a área sob a função f definida pelo intervalo [a,b].

Exemplo 6.2: Arqueólogos estudaram uma certa região e estabeleceram um modelo teórico para a variável C, comprimento de fósseis da região (em cm). Suponha que C é uma variável aleatória contínua coma a seguinte função densidade de probabilidade:

Graph

É direto verificar que :

Graph

e calculando a área abaixo da função (representa o cálcula da área de um trapézio) verifica-se que esta é igual a 1. Portanto, Graph é uma função de densidade de probabilidade.

A probabilidade de escolher ao acaso um fóssil e este apresentar comprimento inferior a 8 cm, pode ser calculada através da área de um trapézio com altura menor.

Como exercício, construa o gráfico da função Graph no intervalo de 0 a 20 e verifique que a área requerida, ou seja,

Graph.

Medidas de posição para variáveis aleatórias contínuas

Definição: Valor esperado também conhecido por média, expectância ou esperança de uma variável aleatória contínua X é dado pela expressão :

Graph

A expressão apresentada acima assemelha-se à utilizada para variáveis aleatórias discretas, substituindo o símbolo de somatório pelo símbolo de integral.

Definição: A mediana de uma variável aleatória contínua é um valor Md que satisfaz a seguinte propriedade :

Graph e Graph

Definição A moda de uma variável aleatória X é o valor Mo tal que:

Graph

ou seja, Mo é o valor de máximo da função f(x).

Variância de uma variável aleatória contínua

Para uma variável aleatória X com densidade f(x), a variância é dada por:

Graph

alternativamente, ela pode ser calculada por:

Graph

onde

Graph.

O desvio padrão Graph é calculado através da raiz da variância.

Principais Modelos Contínuos

O modelo probabilístico para uma variável aleatória contínua é especificado através da forma funcional de f(x), a função densidade de probabilidade que deve ser positiva e com integral igual a 1. Serão vistos 3 dos principais modelos conínuos: uniforme, exponencial e normal.

Modelo Uniforme Contínuo

O primeiro modelo a ser apresentado traz uma situação análoga ao modelo uniforme discreto. Uma variável que assume valores no intervalo [a,b] com a<b , é dita ter distribuição uniforme contínua se sua função densidade de probabilidade é dada por :

Graph

Neste caso, a função f(x) é constante no intervalo [a,b] e sua área total pode ser calculada através da área de um retângulo de base b-a e altura 1/(b-a). Pelo produto da base pela altura do retângulo, verificamos que esta é uma função densidade de probabilidade pois sua área é igual a 1.

No modelo uniforme contínuo, a média e variância são dados respectivamente por :

Graph

Graph

Como as probabilidades estão simetricamente distribuídas em torno da média, esta será igual a mediana no modelo uniforme.

Modelo Exponencial

O modelo exponencial é muito aplicado quando o interesse é descrever em termos probabilísticos o tempo (espaço) até a ocorrência de um evento de interesse. Alguns exemplos de variáveis modeladas por esta distribuição são :

De forma mais geral, uma variável aleatória contínua é modelada pela distribuição exponencial se sua função densidade de probabilidade é descrita por:

Graph

Para o modelo exponencial, a média e variância são inversamente proporcionais ao parâmetro α:

E[X]=1/α e V[X] = 1/α².

Na distribuição exponencial, a probabilidade da variável aleatória pertencer ao intervalo (a,b) é obtida através de :

Graph

Grafico

Exemplo 6.3 Uma indústria fabrica lâmpadas especiais que ficam em operação continuamente. A empresa oferece a seus clientes a garantia de reposição caso a lâmpada dure menos de 50 horas. A vida útil desta lâmpada é modelada pela distribuição exponencial com parâmetro 1/8000. Qual a proporção de lâmpadas trocadas por defeito ?

Neste exemplo,

Graph

e a proporção a ser calculada é representada pela probabilidade :

Graph

e desta forma, espera-se que apenas 0,6% das lâmpadas fabricadas sejam trocadas por defeito. Repare que esta pequena probabilidade representa uma informação consistente com o tempo médio de vida útil da lâmpada que é igual a 8000 horas, ou seja, o inverso do parâmetro da distribuição exponencial.

Comentário 1: a distribuição exponencial está diretamente ligada à distribuição Poisson, inclusive o parâmetro Graph representa a intensidade de ocorrência do evento de interesse em uma unidade de tempo/espaço.

Comentário 2: a distribuição exponencial possui uma propriedade chamada "falta de memória" (no inglês memoryless). Esta propriedade é expressa pela igualdade abaixo:

Graph

Modelo Normal (Gaussiano)

O modelo normal, ou Gaussiano, é certamente o mais importante dos modelos para variáveis aleatórias contínuas. Isto justifica-se pelo grande número de aplicações que a utilizam e pela sua capacidade de aproximar outros modelos.

A função de densidade de probabilidade da distribuição normal é dada por:

Graph

Algumas importantes propriedades desta distribuição são :

  1. Graph (f(x) é simétrica em torno de μ)
  2. Graph quando Graph
  3. o valor máximo de f(x) se dá para x = μ

Nesta distribuição, a média, mediana e moda são valores coincidentes.

Grafico

O cálculo de probabilidades na distribuição normal é feito mediante o conhecimento da média e desvio-padrão da variável aleatória. Dada a importância desta distribuição, estas duas medidas são consideradas as mais importantes para verificar tendência central e dispersão, respectivamente.

Embora a média e o desvio-padrão sejam os parâmetros para o cálculo de probabilidades na distribuição normal, para avaliar a expressão:

Graph

recorremos à métodos numéricos e os resultados obtidos são aproximados.

Normal padronizada

Para auxiliar o cálculo de probabilidades para uma variável X, através da distribuição normal, foi desenvolvida uma tabela para uma variável padronizada, que chamamos aqui de Z.

Graph

Z representa a quantidade de desvios-padrão que X dista da média.

Exemplo 6.4 Em uma sala de aula, os alunos apresentam, em média (Graph) 8 anos de idade com um desvio padrão (Graph) igual a 2,5 anos. Para um grupo de 5 alunos, associou-se a cada um deles a sua idade padronizada, conforme a expressão acima.

Graph

Ao utilizar o escore padronizado, dizemos que o aluno 4, por exemplo, está 1,6 desvios-padrão abaixo da média. De fato, com exceção do aluno 3, todos os outros alunos estão abaixo da média de idade da turma, Graph.

Repare que para uma variável padronizada, as probabilidades podem ser obtidas :

Graph

Exemplo 6.5: Um estudo foi realizado para medir o nível de estresse de alunos durante o exame de matemática. Foi Constatado que o nível de estresse apresenta distribuição normal com média igual a 8,2 e desvio-padrão igual a 1,34. Em um próximo exame, qual a probabilidade de um determinado aluno ter estresse com nível entre 9 e 10?

Probabilidades Normais

A probabilidade questionada é encontrada através da área hachurada sob a curva normal exibida na figura acima. As áreas da normal comum e da normal padronizada são equivalentes. Portanto, com auxílio de uma tabela chega-se ao resultado:

Graph

Graph

O resultado indica que 18,6% dos estudantes têm nível de estresse entre 9 e 10. Esta probabilidade pode ser encontrada com auxílio de tabelas que em geral acompanham livros de estatística básica como a primeira encontrada neste link de tabelas.

Aproximação da Distribuição Binomial pela Normal

Em algumas situações, o cálculo de probabilidades de uma variável pode ser feito de modo aproximado utilizando a distribuição normal, mesmo que esta variável possua uma outra distribuição. Não serão todas as distribuições "não-normais" que se encaixarão nestes casos, mas algumas como a binomial são razoavelmente aproximadas pela normal sob algumas condições.

Vejamos o seguinte exemplo em Magalhães e Lima (2004).

Exemplo 6.6: Estudo do sindicato dos bancários indica que cerca de 30% dos funcionários de um banco têm problemas de estresse, provenientes das condições de trabalho. Numa amostra de 200 bancários, qual seria a probabilidade de pelo menos 50 com essa doença ?

Pela descrição da variável em questão,

Graph

o modelo binomial é adequado para calcular as probabilidades,

Graph

que serão obtidas a partir de:

Graph.

Entretanto, este cálculo somente é viável se for utilizado um computador ou uma calculadora já programada para efetuar tal operação, pois envolve a somatória de 151 probabilidades. Uma das formas de obter este resultado, de modo aproximado, é admitir que X é uma variável aleatória contínua e, pelas próprias características da distribuição binomial, a normal torna-se candidata natural para reger as probabilidades nesta aproximação. Então, com esta aproximação :

se

Graph

de modo que

Graph

Graph então,

Graph

No exemplo acima, os parâmetros da distribuição normal corresponderiam à média e desvio padrão da binomial, obtidos respectivamente por : Graph.

Denominando Y uma variável com distribuição normal, conforme os parâmetros acima, calculamos a probabilidade requisitada com o uso da distribuição aproximada:

Graph

Em valor absoluto, a diferença da aproximação foi igual a |0,9382-0,9484|=0,0102. Notamos que o erro de aproximação subestima a probabilidade verdadeira em um pouco mais de 1%. Em algumas situações, especialmente àquelas onde n é pequeno, este erro pode ser mais dramático. Um procedimento utilizado para melhorar a aproximação é utilizar a chamada correção de continuidade.

Para uma variável aleatória discreta, faz sentido calcular a probabilidade P(X=k), entretanto ao aproximá-la por uma variável aleatória contínua, tal probabilidade resultaria em zero. Para garantir, de modo aproximado, que seja encontrado o valor desta probabilidade uma saída é aplicar a correção de continuidade de modo que para a variável aleatória contínua Y tenhamos, por exemplo:

Graph

que representa uma probabilidade aproximada da variável aleatória discreta X assumir o valor k. Em nosso caso, Y segue a distribuição normal.

A correção de continuidade no Exemplo 6.6 é feita de modo a garantir a inclusão do valor 50 para o cálculo da probabilidade, desta forma :

Graph Graph

e com a correção, o erro absoluto da aproximação passa a ser |0,9474-0,9484|=0,001.

Propriedades da Distribuição Normal

Algumas propriedades tornam ainda mais importante o uso da distribuição normal na teoria de inferência estatística que será vista nos próximos capítulos. Uma das principais propriedades será enunciada e não demonstrada.

Seja Graph uma sequência de variáveis aleatórias independentes, normalmente distribuídas com média Graph e variância Graph, uma combinação linear:

Graph

onde

Graph são constantes quaisquer,

segue a distribuição normal com média e variância dados respectivamente por:

Graph

Graph

O resultado faz com que a distribuição normal possa ser utilizada em várias situações . Veja o exemplo abaixo retirado de Magalhães e Lima (2004).

Exemplo 6.7 Uma corretora negocia títulos na Bolsa de Valores e utiliza um modelo probabilístico para avaliar seus lucros. Suas aplicações financeiras de compra e venda atingem três áreas: agricultura, indústria e comércio. Admita que o seguinte modelo representa o comportamento do lucro diário da corretora (em milhões de reais) :

Graph

com LA,LI, e LC representando, respectivamente, os lucros diários nos setores de agricultura, indústria e comércio. As distribuições de probabilidade dessas variáveis aleatórias são :

Graph

Graph

Graph.

Supondo independência entre os três setores, qual será a probabilidade de um lucro diário acima de 50 mil ?

Para responder a pergunta acima, iremos utilizar a propriedade da distribuição normal que assegura que a combinação linear de normais independentes também será explicada por um modelo normal. Desta forma, o lucro segue distribuição normal com média e variância dados respectivamente por :

Graph

Graph

A probabilidade do lucro diário a corretora ser maior do que 50 é obtido através de:

Graph

com este resultado, espera-se que em 46% dos dias de operação, a corretora tenha lucro diário acima de 50 mil.