Não foi possível enviar o arquivo. Será algum problema com as permissões?

Essa é uma revisão anterior do documento!


Introdução

Introdução

A inferência estatística é um conjunto de técnicas que objetiva estudar a população através de evidências fornecidas por uma amostra. O verbo inferir tem o significado de deduzir através do raciocínio, na estatística o processo de dedução ocorre através da análise de dados presentes em uma amostra. Ao sortear uma amostra de uma população, a sua composição é por si só um fenômeno aleatório, ou seja, diferentes sorteios geram diferentes amostras. Por outro lado, diferentes amostras levam a diferentes resultados para as estatísticas de interesse tais como: média, proporção,variância,…Ao pensarmos no tradicional exemplo da amostragem de eleitores para estimação da proporção de votos de um candidato, diferentes institutos de pesquisa coletam diferentes amostras e, por conseqüência, geram diferentes estimativas. Então, cientes de que diferentes amostragens produzem diferentes valores, torna-se relevante questionar como funciona o mecanismo de variabilidade das repostas obtidas em diferentes amostras.

Formalizando, de acordo como o conteúdo visto nos capítulos anteriores, o interesse em coletar uma amostra aleatória corresponde a fazer observações de uma seqüência de n váriaveis aleatórias que aqui será denotada por:

Graph

Para entender como as respostas em uma amostra aleatória podem variar, observe o exemplo 7.1 em Magalhães e Lima (2004).

Exemplo 7.1: Uma empresa fabrica 100 equipamentos eletrônicos por semana e deseja verificar como se comporta a resistência deste tipo de equipamento em relação à alteração de voltagem. Um teste planejado pelo controle de qualidade da empresa, consiste em produzir sucessivas alterações padronizadas de voltagem e observar o efeito no aparelho. Como esses testes são demorados e demandam custos expressivos, apenas 5 desses aparelhos serão testados a cada semana.

Neste exemplo, ao observar um aparelho, a resistência à alteração na voltagem pode ser considerada boa ou má. Isto corresponde a observar uma variável de Bernoulli, ou seja,

Graph

O procedimento do controle de qualidade consiste em observar 5 variáveis aleatórias de Bernoulli, o que pode ser representado pelo vetor:

Graph

Em cada semana a amostra de tamanho n =5 é coletada, ou seja, observa-se o vetor aleatório acima. Suponha que durante um mês este tenha sido o resultado das observações:

Graph

Caso nestas semanas o processo de fabricação esteja sob controle, e as peças tenham sido sorteadas de modo a representar bem os 100 equipamentos fabricados na semana, os valores acima representam 4 diferentes configurações para uma amostra aleatória. Veja abaixo como a proporção de peças boas é estimada em cada semana.

Graph

É importante ressaltar na tabela acima que diferentes configurações da amostra geram diferentes resultados para a estatística de interesse que, neste caso, é a proporção de peças boas.

Parâmetros, Estimadores e Estimativas

Definição Parâmetro é uma quantidade de interesse que, em geral, é desconhecida na população.

Estas quantidades serão representadas, geralmente, por letras gregas e podem especificar uma distribuição de probabilidades. As técnicas de inferência estatística encarregam-se de deduzir o valor de um parâmetro por meio da avaliação de uma amostra.

Alguns parâmetros de interesse

Graph

Graph

Graph

Quando falarmos de forma geral sobre o parâmetro de interesse, vamos aqui utilizar a letra grega Graph.

Definição Estimador é uma função dos valores de uma amostra construída para estimar um parâmetro de interesse. A notação apresentada a seguir traz uma forma padrão de representar um estimador, colocando um acento circunflexo no parâmetro a ser estimado.

Graph

Repare que o estimador é uma função de variáveis aleatórias e, portanto, também é uma variável aleatória.

Um exemplo clássico de estimador é a média amostral. Por meio desta função que soma n elementos de uma amostra e posteriormente divide o resultado por n, temos um estimador intuitivamente natural para a média populacional. Ao avaliar esta função em um conjunto de dados observados, o resultado é denominado estimativa. Com a aplicação de um estimador, podemos encontrar diferentes estimativas em diferentes amostras.

Veja o exemplo abaixo:

Exemplo 7.2 Para estudar o nível de colesterol em uma população de esportistas, coletamos uma amostra de 10 jovens atletas, obtendo os seguintes valores: 180 ; 196 ; 185 ; 165 ; 190 ; 180 ; 176 ; 165 ; 195.

O interesse nesta população é conhecer:

Graph

Consideremos 3 estimadores para esta quantidade:

Graph

notando que X(i) é o i-ésimo valor da amostra ordenada, o primeiro estimador emprega a média aritmética entre o mínimo e máximo da amostra como função para inferência.

Graph

O segundo estimador simplesmente utiliza o primeiro valor presente na amostra (não ordenada) como estimador para a média populacional.

Graph

O último dos estimadores propostos utiliza a média aritmética dos valores da amostra como estimador para a média populacional.

A aplicação dos três estimadores acima à amostra, vai gerar as estimativas :

Graph

Graph

Graph

Exemplo 7.3 Em uma cidade, os taxis estão numerados de 1 até Graph , sendo Graph é um parâmetro desconhecido que representa a quantidade de taxis na cidade. Supondo que os taxis circulam de modo uniforme por toda cidade, uma pessoal anotou a placa dos 5 primeiros taxis que passaram em uma determinada esquina. Estes números foram:

Graph

Esta amostra representa 5 observações da variável aleatória X, número do táxi que passa por aquela esquina. Para estimar o parâmetro, são propostos 3 estimadores:

Graph

Graph

Graph

Os três estimadores acima representam três propostas para estimar a quantidade total de taxis na cidade. As funções da amostra apresentadas acima são respectivamente: máximo, mediana e máximo+mínimo. Ao aplicarmos estes estimadores na amostra obtida teremos as seguintes estimativas:

Graph

Graph

Graph

Cada um dos exemplos acima propõe 3 estimadores, estes são utilizados em uma amostra observada da variável de interesse e são encontradas diferentes estimativas. A questão relevante neste momento é "Qual estimador é o mais apropriado ? ". A princípio esta questão parece não ter resposta, pois não conhecemos o valor do parâmetro de interesse.

Porém, o estimador é uma variável aleatória, logo podemos pensar em calcular probabilidades para seus possíveis valores e avaliar estatísticas como: valor esperado e variância. A partir deste fato são desenvolvidos princípios para qualificar e diferenciar os estimadores. Um estimador mais "preciso", por exemplo, é aquele que possui menor variabilidade de amostra para amostra. O valor esperado de um estimador deve ser o valor do parâmetro de interesse na população. Na sequência são apresentadas algumas propriedades desejáveis para um bom estimador.

Propriedades dos Estimadores

A escolha entre vários estimadores estará norteada pelas propriedades apresentadas a seguir:

Vício (Tendenciosidade)

Um estimador é dito ser não viciado (não tendencioso) se o seu valor esperado é igual ao parâmetro de interesse. Matematicamente escrevemos esta propriedade como:

Graph

Caso o estimador seja viciado, a quantificação deste vício será representada por:

Graph

Exemplo 7.4: Uma variável aleatória X possui média Graph e variância Graph. Para uma amostra aleatória de tamanho n:

Graph

mostre que os estimadores :

Graph

e

Graph

são não viciados para o parâmetro Graph

Estas demonstrações podem ser feitas utilizando somente as propriedades do operador esperança E(.). Para o primeiro estimador, é trivial demonstrar a não-tendenciosidade.

Graph

Para o segundo estimador, média amostral, basta lembrar que o valor esperado de uma soma de variáveis independentes é a soma dos valores esperados, logo,

Graph Graph

O resultado acima é bem geral pois afirma que a média amostral é sempre um estimador não viciado da média populacional. Entretanto, se considerarmos para o mesmo exemplo o estimador :

Graph

para o parâmetro Graph, constatamos que este é viciado !!!

Graph

O vício presente neste estimador é eliminado quando definimos um novo estimador:

Graph

Consistência

Um estimador é dito ser consistente se o seu valor converge para o valor do parâmetro de interesse a medida que a amostra aumenta. Além disto, a sua variabilidade, medida pela variância, converge para 0. Matematicamente, as propriedades de um estimador consistente são expressas como:

  1. Graph
  2. Graph

Repare que a propriedade 1 é menos restritiva do que a propriedade de não-tendenciosidade. O que interessa é que o estimador seja não viciado para grandes amostras, ou seja, valores grandes de n. Eventualmente o estimador pode até ser viciado em pequenas amostras.

O vício do estimador

Graph

é dado por :

Graph.

Entretanto, é direta a verificação de que:

Graph

e logo este estimador é consistente para a variância populacional.

Eficiência

Sejam dois estimadores Graph, não viciados para Graph. O estimador Graph é dito ser mais eficiente do que Graph caso tenha menor variabilidade, ou seja :

Graph.

Esta propriedade estabelece termos de comparação entre dois estimadores. Casos ambos sejam não viciados, a escolha deve recair sobre aquele que for mais eficiente. Como em geral a variabilidade de um estimador está em função de n, tamanho de amostra, um estimador mais eficiente requer uma amostra menor para gerar a mesma precisão do estimador "menos" eficiente.

Exemplo 7.5 : Vamos ilustrar a propriedade de eficiência considerando uma amostra de tamanho n da variável aleatória do Exemplo 7.4 e dois estimadores não viciados para a média populacional:

Graph

e

Graph

Utilizando as propriedades do operador variância, temos que :

Graph

e

Graph

de acordo com a expressão das duas variâncias, o estimador Graph é mais eficiente nas situações em que n>1.

Distribuições Amostrais

Na inferência estatística, procura-se avaliar como as estimativas produzidas por um estimador variam de uma amostra para outra. A situação ideal é aquela em que há conhecimento da distribuição de probabilidade do estimador. Por intermédio dela, é possível avaliar o valor esperado do estimador, assim como sua variância. Nesta seção, a distribuição de probabilidade do estimador é chamada de distribuição amostral.

Veja o exemplo em Magalhães e Lima (2004) que será discutido posteriormente

Exemplo 7.12: Um jogo consiste em lançar uma moeda honesta 3 vezes. Para cada lançamento, se cair cara você ganha 1 ponto, caso saia coroa você perde 1 ponto.

A variável aleatória em questão pode ser expressa da seguinte maneira :

X: resultado, em pontos, após o lançamento de uma moeda.

Sendo assim,

Graph

Uma amostra de tamanho n=3 corresponde a observação do seguinte vetor de variáveis aleatórias:

Graph

onde cada uma delas tem a distribuição de probabilidades :

Graph

Nesta situação, a variável pode assumir somente dois valores e podemos representar todas as possíveis amostras de tamanho 3 , conforme mostrado abaixo:

Graph

O valor da média amostral varia conforme a amostra e, neste caso, temos conhecimento das probabilidades das possíveis médias amostrais. Com estas probabilidades, é direto verificar que:

Graph

Dessa forma, uma vez que

Graph

então o estimador é não viciado para o parâmetro estimado.

Veja agora um resultado geral para a distribuição de probabilidade da média amostral: o Teorema Central do Limite

Exemplo 7.15: Uma variável aleatória X assume os valores 3, 6 e 8 com probabilidades 0,4; 0,3 e 0,3. Uma amostra com 40 observações é sorteada. A variável X não tem distribuição Normal e obtemos µ=5,4 e σ2=4,44. Apesar de não ser simétrica, consideramos que 40 observações é uma amostra grande o suficiente para usar o Teorema Central do Limite.

Para calcular a probabilidade da média amostral superar o valor 5, temos:

Graph

Uma aplicação importante do Teorema Central do Limite relaciona-se com a distribuição da proporção amostral:

Graph

Se construirmos para o i-ésimo indivíduo uma variável aleatória Yi tal que Yi=1 se o indivíduo apresenta a característica, e Yi=0 caso contrário, podemos reescrever a proporção amostral como:

Graph

Logo, a proporção amostral nada mais é do que a média de variáveis aleatórias convenientemente definidas.

Assim, da mesma forma que um conjunto de médias amostrais são distribuídas nas proximidades da média populacional, as proporções amostrais Graph são distribuídas ao redor da verdadeira proporção populacional p. Devido ao Teorema Central do Limite, para n grande e p não muito próximo de 0 ou 1, a distribuição de Graph será aproximadamente normalmente distribuída com média p e variância dada por Graph, ou seja, Graph.

Estimação por Intervalo

Os estimadores discutidos até aqui são estimadores pontuais, pois fornecem como estimativa um único valor numérico para o parâmetro de interesse. Por serem variáveis aleatórias, os estimadores possuem uma distribuição de probabilidade e, levando este fato em consideração, podemos apresentar uma estimativa mais informativa para o parâmetro de interesse que inclua uma medida de precisão do valor obtido.

Esse método de estimação, denominado intervalo de confiança, incorpora à estimativa pontual do parâmetro, informações a respeito de sua variabilidade.

Consideremos, inicialmente, o intervalo de confiança para a média µ de uma certa população Normal, com variância conhecida σ2. Supondo uma amostra de tamanho n dada por (X1, X2,…, Xn), vimos que a média amostral tem distribuição Normal com a mesma média µ e variância σ2/n.

Assim,

Graph

Fixado um valor γ tal que 0<γ<1, podemos encontrar um valor zγ/2 tal que

Graph

O índice de zγ/2 apresenta o valor de γ dividido por 2 uma vez que a "massa" γ deve ser distribuída igualmente em torno de 0.

Distribuição N(0,1)

O valor zγ/2 pode ser obtido da tabela da Normal padrão, localizando o valor de γ/2 no corpo da tabela e obtendo o valor zγ/2 nas margens correspondentes. Feito isso, temos o intervalo

Graph

que pode reescrito como

Graph

Assim, o intervalo de confiança para μ, com coeficiente de confiança γ, é dado por

Graph

A interpretação do intervalo de confiança deve ser feita com cuidado. A expressão IC(μ;γ) envolve a quantidade Graph que é uma variável aleatória e, portanto, o intervalo obtido também é aleatório. A probabilidade que ele contenha o verdadeiro valor da média populacional μ é dada por γ.

No entanto, note que ao coletar a amostra, Graph torna-se Graph e, como conhecemos σ, n e zγ/2, o intervalo passa a ser numérico.

Desta forma, uma interpretação conveniente é a seguinte:

se obtivermos várias amostras de mesmo tamanho e, para cada uma delas, calculamos os correspondentes intervalos de confiança com coeficientes de confiança γ, esperamos que a proporção de intervalos que contenham o valor de μ seja igual a γ.

O exemplo de Magalhães e Lima (2004) a seguir ilustra os conceitos discutidos.

Exemplo 7.18: Suponha que os comprimentos de jacarés adultos de uma certa raça siga o modelo Normal com média μ desconhecida e variância σ2=0,01 m2. Uma amostra de dez animais foi sorteada e forneceu média 1,69 m.

Desejamos uma estimativa para o parâmetro desconhecido μ.

Uma vez que Graph podemos proceder de forma análoga ao desenvolvimento apresentado acima e obter uma estimativa por intervalo para μ.

Estabelecendo γ=95% obtemos da tabela da Normal zγ/2=z0,475=1,96.

Segue então que

Graph

Graph

Intervalos de Confiança Aproximados

A aplicação do Teorema Central do Limite (TCL) permite a obtenção de intervalos de confiança para μ e p. Neste caso, o intervalo construído terá um coeficiente de confiança aproximadamente igual a γ, sendo que esta aproximação melhora à medida que aumenta o tamanho da amostra.

Segundo o TCL, por exemplo, um intervalo de confiança de aproximadamente 95% para p é portanto

Graph

em que Graph

Note que não sabemos o verdadeiro valor de p, e portanto usamos Graph na fórmula acima para estimar SE. Chamamos SE de erro padrão da proporção amostral.

Exemplo: Um ensaio clínico foi realizado para determinar a preferência entre dois analgésicos, A e B, contra dor de cabeça. Cem pacientes que sofrem de dor de cabeça crônica receberam em dois tempos diferentes o analgésico A e o analgésico B. A ordem na qual os pacientes receberam os analgésicos foi determinada ao acaso. Os pacientes desconheciam esta ordem. Ao final do estudo foi perguntado a cada paciente qual analgésico lhe proporcionou maior alívio: o primeiro ou o segundo. Dos 100 pacientes, 45 preferiram A e 55 preferiram B. Com base nestas informações podemos dizer que há prefência por algum dos analgésicos?

Dizemos que não há preferência por um dos analgésicos quando a proporção dos que preferem A (pA), é igual a proporção dos que preferem B (pB). Como temos dois resultados possíveis, pA e pB são iguais quando pA=pB=0,5.

Um intervalo de aproximadamente 95% de confiança para a verdadeira proporção de pacientes que preferem o analgésico A é:

Graph

Então com aproximadamente 95% de confiança, a verdadeira proporção de pacientes que preferem o analgésico A está entre 0,35 e 0,55. Observe que este intervalo contem o valor 0,5 então concluímos que não existem evidências amostrais de preferência por um dos analgésicos.

Dimensionamento de Amostras

A amplitude do intervalo de confiança para μ é dada por Graph ou seja, depende da confiança γ, do desvio padrão σ e do tamanho da amostra n.

É usual referir-se à semi-amplitude, como o erro envolvido na estimação. Podemos utilizar esta medida para fazer o dimensionamento de amostras.


QR Code
QR Code disciplinas:ce067:teoricas:estimacao (generated for current page)