Variáveis Bidimensionais

Variáveis Bidimensionais

Introdução

Em um levantamento de dados é comum o estudo de muitas variáveis. Ao aplicar um questionário, por exemplo, o interesse pode estar em registrar: sexo, idade, renda, time da preferência, etc…Neste caso, cada respondente tem associado a si um vetor de informações que representa uma observação multidimensional, ou seja, ele é analisado em múltiplos aspectos ou dimensões. Até este ponto, os métodos estatísticos apresentados foram aplicados a uma variável por vez. Tabelas de frequência, gráficos e medidas resumo foram apresentadas para estudar o comportamento de uma única variável. Entretanto, o interesse pode recair sobre o comportamento conjunto de um par de variáveis. Por exemplo, em uma turma de estatística o interesse pode ser o número de meninas que torcem pelo time do Coritiba ou a idade média dos meninos. Note que as informações requisitadas referem-se ao comportamento conjunto de duas variáveis.

Exemplo 5.1:Uma amostra de 20 alunos do primeiro ano de uma faculdade foi escolhida. Perguntou-se aos alunos se trabalhavam, variável que foi representada por X, e o número de vestibulares prestados, variável representada por Y.

Graph

Graph

Com a amostra de 20 alunos, foram obtidas as tabelas de frequência simples para cada uma das duas variáveis:

Graph

Graph

Neste caso, é possível construir uma tabela que mostre o comportamento conjunto das duas variáveis. Neste caso, ela é chamada de tabela de dupla entrada ou tabela de contingência.

Graph

Repare que nas marginais da tabela de dupla entrada aparecem as frequências das tabelas simples. Por isto, as tabelas simples também são chamadas de tabelas de frequências marginais.

A concepção de uma tabela de frequência para um par de variáveis é também utilizada para a modelagem probabilística. Assim como foi apresentada a função de probabilidade para a variável aleatória discreta, uma extensão natural é a função de probabilidade para um vetor (X,Y) de variáveis. Com esta função podemos responder a questões do tipo: ao selecionar um aluno da turma de estatística qual a probabilidade dele trabalhar e ter menos de 20 anos ?

Função de probabilidade conjunta

Sejam X e Y duas variáveis aleatórias discretas originárias do mesmo fenômeno aleatório, com valores atribuídos a partir do mesmo espaço amostral. A função de probabilidade conjunta é definida como:

Graph

A função de probabilidade conjunta apresenta algumas propriedades tais como

Graph

Graph

Graph

Exemplo 5.2:Uma região foi subdividida em 10 sub-regiões. Em cada uma delas foram observadas duas variáveis: número de poços artesianos(X) e número de riachos ou rio presentes (Y) na sub-regiao. Os resultados encontrados foram:

Graph

Um estudo vai selecionar, ao acaso, uma das sub-regiões, desta forma cada uma tem probabilidade 1/10 de ser selecionada. Em consequência das probabilidades de seleção, os pares (x,y) que representam os possíveis valores do par de variáveis aleatórias (X,Y) apresentam as seguintes probabilidades:

Graph

Existem duas sub-regiões com 0 poços artesianos e número de rios igual a 1, portanto, na tabela acima, a probabilidade de encontrar o par (0,1) é 2/10.

Ao dispor as probabilidades conjuntas em uma tabela de dupla entrada, conforme mostrado abaixo, os totais nas linhas e colunas representam probabilidades marginais de X e Y, respectivamente.

Graph

O cálculo de probabilidades marginais representa uma aplicação direta do teorema da probabilidade total. Veja por exemplo o cálculo de P(X=0).

Graph Graph

Associação entre as Variáveis

Uma das questões que é levantada entre pesquisadores de diversas áreas diz respeito a associação entre variáveis. Caso haja o conhecimento da lei do cálculo de probabilidades (modelo probabilístico) para uma variável aleatória discreta, ou melhor, para um vetor de variáveis aleatórias discretas, o conceito de associação estará diretamente vinculado com o conceito de independência entre variáveis aleatórias. Portanto, apresenta-se agora a definição de probabilidade condicional para variáveis aleatórias discretas.

Probabilidade condicional para variáveis aleatórias discretas

Sejam duas variáveis aleatórias discretas X e Y, a probabilidade de X=x dado que Y=y é obtida através da expressão.

P(X=x|Y=y)=P(X=x,Y=y)/P(Y=y)

Independência entre variáveis aleatórias discretas

Recorda-se que o conceito de independência visto para dois eventos era relacionado à probabilidade condicional. A extensão para variáveis aleatórias é direta:

X,Y são variáveis aleatórias independentes se

P(X=x|Y=y)= P(X=x), ∀ (x,y)

de modo altenativo, a independência pode ser caracterizada por :

P(X=x,Y=y)=P(X=x)P(Y=y), ∀ (x,y)

É fundamental entender que as variáveis X e Y serão independentes se e somente se as relações acima forem válidas para todos os possíveis pares (x,y). Basta encontrar um par (x0,y0) para o qual os resultados acima não sejam verdadeiros, que X e Y não serão independentes.

Exemplo 5.8: O centro acadêmico de uma faculdade de administração fez um levantamento da remuneração dos estágios dos alunos, em salários mínimos, com relação ao ano que estão cursando. As probabilidades de cada caso são apresentadas na próxima tabela, incluindo as distribuições marginais.

Graph

As variáveis Salário e Ano de curso não são independentes pois, por exemplo,

Graph

Uma maneira bem prática de verificar independência consiste em usar a tabela de dupla entrada, checando se o produto da última linha e última coluna (as marginais) reproduz o corpo da tabela. Se a tabela contiver um zero no seu corpo, basta verificar se uma das marginais correspondentes é zero. Caso nenhuma marginal seja zero, concluímos imediatamente a não independência, uma vez que o produto de dois números não nulos nunca é zero.

Vamos estudar agora as propriedades do valor esperado.

Graph

Graph

Graph

Graph

Graph

Considere agora o produto XY. O valor esperado do produto será o produto será o produto dos valores esperados, sempre que as variáeis forem independentes. Para X e Y variáveis aleatórias discretas independentes, temos:

Graph

Graph

Graph

Graph

OBS: X E Y independentes Graph no entanto Graph X e Y independentes.

Exemplo 5.13: Considere as variáveis W e Z com a seguinte distribuição conjunta:

Graph

A variável WZ tem função de probabilidade dada por:

Graph

Temos então:

Graph

Por outro lado, utilizando as distribuições marginais de W E Z, podemos calcular seus valores esperados. Assim,

Graph

Graph

Vale portanto a relação E(WZ)=E(W)E(Z). No entanto, W e Z não são independentes, uma vez que por exemplo,

Graph

e desde que temos um par em que a probabilidade conjunta não é igual ao produto das probabilidades marginais, concluímos que as variáveis aleatórias W e Z não são independentes.

Se as variáveis são dependentes, a relação entre elas pode ser de vários tipos e, no caso de ser linear, vamos definir uma medida dessa dependência.

Covariância de duas variáveis aleatórias

Uma medida de dependência linear entre X e Y é dada pela covariância:

Graph

Graph

OBS: No caso em que X e Y são independentes, temos Graph.

A partir da covariância, definimos uma medida de dependência linear.

Correlação entre variáveis aleatórias

O coeficiente de correlação entre duas variáveis aleatória discretas X e Y é calculado pela seguinte expressão:

Graph

A divisão pelo produto dos desvios-padrão tem a função de padronizar a medida e torná-la possível de ser utilizada para comparações com outras variáveis.

Exemplo 5.15: Nos Exemplos 5.5 e 5.12, o par de variáveis (X,Y) representava, o número de poços e de riachos em sub-regiões de uma certa área.

Graph, Graph e Graph, portanto

Graph

Usando as distribuições marginais podemos obter Graph e Graph

O coeficiente de correlação será

Graph

Vamos, agora, deduzir a expressão da variância da soma de duas variáveis aleatórias.

Graph

Graph

Exemplo 5.15 (cont): Para a variância de X+Y temos

Graph

O coeficiente de correlação será

ρ=-1/10/√(76/100 × 60/100)=-0,15


Associação entre variáveis quantitativas (para um conjunto de dados)