====== CE-071: Análise de Regressão Linear ======
EXAME FINAL no dia 16/07, 19h00 no LABEST.
Todo o conteúdo da disciplina.
O aluno pode usar computador próprio.
{{ http://www.visualreporting.dk/en/images/r-project-consultant.png?480|}}
==== Detalhes da oferta da disciplina ====
* Professor: [[http://www.leg.ufpr.br/~walmes|Walmes Marques Zeviani]], ([[http://www.leg.ufpr.br|LEG: Laboratório de Estatística e Geoinformação]])
* Curso: Estatística.
* Período: 2014/1.
* Local: LABEST, LAB C.
* Horário: Segunda, 20h45-22:00h e quarta 19:00-20:30h.
* Atendimento: Segunda, 19:00-20:30h.
==== Scripts, notas e documentos ====
Apostilas e textos úteis: [[http://dl.dropboxusercontent.com/u/48140237/ce071_livros.zip|ce071_livros.zip (84 MB)]]
{{url>http://www.leg.ufpr.br/~walmes/ensino/ce071-2014-01/ 800px, 600px center}}
/* ==== Histórico das Aulas do Curso ==== */
/*
Abaixo o histórico de atividades realizadas em classe e atividades extra classe aplicadas.
- 10/02:
* Informação sobre a oferta da disciplina;
* Introdução à regressão linear;
* Panorama do conteúdo previsto.
- 12/02:
* Análise gráfica exploratória visando aplicação de regressão.
- 17/02:
* Representação matricial;
* Interpretação geométrica;
* Estimação pelo método dos mínimos quadrados.
- 19/02:
* Métodos numéricos considerados na estimação: decomposição QR e de Cholesky.
- 24/02:
* Estimação baseada na verossimilhança.
- 26/02:
* Esperança e variância dos estimadores;
* Teorema de Gauss-Markov;
* Análise de variância.
- 10/03:
* Regressão linear múltipla, resultados representados matricialmente;
* Quadro de análise de variância;
- 12/03:
* Propriedades distribucionais dos estimadores;
* Teste F de uma função linear para inferência sobre \beta;
* Teste F do quadro de análise de variância.
- 17/03:
* Teste de hipótese para \beta e subconjuntos de \beta;
* Teste da soma de quadrados extra;
* Intervalos de confiança para \beta_j e funções lineares de \beta;
* Intervalos de confiança para o valor predito e para observação futura.
- 19/03:
* Prática de regressão linear múltipla com o R;
* Estudo sobre o preço de imóveis em função da área.
- 24/03:
* Fórmulas e matrizes correspondentes ao declarar modelos;
* Tipos de parametrizações em modelos lineares para variáveis categóricas;
* Prática de regressão linear múltipla com o R.
- 26/03:
* Prática de regressão linear múltipla com o R;
* Estudo sobre o preço de veículos em função da quilometragem e tipo de câmbio;
* Especificação e testes de hipóteses entre modelos aninhados.
- 31/03:
* Ajuste do modelo e previsão de valores;
* Intervalos de confiança e intervalos de predição.
- 02/04:
* Análise dos pressupostos do modelo;
* Medidas de influência;
* Tipos de resíduos (crus, padronizados, studentizados);
* DFfits, DFbetas e distância de Cook;
- 07/04:
* Análise dos resíduos e medidas de influência;
* Prática de regressão linear múltipla com o R;
* Estudo sobre o preço de relógios antigos;
* Estudo sobre o salário de trabalhadores sociais.
- 09/04:
* Medidas de colinearidade;
* Fator de inflação da variância.
- 14/04:
* Polinômios ortogonais;
* Centralização das variáveis;
* Prática de regressão linear múltipla com o R;
* Estudo sobre nível de ddt em peixes;
* Estudo sobre o gasto em consumo de alimentos por família.
- 16/04:
* Seleção de variáveis;
* Seleção forward, backwad e stepwise baseados em critérios de informação (AIC e BIC);
- 23/04:
* Prática de regressão linear múltipla com o R;
* Estudo sobre a qualidade de vinhos;
* Estudo sobre o salario de executivos.
- 28/04:
* Variáveis categóricas no modelo de regressão;
* Estudo das interações.
- 07/05:
* Introdução aos modelos de regressão não linear;
* Aspectos motivacionais práticos e diferenças para o modelo linear;
* Especificação, ajuste, diagnóstico e interpretação.
- 12/05:
* Regiões de confiança em modelos de regressão;
* Relações entre a região de confiança e a matriz de covariância dos parâmetros;
* Tipos de testes: razão de verossimilhanças e Wald;
* Tipos de intervalo de confiança: baseados na verossilhança e de Wald.
- 14/05:
* Teste de hipótese;
* Bandas de confiança;
* Medidas de diagnóstico.
- 19/05:
* Ajuste de modelos não lineares com variáveis independentes categórias.
- 21/05:
* Comparação de modelos não lineares;
* Parametrizações.
- 02/06:
* Apresentação de seminários.
- 04/06:
* Apresentação de seminários.
*/
==== Links úteis ====
=== Cursos, dados e scripts sobre Regressão Linear ===
* {{http://www.ats.ucla.edu/stat/sas/examples/chp/|Regression Analysis by Example, by Chatterjee, Hadi and Price}}: scripts;
* {{http://www.ats.ucla.edu/stat/sas/examples/chp/chpsas_dl.htm|Regression Analysis by Example, by Chatterjee, Hadi and Price}}: dados em txt;
* {{http://www.ats.ucla.edu/stat/stata/examples/ara/default.htm|Applied Regression Analysis, by Fox}}
* {{http://www.ats.ucla.edu/stat/stata/examples/alsm/default.htm|Applied Lin Stat Models, by Neter, Kutner, Nachtsheim, and Wasserman}}
* {{http://www.stat.ufl.edu/~winner/Regression_Examples.html|Regression Examples}}: dados e scripts de análises em R e $A$;
=== Cartões de referência ===
* {{http://www2.kenyon.edu/Depts/Math/hartlaub/Math305%20Fall2011/R.htm|Resumo de comandos R e pacotes para regressão}};
* {{http://cran.r-project.org/doc/contrib/Ricci-refcard-regression.pdf|Cartão de referência para regressão}};
=== Medidas de diagnóstico ===
* {{http://www.stats.ox.ac.uk/~burke/Linear%20Models/Linear%20Models%20Notes.pdf|Slides de curso completo de Regressão Linear}};
* {{http://statweb.stanford.edu/~jtaylo/courses/stats203/notes/diagnostics.pdf|Slides de medidas de diagnóstico}};
* {{http://www.stat.purdue.edu/~jennings/stat514/stat512notes/topic5.pdf|Resumo de medidas de diagnóstico}};
* {{http://courses.washington.edu/b515/l7.pdf|Exemplos de diagnóstico}};
* {{http://statweb.stanford.edu/~jtaylo/courses/stats203/notes/diagnostics.pdf|Resumo de medidas de diagnóstico (com exemplos)}}
=== Regressão com variáveis categóricas ===
* {{http://www.sagepub.com/upm-data/21120_Chapter_7.pdf|Dummy-Variable Regression}};
* {{http://gauss.stat.su.se/gu/e/slides/F6-Dummy-Variable.pdf|Dummy variable regression models}};
* {{http://socserv.socsci.mcmaster.ca/jfox/Courses/SPIDA/dummy-regression-notes.pdf|Dummy-Variable Regression}};
* {{https://www.princeton.edu/~slynch/soc504/expanding_ols.pdf|Expanding the Model Capabilities: Dummy Variables, Interactions, and Nonlinear Transformations}}.
==== Avaliações ====
=== Trabalho 1 ===
* Função para estimação de beta a partir de X e y. Implementar o método de estimação literal, decomposição de Cholesky e decomposição QR.
* Função para calcular o quadro de análise de variância.
* Função para tabela de estimativas com erro-padrão e IC.
* Função para quadro de anova particionado.
* Função para calcular o valor predito com IC.
* Entregar o código impresso das funções programadas no dia 24/03/14.
## Estima o vetor de parâmetros \beta
mycoef <- function(X, y, method){
...
}
## Retorna o quadro de análise de variância corrigido para a média
myanova <- function(X, y){
...
}
## Retorna a tabela com erros padrões, t-valor, p-valor e IC para \betas
mycoeftable <- function(X, y, conf=0.95){
...
}
## Retorna o quadro de análise de variância particionado para X1
myanovapart <- function(X, y, X1){
...
}
## Retorna o valor predito com IC
mypredict <- function(x0, betas, vcov, conf){
...
}
=== Trabalho 2 ===
* Fazer estudo de simulação para estudar a distribuição amostral dos estimadores e das estatísticas do testes.
* Verificar que E(\hat\beta) = \beta, var(\hat\beta) = \sigma^2(X'X)^{-1}, e que \hat\betas têm distribuição Normal.
* Verificar que E(\hat\sigma^2) = \sigma^2 e que (n-p)*\hat\sigma/\sigma<\latex> têm distribuição qui-quadrado.
* Verificar que F = (A\hat\beta-m)'[A(X'X)^{-1}A']^{-1}(A\hat\beta-m)/(r QMRes) têm distribuição F sob H0 que A\betas = m.
* Estudar a distribuição da estatística F = QMReg/QMres e comparar com o F anterior.
* Entregar código impresso com gráficos e tabelas que sobre os resultados solicitados no dia 24/03/14.
## Função que retorna estimativas de parâmetros e estatísticas sob uma
## amostra aleatória simulada ao ser executada.
mysimula <- function(X, beta, sigma, A, m=beta){
...
}
results <- replicate(10000, mysimula)
=== Trabalho 3 ===
* Programar funções para obter:
* Resíduos ordinários, padronizados e studentizados;
* Valores de alavancagem;
* Distância de Cook;
* DFfits, DFbetas;
* As funções devem receber como argumentos as matrizes X e y e retornas as respectivas medidas;
* Alavancagem
h_i = H_{ii}\\
h = \text{diag}(H) = \text{diag}(X(X^\top X)^{-1}X^\top)\\
* Resíduos crus
e_i = y_i - \hat{y}_i\\
e = y - \hat{y}\\
e = y - X\hat{\beta}
* Resíduos padronizados (ou internamente studentizados)
r_i = \dfrac{e_i}{s(e_i)} = \dfrac{e_i}{\hat{\sigma}\sqrt{1-h_{i}}}
* Resíduos studentizados (ou externamente studentizados)
t_i = \dfrac{e_i}{s(e_i)} = \dfrac{e_i}{\hat{\sigma}_{-i}\sqrt{1-h_{i}}}\\
\hat{\sigma}_{-i}^2 = \dfrac{(n-p)\hat{\sigma}^2-\frac{e_i^2}{1-h_{i}}}{(n-1)-p}
* Distância de Cook
D_i = \dfrac{(\hat{y}-\hat{y}_{i(-i)})^\top (\hat{y}-\hat{y}_{i(-i)})}{p\hat{\sigma}^2} =
\dfrac{1}{p}\cdot\dfrac{h_i}{(1-h_i)}\cdot\dfrac{e_i^2}{\hat{\sigma}^2(1-h_i)}
* DFfits
dffits_i = \dfrac{\hat{y}_i-\hat{y}_{i(-i))}}{\hat{\sigma}_{-i}\sqrt{h_i}} = t_i\left( \dfrac{h_i}{1-h_i} \right )^{1/2}
* DFbetas
dbetas_i = \dfrac{\hat{\beta}-\hat{\beta}_{-i}}{\hat{\sigma}_{-i}\sqrt{\text{diag}((X^\top X)^{-1})}}\\
\hat{\beta}_{-i} = \hat{\beta}-\dfrac{e_i}{1-h_i}\cdot (X^\top X)^{-1} x_i
=== Trabalho 4 ===
* Análise de dados por meio de regressão com presença de variáveis independentes categóricas;
* Os dados e contexto são exercício do capítulo 6 do *Applied Linear Regression* 3.ed do Weisberg;
* Fazer a análise dos dados fornecendo o contexto e objetivos do mesmo, declarar o modelo, correr análise dos resíduos, interpretar os resultados, fazer a predição com bandas de confiança;
* Entregar *.zip o pdf, Rnw e arquivos acessórios;
* Prazo de entrega: 12/05/2014 até às 23h59;
##-----------------------------------------------------------------------------
str(twins) ## 6.4. Eduardo.
str(BGSall) ## 6.6. Michele.
str(cathedral) ## 6.10. Paula.
str(salary) ## 6.13. Cintia.
str(mile) ## 6.18. Gustavo.
##-----------------------------------------------------------------------------
==== Links de arquivos e dados disponibilizados pelos alunos ====
{{threads>pessoais:walmes:ce071-2014-01:discussion}}
~~DISCUSSION~~
/*
=== Passos para disponibilizar arquivos no DATAFILEHOST ===
- Subir os arquivos (preferencialmente *.txt para dados) site {{http://www.datafilehost.com/|datafilehost}};
- Seguir as etapas caixas numeradas da figura abaixo: 1 - escolher o arquivo, 2 - fazer upload, 3 - copiar o link para colar na mensagem e 4 - em caso de erro use o link para deletar o arquivo;
- Junto ao link para o arquivo coloque informações sobre o mesmo livro do qual foi retirado, página, número da tabela, nomenclatura das variáveis, contexto, objetivos da análise, unidade de medida das variáveis. As caixas numeradas indicam: 1 - identificação do remetente, 2 - mensagem contendo informações básicas e link para download, 3 - preenchimento de código de segurança e 4 - para concluir com o envio da mensagem.
{{http://www.leg.ufpr.br/~walmes/ensino/passos_datafilehost.png?800|}}
{{http://www.leg.ufpr.br/~walmes/ensino/passos_discussao.png?800|}}
*/