Essa é uma revisão anterior do documento!
Tabela de conteúdos
Curso de capacitação ao ambiente estatístico R
Descrição
Curso ministrado pelo Professor M.Sc. Walmes Marques Zeviani aos Docentes da Faculdade de Ciências Agrárias da Universidade Federal da Grande Dourados (FCA/UFGD), coordenado pela Professora D.Sc. Lívia Maria Chamma Davide. O Curso tem o objetivo de apresentar o programa R e sua aplicação na análise de dados de experimentos agronômicos. O Curso foi ministrado no Laboratório de Geoprocessamento da FCH/UFGD no periódo de 25 à 29 de abril de 2011, das 19:00 às 22:30 horas.
Ementa da disciplina
Introdução a linguagem e interface de trabalho; Importação de dados; Análise exploratória de dados; Testes de significâncias; Análise de regressão linear e não linear; Análise de dados em delineamentos experimentais; Análise de experimentos com respostas do tipo proporção e contagem.
Justificativa
O Curso será importante para aprofundar a teoria de planejamento e análise de experimentos além de instrumentalizar os participantes com as funcionalidades do aplicativo estatístico R e expandir o conhecimento em métodos de análise de dados.
Conteúdo
- Instalação do programa e da interface gráfica;
- Introdução à manipulação de objetos e funções no R: definição de objeto, tipos de objeto, criação, acesso e modificação de objetos, criação e aplicação de funções;
- Importação de dados e análise exploratória: entrada de dados pelo teclado, por arquivo externo, análise gráfica exploratória;
- Estatística básica: estatísticas descritivas de posição, dispersão, assimetria, curtose, gráficos de distribuição de frequência, teste de normalidade, teste de aderência, geração de números aleatórios, teste de hipótese e intervalos de confiança para médias, proporções, variâncias e correlações.
- Regressão linear: preparação dos dados, definição do modelo e pressuposições, estimação dos parâmetros, interpretação dos parâmetros, análise de resíduos e checagem das pressuposições do modelo, medidas de influência, inferência para os parâmetros (teste de hipótese, intervalos de confiança, regiões de confiança), predição de valores, elaboração de gráficos, procedimento stepwise, critério de AIC e BIC, remoção de outliers, transformação de dados;
- Regressão não linear: definição, exemplos, preparação dos dados, definição do modelo, estimação dos parâmetros, análise de resíduos, inferência para os parâmetros (teste de hipótese, intervalos de confiança, teste da razão de verossimilhança), comparação de curvas ajustadas, ajuste de modelos com restrição na estimação dos parâmetros, predição de valores, elaboração de gráficos;
- Análise de experimentos balanceados: experimento em delineamento inteiramente ao acaso com fator qualitativo (um fator e fatorial duplo), experimento em blocos ao acaso com fator qualitativo (um fator e fatorial duplo), experimento fatorial duplo com tratamentos adicionais (testemunhas), análise de covariância, modelos de regressão polinomial na análise de variância (fatorial qualitativo x quantitativo), fatorial com fatores quantitativos (modelos de superfície de resposta), experimento em parcela subdividida e subsubdividida, análise de resíduos, checagem das pressuposições do modelo, transformação de dados, testes de médias e contrastes;
- Análise de experimentos não balanceados/ortogonais: experimento com um fator em delineamento inteiramente causalizado e blocos casualizados, anova e teste de médias, análise de experimento em blocos incompletos, análise de experimentos com fator de efeito aleatório;
- Introdução a análise de experimentos com respostas não normais: definição de modelo linear generalizado, estimação de parâmetros, métodos de inferência, análise respostas do tipo proporção, análise de respostas do tipo contagem;
- Elaboração de gráficos: diagramas de dispersão, histogramas, gráficos de barras, boxplots, gráfico de funções, controle dos parâmetros gráficos e customização.
Materiais do curso
- Script executável com as análises apresentadas durante o curso (arquivo em construção) : cursoR4.R.
- Documento com as rotinas das análises apresentadas durante o curso (documento em construção/não concluído): cursoR4.pdf.
Links úteis
- Página de download do RStudio, a interface mais amigável do R;
- Material do Curso do Professor Paulo Justiniano Ribeiro Júnior (UFPR);
- Material do Cursos do Professor Daniel Furtado Ferreira (UFLA);
- Dicas curtas sobre R, as Rídiculas do LEG;
- Página de descrição da [R-br], a lista Brasileira oficial de usuários do R;
- Arquivo de mensagens da [R-br] hospedada pelo Nabble;
- Página de R por Vincent Zoonekynd (muuuita coisa!);
- R-bloggers, o blog dos blogs de R;
- MarkMail, maior gerenciador de listas de discussão sobre R;
- Quick-R, blog de como fazer coisas com o R;
- Aniwiki, animações didáticas com o R;
- Emacs para Windows;
- R-tricks, dicas e malandragens com o R;
- Gráficos básicos com o R;
- Materiais em português sobre R;
- R gallery, a galeria de gráficos requintados do R;
- Página WIKI do R;
- Learn R da página do Departamento de Ecologia da Wright State University.
- O básico de delineamento experimental;
- R-tutor, tutoriais sobre R;
- Compendio R de delineamento experimental;
- Compendio R para análise de delineamento experimental em psicologia;
- Manual R de biometria, por Katharina Hoff;
- Material do John Faraway, Anova e regressão com o R;
- Tutorial do Rense Nieuwenhuis, R aplicado para o cientista social quantitativo;
- Manual R que acompanha o livro Categorical Data Analysis, por Laura Thompson.
- Página do Professor Eric Batista Ferreira desenvolvedor do pacote não oficial ExpDes;
- Apostila de Estatística Experimental da Pesquisadora Janaína Ribeiro Costa (Embrapa);
- Cartilha de referência do R por Tom Short, traz um resumo das funções mais usadas;
- Lista das abreviações dos pacotes e funções do R por Jeromy Anglim;
- Página da disciplina de Estatística Computacional que ensina o R como aplicativo estatístico e ferramenta computacional. Os scripts usados em aula estão disponíveis e são arquivos reproduzíveis.
Cronograma de atividades do Curso
Data | Conteúdo |
---|---|
SEG 25 | Instalação do R e RStudio. Introdução ao R e RStudio, menus e janelas. Mecanismo de busca e ajuda. Criação, acesso e modificação de objetos do tipo vetor, matriz, data.frame, e lista. Atributos dos objetos. Operações matemáticas e estatísticas. Obtenção de estatísticas para grupos de dados. Criação e uso de funções. Visto até o chunk number 8. |
TER 26 | Importação de dados, seleção de dados, gráficos de dispersão, boxplot, histograma, densidade, curvas, barras, quantil-quantil, matriz de dispersão, testes de hipótese para um média normal, diferença de médias normais, uma proporção, igualdade de duas variâncias normais, teste de normalidade, teste de aderência. Visto do chunk number 9 à 14. |
QUA 27 | Instalação de pacotes oficiais e não oficiais. Análise de dados de experimento em delineamento inteiramente causalizado (balanceado e desbalanceado), em blocos causalizados (balanceado e desbalanceado), em fatorial duplo qualitativo (balanceado). Gráficos de disgnóstico dos resíduos e checagem das pressuposições dos modelos. Teste para normalidade dos resíduos e homogeneidade de variâncias. Transformação de dados. Testes de médias e de agrupamento de médias. |
QUI 28 | |
SEX 29 |
Referências bibliográficas
- [2009, techreport | www]
- Ribeiro Júnior, P. J. (2009). Introdução ao Ambiente Estatístico R.
- [2002, techreport | www]
- Faraway, J. J. (2002). Practical Regression and Anova using {R}.
- [2005, book | www]
- Faraway, J. J. (2005). Linear models with R Chapman \& Hall/{CRC}.
- [2002, book | www]
- Venables, W. N., & Ripley, B. D. (2002). Modern applied statistics with S Birkhäuser.
- [2009, book | www]
- Everitt, B. S., & Hothorn, T. (2009). A Handbook of Statistical Analyses Using R, Second Edition (2 ed.) Chapman \& Hall.
- [2008, book | www]
- Dalgaard, P. (2008). Introductory Statistics with R (2nd ed.) Springer.
- [2008, book | www]
- Dobson, A. J., & Barnett, A. (2008). An Introduction to Generalized Linear Models, Third Edition (3 ed.) Chapman and {Hall/CRC}.
- [2008, book | www]
- Ritz, C., & Streibig, J. C. (2008). Nonlinear Regression with R (1 ed.) Springer.
- [2008, book | www]
- Sarkar, D. (2008). Lattice: Multivariate Data Visualization with R (1 ed.) Springer.
- [2005, book | www]
- Murrell, P. (2005). R Graphics (1 ed.) Chapman and {Hall/CRC}.
- [2010, book | www]
- Maindonald, J., & Braun, J. W. (2010). Data Analysis and Graphics Using R: An Example-Based Approach (3 ed.) Cambridge University Press.
- [2009, book | www]
- Pinheiro, J., & Bates, D. (2009). Mixed-Effects Models in S and {S-PLUS} (1st ed. 2000. 2nd printing ed.) Springer.
- [2000, book | www]
- D.R., & Reid, N. (2000). The Theory of the Design of Experiments (1 ed.) Chapman and {Hall/CRC}.
- [2004, techreport | www]
- Beasley, C. R. (2004). Bioestatística usando o R - apostila de exemplos para o biólogo.
- [2002, techreport | www]
- Correa, J. C., & González, N. (2002). Gráficos Estadísticos con R.
- [2005, techreport | www]
- de Souza, E. F. M., Peternelli, L. A., & de Mello, M. P. (2005). Software Livre R: aplicação estatística.
- [2006, techreport | www]
- Monteiro, L. R. (2006). Introdução à biometria usando o R.
Seminário sobre planejamento de experimentos
Slides do seminário Planejamento de Experimentos oferecido aos acadêmicos do Curso de Pós Graduação em Produção Vegetal, Pós Graduação em Zootecnia e acadêmicos do 4ª ano do Curso de Agronomia (13:45-15:15h, 26/04/09, FCA/UFGD). O seminário abordou etapas do planejamento de um experimento, escolha das unidades experimentais, dos fatores, dos níveis dos fatores, da distribuição de probabilidade para a resposta, os pressupostos da análise de variância, aleatorização dos níveis às parcelas, o controle local, o planejamento de experimento para ajuste de modelos de regressão. Ao final foi dada um introdução ao aplicativo estatístico R e uma breve sessão de R com gráficos e análise de dados.
Pacotes necessários a serem instalados
# instala os pacotes oficiais usados durante curso via web install.packages(c("fBasics","agricolae","ScottKnott","contrast","multcomp","gplots"), dep=TRUE, repos="http://cran-r.c3sl.ufpr.br/") # link para a página de download do pacote ExpDes browseURL(URLencode("https://sites.google.com/site/ericbferreira/unifal/downloads-1"))
Procedimento para o ajuste de diversos modelos lineares
# gera dados da <- data.frame(x=runif(100), z=5*rpois(100, lambda=7), w=runif(100, 50, 100)) da$y <- with(da, 12+0.1*x+0.05*z+0.34*w+0.2*sqrt(z)+0.1*x*w)+rnorm(100,0,0.1) # vetor com as fórmulas específicando diferentes modelos lineares form <- c(mod1=y~x, mod2=y~x+z, mod3=y~x+I(x^2), mod4=y~x+z+w) # ajuste dos modelos ajustes <- lapply(form, function(f){ m0 <- lm(f, data=da); m0 }) lapply(ajustes, summary) # quadro geral de estimativas e qualidade lapply(ajustes, anova) # quadro de anova sequencial lapply(ajustes, coef) # vetor de estimativas sapply(ajustes, function(a){ summary(a)$r.squared}) # R² sapply(ajustes, function(a){ summary(a)$adj.r.squared}) # R² ajustado sapply(ajustes, function(a){ summary(a)$sigma}) # QMR sapply(ajustes, deviance) # SQR sapply(ajustes, df.residual) # GLR lapply(ajustes, function(a){ summary(a)$coeff}) # tabela de estimativas do.call(rbind, lapply(ajustes, function(a){ summary(a)$coeff})) # junta das tabelas sapply(ajustes, fitted) # valores ajustados sapply(ajustes, residuals) # resíduos da análise sapply(ajustes, vcov) # matriz de covariância das estimativas apply(sapply(ajustes, residuals), 2, shapiro.test) # normalidade dos resíduos
Procedimento para obter a análise de variância de diversas respostas
# importa dados soja <- read.table("http://www.leg.ufpr.br/~walmes/cursoR/soja.txt", header=TRUE, sep="\t", dec=",") str(soja) # ajusta um modelo e pede anova m1 <- aov(rengrao~bloco+agua*potassio, soja) anova(m1) # cria uma lista com as variáveis resposta respostas <- do.call(c, apply(soja[,4:7], 2, list)) do.call(c, respostas) # faz o ajuste para todas as respostas ajustes <- lapply(respostas, function(r){ m0 <- aov(r~bloco+agua*potassio, data=soja) m0 }) # pede todas as anovas lapply(ajustes, anova) # extrai o QMR com o sinal da significância e salva numa planilha xls QMR <- do.call(cbind, lapply(ajustes, function(a){ qmr <- anova(a)[,"Mean Sq"] sig <- anova(a)[,"Pr(>F)"] sig <- ifelse(sig<=0.01,"**", ifelse(sig<=0.05,"*","ns")) sig[is.na(sig)] <- "" qmr <- formatC(qmr, digits=4, format="f") paste(qmr, sig, sep="") })) quadro <- cbind(FV=rownames(anova(m1)), GL=anova(m1)[,"Df"], QMR) write.table(quadro, file="resumoanova.xls", quote=FALSE, row.names=FALSE, sep="\t")
Lista de afazeres
- usar os dados de secagem de solo em micro-ondas na parte de modelos não lineares.
- mostrar algum ajuste de blocos incompletos.
- ✔ usar pacote ExpDes.
- ✔ usar o RStudio, na versão mais nova descobrir como usar os controladores interativos.
- usar os dados de semente da Lívia/Aline para glm(…, family=bionomial),
- dados do Miguel para glm(…, family=Poisson),
- ✔ dados do Flávio para glm(…, family=Poisson),
- dados da sua TCC para experimentos em faixa,
- ✔ dados do Fábio Ono para fatorial (soja),
- dados do Fábio Régis para parcela subdivida com outras estruturas de correlação na profundidade,
- dados da Carla para ajuste do duplo van Genuchten,
- dados da sua Tese para ajuste de modelos não lineares de liberação,
- dados da Nani para crescimento de goiaba,
- dados do André para fatorial com 1 e 2 tratamentos adicionais,
- ✔ dados do Caique para dados desbalanceados e análise de covariância,
- usar dados do Maicon Inocencio para modelo de mistura e fatorial com adicionais,
- usar gráficos com deslizadores para controlar uma observação e ver o que acontece com os gráficos de diagnóstico de resíduo ao deslocar uma observação.
- ✔ tratar os casos de dic, dbc com um e dois fatores desbalanceados.
- nos dados de DAP discutir a coisa de usar os valores preditos como dependentes de uma análise subsequente, a coisa do viés.
- procurar o livro Optimal Experimental Design with R.
- revisar a análise dos dados
volume.txt
, aplicar uma transformação para corrigir a heterogeneidade de variâncias.