Tabela de conteúdos

Curso de capacitação ao ambiente estatístico R

Curso de capacitação ao ambiente estatístico R


Descrição

Curso ministrado pelo Professor M.Sc. Walmes Marques Zeviani aos Docentes da Faculdade de Ciências Agrárias da Universidade Federal da Grande Dourados (FCA/UFGD), coordenado pela Professora D.Sc. Lívia Maria Chamma Davide. O Curso tem o objetivo de apresentar o programa R e sua aplicação na análise de dados de experimentos agronômicos. O Curso foi ministrado no Laboratório de Geoprocessamento da FCH/UFGD no periódo de 25 à 29 de abril de 2011, das 19:00 às 22:30 horas.


Ementa da disciplina

Introdução a linguagem e interface de trabalho; Importação de dados; Análise exploratória de dados; Testes de significâncias; Análise de regressão linear e não linear; Análise de dados em delineamentos experimentais; Análise de experimentos com respostas do tipo proporção e contagem.


Justificativa

O Curso será importante para aprofundar a teoria de planejamento e análise de experimentos além de instrumentalizar os participantes com as funcionalidades do aplicativo estatístico R e expandir o conhecimento em métodos de análise de dados.


Conteúdo


Materiais do curso



Cronograma de atividades do Curso

Data Conteúdo
SEG 25 Instalação do R e RStudio. Introdução ao R e RStudio, menus e janelas. Mecanismo de busca e ajuda. Criação, acesso e modificação de objetos do tipo vetor, matriz, data.frame, e lista. Atributos dos objetos. Operações matemáticas e estatísticas. Obtenção de estatísticas para grupos de dados. Criação e uso de funções. Visto até o chunk number 8.
TER 26 Importação de dados, seleção de dados, gráficos de dispersão, boxplot, histograma, densidade, curvas, barras, quantil-quantil, matriz de dispersão, testes de hipótese para um média normal, diferença de médias normais, uma proporção, igualdade de duas variâncias normais, teste de normalidade, teste de aderência. Visto do chunk number 9 à 14.
QUA 27 Instalação de pacotes oficiais e não oficiais. Análise de dados de experimento em delineamento inteiramente causalizado (balanceado e desbalanceado), em blocos causalizados (balanceado e desbalanceado), em fatorial duplo qualitativo (balanceado). Gráficos de disgnóstico dos resíduos e checagem das pressuposições dos modelos. Teste para normalidade dos resíduos e homogeneidade de variâncias. Transformação de dados. Testes de médias e de agrupamento de médias. Visto do chunk number 34 à 49.
QUI 28 Análise de dados em fatorial duplo qualitativo em blocos, qualitativo-quantitativo (regressão polinomial dentro da análise de variância) e quantitativo (técnicas de superfície de resposta), análise de covariância, contrastes com as médias ajustadas, análise de experimento em parcelas subdivididas e subsubdivididas. Visto do chunk number 50 à 68.
SEX 29 Aspectos introdutórios da análise de regressão linear, estimação, testes de hipótese, qualidade de ajuste, gráfico de diagnóstico de resíduos, procedimentos para seleção de modelos, medidas de influência, predição de valores. Aspectos introdutórios de modelos de regressão não linear, obtenção de chutes iniciais ótimos, estimação, testes de hipótese, comparação de modelos aninhados, predição de valores. Aspectos introdutórios de modelos lineares generalizados, conceito, aplicações com respostas do tipo contagem e do tipo proporção. Visto do chunk number 15 à 33, 69 à 73.

Referências bibliográficas

[2009, techreport | www]
Ribeiro Júnior, P. J. (2009). Introdução ao Ambiente Estatístico R.
[2002, techreport | www]
Faraway, J. J. (2002). Practical Regression and Anova using {R}.
[2005, book | www]
Faraway, J. J. (2005). Linear models with R Chapman \& Hall/{CRC}.
[2002, book | www]
Venables, W. N., & Ripley, B. D. (2002). Modern applied statistics with S Birkhäuser.
[2009, book | www]
Everitt, B. S., & Hothorn, T. (2009). A Handbook of Statistical Analyses Using R, Second Edition (2 ed.) Chapman \& Hall.
[2008, book | www]
Dalgaard, P. (2008). Introductory Statistics with R (2nd ed.) Springer.
[2008, book | www]
Dobson, A. J., & Barnett, A. (2008). An Introduction to Generalized Linear Models, Third Edition (3 ed.) Chapman and {Hall/CRC}.
[2008, book | www]
Ritz, C., & Streibig, J. C. (2008). Nonlinear Regression with R (1 ed.) Springer.
[2008, book | www]
Sarkar, D. (2008). Lattice: Multivariate Data Visualization with R (1 ed.) Springer.
[2005, book | www]
Murrell, P. (2005). R Graphics (1 ed.) Chapman and {Hall/CRC}.
[2010, book | www]
Maindonald, J., & Braun, J. W. (2010). Data Analysis and Graphics Using R: An Example-Based Approach (3 ed.) Cambridge University Press.
[2009, book | www]
Pinheiro, J., & Bates, D. (2009). Mixed-Effects Models in S and {S-PLUS} (1st ed. 2000. 2nd printing ed.) Springer.
[2000, book | www]
D.R., & Reid, N. (2000). The Theory of the Design of Experiments (1 ed.) Chapman and {Hall/CRC}.
[2004, techreport | www]
Beasley, C. R. (2004). Bioestatística usando o R - apostila de exemplos para o biólogo.
[2002, techreport | www]
Correa, J. C., & González, N. (2002). Gráficos Estadísticos con R.
[2005, techreport | www]
de Souza, E. F. M., Peternelli, L. A., & de Mello, M. P. (2005). Software Livre R: aplicação estatística.
[2006, techreport | www]
Monteiro, L. R. (2006). Introdução à biometria usando o R.


Questionário de avaliação do Curso

Clique para responder o questionário sobre avaliação do Curso. Não é necessário identificação. O questionário serve para aperfeiçoamento do Curso, portanto, resposta às questões com total sinceridade. Certo de sua colaboração, agradeço.


Seminário sobre planejamento de experimentos

Slides do seminário Planejamento de Experimentos oferecido aos acadêmicos do Curso de Pós Graduação em Produção Vegetal, Pós Graduação em Zootecnia e acadêmicos do 4ª ano do Curso de Agronomia (13:45-15:15h, 26/04/09, FCA/UFGD). O seminário abordou etapas do planejamento de um experimento, escolha das unidades experimentais, dos fatores, dos níveis dos fatores, da distribuição de probabilidade para a resposta, os pressupostos da análise de variância, aleatorização dos níveis às parcelas, o controle local, o planejamento de experimento para ajuste de modelos de regressão. Ao final foi dada um introdução ao aplicativo estatístico R e uma breve sessão de R com gráficos e análise de dados.


Seminário sobre modelos de regressão

Slides do seminário Modelos de regressão: teoria e aplicação nas ciências agrárias oferecido aos acadêmicos do grupo PET-Agronomia e PET-Zootecnia (12:00-13:00h, 29/04/2011, FCA/UFGD). O seminário abordou aspectos históricos, cotidianos, apresentou as classes de modelos, técnicas de estimação, interpretação dos modelos, escolha do modelo, e apresentou 4 aplicações de modelos de regressão em ciências agrárias.


Pacotes necessários a serem instalados

# instala os pacotes oficiais usados durante curso via web
install.packages(c("fBasics","agricolae","ScottKnott","contrast","multcomp","gplots"),
                 dep=TRUE, repos="http://cran-r.c3sl.ufpr.br/")
 
# link para a página de download do pacote ExpDes
browseURL(URLencode("https://sites.google.com/site/ericbferreira/unifal/downloads-1"))


Procedimento para o ajuste de diversos modelos lineares

# gera dados
da <- data.frame(x=runif(100), z=5*rpois(100, lambda=7), w=runif(100, 50, 100))
da$y <- with(da, 12+0.1*x+0.05*z+0.34*w+0.2*sqrt(z)+0.1*x*w)+rnorm(100,0,0.1)
 
# vetor com as fórmulas específicando diferentes modelos lineares
form <- c(mod1=y~x, mod2=y~x+z, mod3=y~x+I(x^2), mod4=y~x+z+w)
 
# ajuste dos modelos
ajustes <- lapply(form, function(f){ m0 <- lm(f, data=da); m0 })
 
lapply(ajustes, summary) # quadro geral de estimativas e qualidade
lapply(ajustes, anova)   # quadro de anova sequencial
lapply(ajustes, coef)    # vetor de estimativas
sapply(ajustes, function(a){ summary(a)$r.squared})     # R²
sapply(ajustes, function(a){ summary(a)$adj.r.squared}) # R² ajustado
sapply(ajustes, function(a){ summary(a)$sigma})         # QMR
sapply(ajustes, deviance)                               # SQR
sapply(ajustes, df.residual)                            # GLR
lapply(ajustes, function(a){ summary(a)$coeff})         # tabela de estimativas
do.call(rbind, lapply(ajustes, function(a){ summary(a)$coeff})) # junta das tabelas
sapply(ajustes, fitted)    # valores ajustados
sapply(ajustes, residuals) # resíduos da análise
sapply(ajustes, vcov)      # matriz de covariância das estimativas
apply(sapply(ajustes, residuals), 2, shapiro.test) # normalidade dos resíduos


Procedimento para obter a análise de variância de diversas respostas

# importa dados
soja <- read.table("http://www.leg.ufpr.br/~walmes/cursoR/soja.txt",
                   header=TRUE, sep="\t", dec=",")
str(soja)
 
# ajusta um modelo e pede anova
m1 <- aov(rengrao~bloco+agua*potassio, soja)
anova(m1)
 
# cria uma lista com as variáveis resposta
respostas <- do.call(c, apply(soja[,4:7], 2, list))
do.call(c, respostas)
 
# faz o ajuste para todas as respostas
ajustes <- lapply(respostas,
                  function(r){
                    m0 <- aov(r~bloco+agua*potassio, data=soja)
                    m0
                  })
 
# pede todas as anovas
lapply(ajustes, anova)
 
# extrai o QMR com o sinal da significância e salva numa planilha xls
QMR <- do.call(cbind,
               lapply(ajustes,
                      function(a){
                        qmr <- anova(a)[,"Mean Sq"]
                        sig <- anova(a)[,"Pr(>F)"]
                        sig <- ifelse(sig<=0.01,"**", ifelse(sig<=0.05,"*","ns"))
                        sig[is.na(sig)] <- ""
                        qmr <- formatC(qmr, digits=4, format="f")
                        paste(qmr, sig, sep="")
                      }))
quadro <- cbind(FV=rownames(anova(m1)), GL=anova(m1)[,"Df"], QMR)
write.table(quadro, file="resumoanova.xls", quote=FALSE, row.names=FALSE, sep="\t")
 
require(agricolae)
 
# aplica o teste de Tukey (aqui só para efeito principal de potássio)
# em caso de interação o procedimento é outro
tukey <- lapply(ajustes,
                function(a){
                  qmr <- anova(a)[,"Mean Sq"]
                  dfr <- anova(a)[,"Df"]
                  da <- a$model
                  t0 <- with(da, HSD.test(r, potassio, dfr, qmr))
                  return(t0)
                })

Lista de afazeres

Lista de afazeres:
  • usar os dados de secagem de solo em micro-ondas na parte de modelos não lineares.
  • mostrar algum ajuste de blocos incompletos.
  • ✔ usar pacote ExpDes.
  • ✔ usar o RStudio, na versão mais nova descobrir como usar os controladores interativos.
  • usar os dados de semente da Lívia/Aline para glm(…, family=bionomial),
  • dados do Miguel para glm(…, family=Poisson),
  • ✔ dados do Flávio para glm(…, family=Poisson),
  • dados da sua TCC para experimentos em faixa,
  • ✔ dados do Fábio Ono para fatorial (soja),
  • dados do Fábio Régis para parcela subdivida com outras estruturas de correlação na profundidade,
  • dados da Carla para ajuste do duplo van Genuchten,
  • dados da sua Tese para ajuste de modelos não lineares de liberação,
  • dados da Nani para crescimento de goiaba,
  • dados do André para fatorial com 1 e 2 tratamentos adicionais,
  • ✔ dados do Caique para dados desbalanceados e análise de covariância,
  • usar dados do Maicon Inocencio para modelo de mistura e fatorial com adicionais,
  • usar gráficos com deslizadores para controlar uma observação e ver o que acontece com os gráficos de diagnóstico de resíduo ao deslocar uma observação.
  • ✔ tratar os casos de dic, dbc com um e dois fatores desbalanceados.
  • nos dados de DAP discutir a coisa de usar os valores preditos como dependentes de uma análise subsequente, a coisa do viés.
  • revisar a análise dos dados volume.txt, aplicar uma transformação para corrigir a heterogeneidade de variâncias.
  • fazer uma enquete para avaliar a qualidade do curso.

Espaço do participante (feedback)

Dê sua opinião e me ajude a melhorar o curso. Critique, comente, sugira, tire dúvidas, peça a inclusão de novos procedimentos, discuta, expresse-se. Sua opinião é muito importante.

~~DISCUSSION~ ~