Essa é uma revisão anterior do documento!
CE-083: Estatística Computacional I
Detalhes da oferta da disciplina
- Período: primeiro semestre de 2012
- Professor Responsável: Walmes Marques Zeviani, (LEG: Laboratório de Estatística e Geoinformação)
- Horários e Locais:
- As aulas estão programadas para a sala PC-04 entretanto serão ministradas no LABEST (sala C). Quando não o forem, será dado aviso previamente.
- Horários:
- Segunda, 17:30 - 19:30h.
- Quarta, 17:30 - 19:30h.
- Calendário 2012:
- Ajustes no calendário: Resolução 01-12 CEPE
- Data importantes: 05/03/2012 - início das aulas; 23/06/2012 - último dia letivo do 1o semestre; 02-07/07/2012 - período de exames finais.
- Avaliações:
Atividade Data Pontuação Conteúdo Informações 1a prova 16/04 25 pontos 1o trabalho 16/04 12.5 pontos 2a prova 21/05 25 pontos 2o trabalho 21/05 12.5 pontos 3o trabalho 17/10 25 pontos Final 23/10 Todo conteúdo do curso - Horários de atendimento do professor : Segundas e quartas, 16:30 - 17:30, LEG (Laboratório de Estatística e Geoinformação), prédio anexo ao prédio da administração do centro politécnico, andar superior (espaço do antigo salão de provas).
- Notas das avaliações: notas.pdf
Programa da Disciplina
O objetivo desta disciplina é capacitar os alunos para o uso de recursos computacionais para computação estatística. O curso dará ênfase e capacitará os participantes no uso do (ambiente R de computação estatística). Será assumido conhecimento:
- do conteúdo correspondente à disciplina Estatística Descritiva e Exploratória;
- do sistema operacional LINUX;
EMENTA da disciplina
Referências Bibliográficas
- [2010, book]
- Bussab, W. O., & Morettin, P. A. (2010). Estatística Básica (6 ed.) Saraiva.
- [200?, book]
- Magalhães, M. N., & Lima, A. C. P. (200?). Noções de Probabilidade e Estatística (1 ed.) Edusp.
- [2009, techreport | www]
- Ribeiro Júnior, P. J. (2009). Introdução ao Ambiente Estatístico R.
- [2002, book | www]
- Venables, W. N., & Ripley, B. D. (2002). Modern applied statistics with S Birkhäuser.
- [2009, book | www]
- Everitt, B. S., & Hothorn, T. (2009). A Handbook of Statistical Analyses Using R, Second Edition (2 ed.) Chapman \& Hall.
- [2008, book | www]
- Dalgaard, P. (2008). Introductory Statistics with R (2nd ed.) Springer.
- [2008, book | www]
- Sarkar, D. (2008). Lattice: Multivariate Data Visualization with R (1 ed.) Springer.
- [2005, book | www]
- Murrell, P. (2005). R Graphics (1 ed.) Chapman and {Hall/CRC}.
Histórico das Aulas do Curso
Abaixo o histórico de atividades realizadas em classe e atividades extra classe sugeridas.
Data | Conteúdo em classe | Atividade extra | Arquivos |
---|---|---|---|
seg 05/Mar (aula 01) | Informações gerais. R e Emacs. Objetos e páginas de documentação. | Rodar o script aula01.R | Imprimir o Cartão de Referência do R |
qua 07/Mar (aula 02) | Exercícios de fixação sobre objetos, do 1 ao 4. | Rodar o script aula02.R | exercícios.pdf |
seg 12/Mar (aula 03) | Seleção em objetos por meio de regras lógicas (TRUE/FALSE). | Rodar o script aula03.R, tomar conhecimento dos seguintes conteúdos: logical operators, Quick-R: Operators, Why?: Logical operators in R, Linux etc.: R logical operators. | R language definition |
qua 14/Mar (aula 04) | Exercícios de fixação sobre objetos, do 5 ao 15. | Rodar o script aula04.R. | exercícios.pdf |
seg 19/Mar (aula 05) | Fazendo seleção em data.frame usando a função subset(). Distribuições de frequência (table()) e agrupamento de dados em classes (cut()). | Rodar o script aula05.R, tomar conhecimento dos seguintes conteúdos: R 101 - The Subset Function, Quick R - Subsetting Data. | |
qua 21/Mar (aula 06) | Exercícios de fixação sobre seleção em data.frame, agrupando de dados em classe e distribuição de frequência. | Rodar o script aula06.R, tomar conhecimento dos seguintes conteúdos:Quick R - Frequencies and Crosstabs. | ? |
seg 26/Mar (aula 07) | Distribuição de frequência acumulada, tabelas cruzadas de distribuição de frequência, gráfico de mosaico, histogramas, gráfico de densidade. | Rodar o script aula07.R, tomar conhecimento dos seguintes conteúdos: R cross tabulation, Histogram, Quick R - Histograms and Density Plots, Histograms in R, Cookbook for R - Histogram and density plot. | ? |
qua 28/Mar (aula 08) | Distribuição acumulada empírica, diagramas de dispersão, gráficos de caixa, principais parâmetros gráficos, diagramas de ramos e folhas. | Rodar o script aula08.R, tomar conhecimento dos seguintes conteúdos: Quick R - Graphical Parameters, Graphical parameters, Graphical parameters list, R Graph Gallery, R graphical manual. | ? |
seg 02/Abr (aula 09) | Medidas de posição, dispersão, separatrizes e estatísticas separadas por grupo de dados. | Rodar o script aula09.R, tomar conhecimento dos seguintes conteúdos: Grouping & Summarizing Data in R, Say it in R with "by", "apply" and friends, Printing nested tables in R, Aggregation and Restructuring data, The many flavors of apply, A brief introduction to "apply" in R, R Tutorial Series - Summary and Descriptive Statistics, Easy cell statistics for factorial designs, Videos on Data Analysis with R. | ? |
qua 04/Abr (aula 10) | Pacotes e funções para análise descritiva de dados e para tarefas separadas por grupos. | Rodar o script aula10.R, tomar conhecimento dos seguintes conteúdos: Printing nested tables in R, Another solution to the R to Word table problem, R to Word revisited, On R versus SAS, Abbreviations of R Commands Explained: 250+ R Abbreviations. | ? |
seg 09/Abr (aula 11) | Distribuições de probabilidade, definições de suporte de uma v.a., espaço paramétrico, distribuição de, função de, função densidade de, função de distribuição acumulada de probabilidades, esperança de, variância de uma v.a., noções de simular valores de uma v.a., integração numérica. Trabalho 1 - instruções abaixo. | Rodar o script aula11.R, tomar conhecimento dos seguintes conteúdos: Basic probability distributions, Probability distributions in R, CRAN Task View: Probability Distributions, R tutorial - probability distributions, Probability and distributions, Probability distributions and quantiles, Probability distributions, R Programming - Probability Distributions. | ? |
qua 11/Abr (aula 12) | Cálculo de probabilidades, cálculo de quantis, geração de números aleatórios e métodos gráficos para comparar amostras com modelos teóricos de distribuição | Rodar o script aula12.R, tomar conhecimento dos seguintes conteúdos: Geração de números aleatórios, R Tutorial - Distributions functions, Working with Probability Distributions in R. | ? |
seg 16/Abr | PRIMEIRA AVALIAÇÃO | GABARITO.pdf e NOTAS.pdf | ? |
qua 18/Abr (aula 13) | Visualizando interativamente as distribuições de probabilidade, aplicações das distribuições de probabilidade na modelagem de dados. | Rodar o script aula13.R tomar conhecimento dos conteúdos: rpanel: Simple Interactive Controls for R Functions Using the tcltk Package, Finger Exercise: Throwing two Dice in R using the rpanel Package, Variogram fit with RPanel. | ? |
seg 23/Abr (aula 14) | Distribuição amostral e teorema do limite central. | Rodar o script aula14.R tomar conhecimento dos conteúdos: VPS0126 - Aula Prática 04 - Teorema do Limite Central,Bioestadística - Teorema del límite central, Distribución normal - Teorema central del límite, Introductory Statistics - Chapter 6: Sampling distributions, ce083-2012-01 | ? |
qua 25/Abr (aula 15) | Distribuição amostral da proporção, da variância, da razão entre duas variâncias e da diferença de duas médias, erro tipo I e tipo II. | Rodar o script aula15.R tomar conhecimento dos conteúdos: Error Tipo I & II - alfa - beta - PODER, Nivel de significancia, Error tipo I, p-valor, Learn to understand Hypothesis Testing For Type I and Type II, Valor de P y significación estadística. | ? |
seg 30/Abr | Não houve aula devido ao feriado do dia do trabalho. | ? | ? |
qua 02/Mai (aula 16) | Intervalos de confiança e teste para a média de uma normal. | Rodar o script aula16.R tomar conhecimento dos conteúdos: Intervalo de confiança, Intervalo de confiança - probabilidade e estatística. | ? |
seg 07/Mai | Não houve aula devido à participação do docente na 57º RBRAS. | ? | ? |
qua 09/Mai (aula 17) | Intervalos de confiança e teste de hipótese para média, proporção e diferença de médias. Trabalho 2 - instruções abaixo. | Rodar o script aula17.R tomar conhecimento dos conteúdos: Intervalo De Confianza Para Una Proporción, Portal Action - 4 - Intervalos de confiança, Portal Action - 5 - Testes de hipótese. | ? |
seg 14/Mai (aula 18) | Dimensionamento de amostra e teste para a variância. | Rodar o script aula18.R tomar conhecimento dos conteúdos: ? | ? |
qua 16/Mai (aula 19) | Teste para variâncias, teste t amostras independentes e amostras pareadas, teste de aderência e independência. | Rodar o script aula19.R tomar conhecimento dos conteúdos: ? | ? |
seg 21/Mai | 2ª avaliação. | Interactive Graphics with the iplots Package (from "R in Action"). | ? |
qua 19/Set (aula 20) | Importação de dados no formato texto, uso da função read.table() . | Rodar o script ce083-2012-01 e tomar conhecimento do conteúdos: R Data Import/Export, R Data Import from Text File, Reading Data into R, Data Import, Importing Data in R, Importing Data. | ? |
seg 24/Set (aula 21) | Importação de dados, tarefas por grupos e gráficos da lattice. | Rodar o script aula21.R e tomar conhecimento do conteúdos: R Grouping functions, A brief introduction to 'apply' in R, plyr: The split-apply-combine strategy for R, A Fast Intro to PLYR for R, Using Lattice Graphics in R, Trellis Graphics: the Lattice Package. | ? |
qua 26/Set (aula 22) | Junção de dados e reorganização. | Rodar o script aula22.R e tomar conhecimento do conteúdos: How to join data frames in R (inner, outer, left, right)?, Merging Multiple Data Files into One Data Frame, Merge data frames. | ? |
qua 01/Out (aula 23) | Exportação de gráficos e tabelas. | Rodar o script aula23.R e tomar conhecimento do conteúdos: Exporting Data, Exporting R graphs - cross-platform solutions, Graphical Capabilities of R, 10 tips for making your R graphics look their best. | ? |
Avaliações
Trabalho 1
## DISTRIBUIÇÕES DE PROBABILIDADE ## 1. rnorm(n, mean=0, sd=1) ## 2. rexp(n, rate=1) ## 3. rgamma(n, shape, scale=1) ## 4. rpois(n, lambda) ## 5. rweibull(n, shape, scale=1) ## 6. rcauchy(n, location=0, scale=1) ## 7. rbeta(n, shape1, shape2) ## 8. rt(n, df) ## 9. rf(n, df1, df2) ## 10. ? ## 11. ? ## 12. rchisq(n, df) ## 13. rbinom(n, size, prob) ## 14. rgeom(n, prob) ## 15. rhyper(nn, m, n, k) ## 16. rlogis(n, location=0, scale=1) ## 17. rlnorm(n, meanlog=0, sdlog=1) ## 18. rnbinom(n, size, prob) ## 19. runif(n, min=0, max=1) Resultado do sorteio das distribuições de probabilidade aos alunos GRR [,1] [,2] [,3] [,4] 20041394 3 8 18 6 20096715 3 19 4 8 20096735 13 2 7 5 20096740 16 8 13 15 20096743 14 1 9 4 20096755 8 12 6 2 20096759 5 13 8 18 20096771 7 12 6 4 20096805 8 18 3 2 20096815 17 5 18 2 20108002 18 1 9 15 20108006 13 9 2 15 20108008 5 1 6 16 20108010 17 13 12 16 20108021 6 3 17 15 20108053 16 3 7 4 20108056 3 14 16 6 20108067 16 9 14 13 20108083 2 8 17 15 20108092 12 6 9 16 20108094 2 17 16 19 20108129 13 14 9 12 20110245 6 15 7 18 20110248 14 15 1 8 20110499 15 4 6 18 20115297 13 19 5 17 20115299 6 18 5 7 20115300 16 15 17 8 20115303 6 16 1 8 20115304 8 3 16 5 20115305 15 2 8 9 20115317 7 9 17 8 20115322 6 8 1 3 20123340 2 18 13 3 20123353 3 13 14 15 20123365 13 6 18 4 20123379 17 4 3 16 # obter para as 4 distribuições de probabilidade: # 1) o suporte da v.a. e a classificação quanto ao tipo, # 2) expressões da FP e FDP, # 3) parâmetros e seus espaços paramétricos, # 4) gráfico da FP, FDP, FDA para 3 conjuntos distintos dos parâmetros, # 5) expressão da E(X) e V(X), # 6) simular dos modelos com 3 conjuntos distintos de parâmetros (n=1000), # 7) calcular a média e variância teórica e comparar com a amostral, # 8) gráficos/tabelas de distribuição de frequências, fazer histogramas, # gráficos de densidade e sobrepor o modelo teórico. Entregar script R com os 8 passos separado por distribuição de probabilidades. O Script deve conter cabeçalho com nome do acadêmico e grr. Enviar arquivos com nome seguindo padrão "ce083_meu_grr.R", exemplo, GRR 20041394 vai ficar "ce083_20041394.R" (o nome do arquivo deve ser obrigatoriamente nesse formato, e deve ser de extensão R (executável), não em txt, doc, outro. Enviar arquivo para walmes<at>ufpr.br, no campo assunto escrever "ce083 - trabalho 1". Enviar arquivo até às 17:30 h do dia 18/04.
Trabalho 2
Entregar script R com para um dos itens de 1 à 4 de cada questão. O sorteio dos itens está dentro do documento. O Script deve conter cabeçalho com nome do acadêmico e grr. Enviar arquivos com nome seguindo padrão "ce083_meu_grr.R", exemplo, GRR 20041394 vai ficar "ce083_20041394.R" (o nome do arquivo deve ser obrigatoriamente nesse formato, e deve ser de extensão R (executável), não em txt, doc, outro. Enviar arquivo para walmes<at>ufpr.br, no campo assunto escrever "ce083 - trabalho 2". Enviar arquivo até às 17:30 h do dia 21/05.
Trabalho 3
Análise descritiva de dados. Obter dados do portal www.ipeadata.gov.br à nível de município (registros de valores por município) e abrangência Brasil. Com os dados fazer:
- Uma análise exploratória a nível de Brasil. Represente a distribuição de frequência por meio de gráficos e/ou tabelas, apresente medidas de posição, dispersão, separação. Discuta os gráficos e tabelas apresentados em todos os seus aspectos gerais e detalhes. Escreva sua redação como se estivesse realmente informando uma platéia não especializada em estatística.
- Uma análise exploratória separada por estado. Apresente gráficos e tabelas que permitam vizualizar diferenças entres os estados, agrupar estados por similaridade. Discuta os casos extremos, os resultados dos gráficos e tabelas como se estivesse informando uma platéia não especializada em estatística.
- Faça uma análise exploratória considerando a renda per capita média. Verifique o comportamento entre as duas variáveis, descreva a relação entre elas.
Em todas as etapas você irá usar o mesmo conjunto de dados. A lista dos dados e respectivo responsável está abaixo:
Domínio | Tema | Tabela | Responsável |
---|---|---|---|
Reginal | Agropecuária | área plantada total | ? |
Reginal | Agropecuária | utilização das terras - matas e florestas naturais | Renato S. B. |
Reginal | Produção | despezas com atividades de comércio | ? |
Reginal | Produção | despezas com atividades de serviço | ? |
Reginal | Segurança pública | número de omicídios | Fernando G. M. |
Reginal | Segurança pública | número de suicídios | Simone R. |
Reginal | Segurança pública | número de vítimas de acidente de trânsito | Wagner L. |
Reginal | Geográfico | área geográfica | Morlan |
Social | Asistência social | programa bolsa família - número de bolsas em Dezembro | Letícia P. O. |
Social | Demografia | professores do fundamental residentes com curso superior completo | Zheng |
Social | Demografia | taxa de fecundidade | José E. L. |
Social | Demografia | esperança de vida ao nascer | Paula A. Z. |
Social | Demografia | probabilidade de sobreviver até 40 anos | ? |
Social | Demografia | mortalidade até 5 anos | Vanessa S. |
Social | Habitação | domicílios com carro - pessoas | Michele |
Social | Habitação | domicílios com energia elétrica - pessoas | Juliana |
Social | Habitação | domicílios com instalação adequada de esgoto - pessoas | ? |
Social | Emprego | taxa de participação | Jefferson N. |
Social | Emprego | população ocupada | ? |
Social | Saúde | enfermeiros residentes com curso superior | ? |
Social | Renda | renda famíliar per capita média | TODOS |
Você deverá entregar para avaliação:
- Um script R com o passo a passo, incluindo comandos e com comentários, desde a importação do arquivo de dados à geração de gráficos e tabelas que serão usados na sua discussão.
- Um documento de texto (editado em Word, Writer, Latex ou qualquer outro) enviado em formato PDF contendo elementos da sua análise de dados (informação em tabelas, gráficos e no texto) e principalmente, texto com discussão/informação/contextualização/interpretação sobre a análise feita. Todo gráfico/tabela apresentado deve ser discutido. Não esqueça de colocar a origem dos dados, as unidades de medida, o ano de referência. Gráficos e tabelas devem estar com rótulos de eixos/linhas/colunas em português, devem ser sequencialmente numerados dentro do texto e ter legendas que descrevam de forma breve o seu conteúdo.
- O prazo limite para envio dos trabalhos é dia 17/10/2012 às 19:00.
Programas computacionais
- Programa básico do curso
- The R project for Statistical Computing: página do programa R
- Recursos auxiliares
- Recursos sobre o R
- [R-br] é uma lista de discussão em português sobre o uso do R.
- Uma página interessante com um introdução ao R
- Rseek é uma página de procura de recursos do R
- Alguns materiais sobre o uso o
- Editor de texto : O MiKTeX disponibiliza arquivos de instalação para ambiente Windows
- Tex-BR uma excelente página em portugês brasileiro sobre o
- Diversos outros links neste material
- O TeXniccenter é um editor para ambiente windows que facilita a edição de documentos do
- About Latex no site Art of problem solving
- Versão WIKI e atualizada do link acima
- O Xemacs é uma outra opção de editor que facilita a edição de arquivos do e R e disponível para plataformas Linux e Windows.
- A página de Fernando Ferraz tem uma série de recursos de interesse para estatísticos