====== CE-083: Estatística Computacional I ======
{{ http://www.visualreporting.dk/en/images/r-project-consultant.png?480|}}
===== Detalhes da oferta da disciplina =====
* Professor: [[http://www.leg.ufpr.br/~walmes|Walmes Marques Zeviani]], ([[http://www.leg.ufpr.br|LEG: Laboratório de Estatística e Geoinformação]])
* Curso: Estatística.
* Período: 2013/1.
* Local: LABEST, LAB A.
* Horário: Terça, 17:30-19:00h e Quinta, 17:30-19:00h.
* Atendimento: Quarta, 17:00-18:00.
* Arquivos: {{http://www.leg.ufpr.br/~walmes/ensino/ce083-2013-01/|Diretório web com arquivos da disciplina.}}
* Cartão de referência: {{http://www.leg.ufpr.br/~walmes/cursoR/guia_rapido_R.pdf|Guia rápido do usuário R}} - tradução por Conrado Oliveira (ex-aluno).
* Ementa: {{http://www.leg.ufpr.br/~walmes/ensino/CE083-fichas-2013-05-03.pdf}}
===== Histórico das Aulas do Curso ======
Abaixo o histórico de atividades realizadas em classe e atividades extra classe aplicadas.
- 16/04:
* Introdução à Estatística Computacional I;
* Download, instalação e fundamentos iniciais do aplicativo R;
* Mecanismos de busca e consulta à documentação;
* Vetores, fundamentos, criação, atributos, seleção.
- 18/04:
* Tipos de valores, espaço em disco;
* Conversão entre tipos de valores;
* Operações matemáticas com vetores;
* Sequências regulares.
- 23/04:
* Operações com fatores, criação, atributos;
* Amostragem aleatória e números aleatórios;
* Agrupando dados em classes;
- 25/04:
* Formas de entrar com dados para vetores;
* Salvar memória de uma sessão do aplicativo;
* Ordenação de valores;
* Medidas de posição, dispersão e separatrizes;
* Análise gráfica, histograma, gráfico de caixas, de barras, de dispersão;
* Resumos por estrato.
- 30/04:
* Matrizes, fundamentos, criação, atributos, seleção, operações matemáticas;
* Aplicações com o delineamento experimental sudoku.
- 02/05:
* Arranjos, fundamentos, criação, seleção;
* Tabelas (data.frame), fundamentos, criação, atributos, seleção, ordenação;
- 07/05:
* Operações com tabelas de dados (data.frame);
* Estatísticas por estratificação;
* Visualização de dados por estratificação;
- 09/05:
* Leitura de tabela de dados a partir de arquivos de texto;
* Exportação de tabelas;
- 16/05:
* Leitura de dados da web no formato texto;
* Conversão de valores, procura e substituição;
* Criando novas variáveis;
* Identificação e destaque de pontos e linhas de referência em gráficos;
* Visualização por estrato;
* Tabelas com resumos por estrato;
* Exportação de resultados;
- 21/05:
* Leitura de dados disponíveis na web no formato texto corrido, fwf e csv;
* Parâmetros gráficos: rotação dos eixos, uso de cores;
- 23/05:
* Leitura de dados no formato html;
* Leitura de dados de planilhas eletrônicas (xls);
* Fusão de tabelas de dados (merge);
*
Trabalho 1 (vale 2 sabatinas) em dupla: Pegar um conjunto de dados do [[http://www.ipeadata.gov.br/|ipeadata]] com uma variável registrada em pelo menos 2 anos à nível municipal e abrangendo o Brasil. Entregar relatório de análise dos dados impresso na aula do dia 28/05. Tomar como referência o exemplo em [[http://www.leg.ufpr.br/~walmes/ensino/ce083-2013-01/t1.pdf|t1.pdf]]. Conforme o exemplo, o relatório deve ter no máximo 2 páginas, com texto, figuras e/ou tabelas que descrevam os dados, destacando informações relevantes, etc..
- 28/05:
* Junção de tabelas de dados (merge);
* Tabelas de frequência;
* Gráficos de frequência e anotações de texto no gráfico;
* Gráfico de segmentos, média e amplitude;
* Reordenação de níveis de um fator;
- 04/06:
* Análise exploratória de dados categóricos (ou qualitativos);
* Tabelas de frequência simples e cruzada;
* Gráficos de barras, setores e mosaico;
* Tratamento de strings;
* Operações e visualizações de dados no tempo (datas);
* Visualização de dados espaciais;
* Paleta de cores.
*
Trabalho 2 (vale 3 sabatinas) em trio: Fazer o download do aquivo [[http://www.leg.ufpr.br/~walmes/ensino/ce083-2013-01/actrans2009.zip|actrans2009.zip]]. O zip contém 12 arquivos de planilha eletrônica (.xls) uma para cada mês do ano de 2009. Cada planilha contém 4 tabelas (Acidente-rodovia, Veículos, Pessoas, Condutores). O conteúdo das planilhas é referente aos acidentes de transito das rodovias federais do Paraná, para o ano de 2009. Os dados são todos vinculados pelo número da ocorrência, presente em todas as tabelas. Na tabela Acidente-rodovia tem-se a descrição das condições do acidente, como hora de ocorrência, localização, causa. Na tabela Veículos tem-se a descrição destes, como ano, placa, marca. Na tabela Pessoas sobre pessoas envolvidas, como os passageiros e testemunhas. Na tabela Condutores tem informações como idade, sexo e estado civil. O objetivo da análise destes dados é descrever a frequência dos acidentes com relação às variáveis disponíveis: hora do acidente, condição meteorológica, causa do acidente, ano, tipo e quantidade de ocupantes do veiculo, idade, sexo, estado civil e categoria de habilitação do condutor. Para isso deve-se importar, para os 12 meses, as tabelas de Acidente-rodovia, Veículos e Condutores para fazer uma análise com todos os meses do ano. Para representar os resultados pode-se usar tabelas (de frequência simples e cruzada, médias ou outras estatísticas) e gráficos (histogramas, gráficos de barras, de setores, de caixas, diagramas de dispersão, de mosaico, de séries no tempo, mapas). Para avaliação deve-se montar um relatório de análise de dados com texto introdutório (justificativa e objetivos) e descrição da análise e seus resultados. Gráficos e tabelas inseridos devem ser comentados, com sua informação usada no texto. Eles devem ter tamanhos apropriados, serem legíveis, com legenda e numeração sequencial no texto. O relatório deve encaminhar para alguma conclusão à respeito dos resultados. Pense que você está informando pessoas dos orgãos ligados ao transporte e/ou saúde e seguradoras que vão usar do seu relatório para tomarem decisões (investimento, por exemplo). Entregar relatório impresso na aula do dia 13/06. Não exceder 4 páginas. Depois dessa data o relatório apenas 1.5 sabatinas. Os interessados em ganhar desempenho devem ler [[http://www.r-statistics.com/2010/05/exporting-r-output-to-ms-word-with-r2wd-an-example-session/|Exporting R output to MS-Word with R2wd]].
- 06/06:
* Alterando a forma das tabelas de dados (ampla/longa);
* Estatísticas por grupos;
* Ordenando tabelas;
* Gráficos com barras de erros.
- 11/06:
* Construção de funções, argumentos, corpo e resultados;
* Gráficos de funções paramétricas;
- 13/06:
* Funções, argumentos com valor padrão, mensagens de aviso e notificação;
* Geração de números aleatórios;
- 18/06:
* Funções para calcular a densidade, a densidade acumulada, a inversa da densidade acumulada e para gerar números aleatórios de distribuições de probabilidade;
- 20/06:
* Mais sobre geração de números aleatórios com uso de métodos numéricos;
* Distribuições de probabilidade mais comuns em aplicações de estatística;
*
Trabalho 3 (vale 1 sabatina) dupla ou trio: Fazer o download do documento de exemplo [[http://www.leg.ufpr.br/~walmes/ensino/ce083-2013-01/t3.pdf|trabalho3.pdf]]. Este documento é um exemplo de como o trabalho deve ser feito. **Deve ser entregue um documento IMPRESSO e não mais o envio de um script por e-mail**. Sem restrição ao número de páginas. Duplas devem fazer duas distribuições e trios devem fazer três. Os grupos, as distribuições de probabilidade e o sorteio das distribuições para os grupos estão no script da aula [[http://www.leg.ufpr.br/~walmes/ensino/ce083-2013-01/ce083-2013-01-aula18i.R|aula18.R]]. Entregar no dia 27/06.
- 25/06:
* Fundamentos de inferência;
* População, amostra, parâmetro, estimador e estimativa;
* Distribuição amostral;
* Propriedades de um estimador, vício, variância, consistência;
- 27/06:
* Gerar números de v.a. discretas;
* Distribuição amostral da média;
* Teorema central do limite;
* Distribuição amostral da média com variância desconhecida;
- 02/07:
* Princípios de teste de hipótese;
* Teste para uma média com variância conhecida;
* Teste para uma média com variância desconhecida;
*
Trabalho 4 (vale 2 sabatinas) dupla ou trio: Acessar o [[http://www.imoveiscuritiba.com.br/|Imóveis Curitiba]] e levantar dados sobre os imóveis. A cada grupo será designado um tipo de imóvel (apartamento padrão ou casa/sobrado padrão) e um bairro. Os bairros e tipo de imóveis para cada grupo estão disponíveis na [[http://www.leg.ufpr.br/~walmes/ensino/ce083-2013-01/ce083-2013-01-aula21i.R|aula 21]] bem como o procedimento para realizar a amostragem dos imóveis e organizar a tabela de registros. Até a aula do dia 09/07 (terça) todos os grupos devem ter os dados tabulados e disponíveis para uso em sala de aula. A aula [[http://www.leg.ufpr.br/~walmes/ensino/ce083-2013-01/ce083-2013-01-aula24i.Rnw|aula 24]] fornece um exemplo de como fazer o documento em estrutura Sweave. Entregar impresso dia 25/07.
- 04/07:
* Regressão linear simples, fundamentos;
* Especificação, estimação e interpretação;
* Análise dos resíduos;
* Predição;
- 09/07:
* Fundamentos de edição de texto em ambiente Latex;
*
Trabalho 5 (vale 2 sabatinas) dupla ou trio: Documentar teste de hipótese. O arquivo de exemplo da [[http://www.leg.ufpr.br/~walmes/ensino/ce083-2013-01/ce083-2013-01-aula23i.tex|aula 23]] deve ser usado. O sorteio dos testes aos grupos está na aula [[http://www.leg.ufpr.br/~walmes/ensino/ce083-2013-01/ce083-2013-01-aula23i.R|aula 23]]. Entregar impresso dia 25/07.
- 11/07:
* Fundamentos de edição de texto em Sweave (Latex+R);
- 08/08: Exame final.