Nas últimas décadas os meios tecnológicos que processam a informação alcançaram um grau de amadurecimento que permitiu a divulgação de dados em escala maior a que vem sendo a sua análise, sucitando crescente demanda por tratamento e interpretação de bases quantitativas/textuais. Sintetizado na expressão revolução dos dados, trata-se um movimento tecnológico e cultural que preza pelo empirismo, por uso de meios tecnológicos e multidisciplinaridade para fins de minerar valor na informação.
Aprender a i) escrever códigos capazes de organizar e cruzar informações entre fontes diversas; ii) trabalhar com microdados de pesquisas (ex. PNADc, POF, PME, etc) ou microdados administrativos (CAGED, RAIS, Cadastro Mineiro, etc.); iii) operar registros em Dados Abertos e portais de transparência.
Curso | Introdução à linguagem R para análise de dados: aplicações com bases da mineração |
---|---|
Quantidade de turmas | 2 turmas |
Data | 17/mai à 16/jun - turma 1 — Set-Out-Nov/2022 - turma 2 |
Horário | vespertino (14h-17h, terças e sextas) |
Número de vagas | 10 vagas. Contemplando servidores externos à GEMI alocados na Turma 2 (2/Ago à 1/Set). |
Área Temática | Economia e Programação |
Objetivo Geral | Compartilhar saberes entre pares |
Objetivos Específicos | i) Escrever scripts capazes de organizar, cruzar e sintetizar informações entre fontes; ii) operar registros em Dados Abertos e portais de transparência; iii) Trabalhar com microdados de pesquisas (PNADc, POF, PME, etc) e microdados administrativos (CAGED, RAIS, Cadastro Mineiro, etc.); |
Área demandante | Gerência de Economia Mineral (GEMI) |
Competências a serem desenvolvidas | Programação e produção de estatísticas públicas por meios reprodutíveis |
Público-Alvo | Servidores da GEMI e servidores da ANM em geral |
Justificativa | i) A área de economia mineral da ANM, habituada a trabalhar estatísticas públicas na mineração, ganha mais uma ferramenta para esse fim; ii) bases com larga escala e que não podem ser operados em softwares de planilhas, estão se tornando mais frequentes (portais de dados abertos, transparência, etc). |
Carga Horária | 30h |
Certificado | Emitido para CODEP/SGP (requisito de frequência) |
- Apresentação: introdução ao R e Rstudio
- Comandos básicos e configuração
- Conceitos preliminares de programação
- Tipos de dados: character, numeric, integer, double e logical
- Operadores aritméticos e Operadores lógicos
- Tipos de estruturas de dados: vetores, matrizes, listas, dataframes, etc
- Estruturas de controle (if/else; Loops)
- Introdução à Mineração de texto: funções de busca e filtros
- Substituição e concatenação de strings
- Expressões regulares
- O pacote stringr
- Criação e transformação de painéis de dados
- Leitura em fontes externas (read.csv, read.table e read.xls)
- Trabalhando com dataframes
- Alteração e criação colunas
- Funções úteis para transformação: os pacotes tidyr e dplyr
- Trabalhando com datas e o pacote lubridate
- Pivotagem de tabelas: formato wide e long
- União e cruzamento de tabelas
- Construção de chaves primárias
- Junções: Inner, Left, Right e Full
- Exportando objetos: arquivos .csv, .rds e .RDATA
- Sintetizando a informação
- Funções estatísticas básicas: medidas de tendência central, medidas de dispersão, correlação, quantis, assimetria e curtose
- Introdução à identificação de outliers
- Cláusulas de agrupamento e funções de agregação
- Visualizando a informação
- Introdução ao ggplot2
- Trabalhando com camadas
- Objetos geométricos
- Escalas no ggplot2
- Tipos de variáveis e tipo de gráfico
- Customização com temas