Una introducción al análisis de datos con Python - PyconAR 2016.
- Setting up!
- Outline
- Otros recursos
- Datos usados en el taller
- Herramientas usadas en el taller
- Duración recomendada
Para seguir el taller te recomendamos que sigas las instrucciones de instalación, clones el repositorio y sigas los jupyters de ejemplo, ejecutando celda por celda.
Si estás dispuesto a cambiar tu instalación de python (o todavía no tenés una!) te recomendamos que instales la distro Anaconda. Ofrece un entorno preparado para hacer análisis de datos con python y ya viene con dependencias pre-instaladas para un montón de paquetes.
Si no tenés Anaconda y usás Ubuntu:
sudo apt-get install libblas-dev liblapack-dev libatlas-base-dev gfortran libgeos-dev ffmpeg
Después clonate el repo e instalá las dependencias:
git clone https://github.com/datosgobar/taller-analisis-datos-101.git
pip install -r requirements.txt
- Instalación de recursos (10')
- Presentación (20/30')
- Introducción a Jupyter ("hola mundo") (20')
- Abrir el notebook 0 - Introducción a Jupyter
- Introducción a pandas + numpy + matplotlib (10')
- Abrir el notebook 1 - Introducción a pandas + numpy + matplotlib
- Ejemplo: Análisis de datos agrícolas (50')
- Abrir el notebook 2 - Análisis de datos agrícolas
Bonus track: En Precios internacionales de cultivos (COMTRADE vs. WB) podés ver cómo comparar el precio de un cultivo calculado con datos de COMTRADE y los precios de una base del Banco Mundial, usando sus APIs.
- COMTRADE: API con datos de comercio exterior, mantenida por Naciones Unidas.
- Banco Mundial: API con indicadores de desarrollo de todo el mundo mantenida por el Banco Mundial.
- FRED: API con series de tiempo estadísticas y económicas principalmente de Estados Unidos pero también del mundo, mantenida por la Reserva Federal de Estados Unidos.
- Quandl: API que da acceso a una lista de bases de datos de series de tiempo, principalmente económicas. Algunas son gratuitas y otras pagas.
- OECD Data: API de las bases de datos de la Organización para la Cooperación y el Desarrollo Económico.
- Portal Nacional: http://datos.gob.ar/
- Ministerio de Agroindustria: https://datos.magyp.gob.ar/
- Ministerio de Justicia: http://datos.jus.gob.ar/
- PAMI: http://datos.pami.org.ar:5000/dataset
- Ministerio de Energía: http://datos.minem.gob.ar/
- Ciudad de Buenos Aires: http://data.buenosaires.gob.ar/
- Jujuy: http://datos.gajujuy.gob.ar/
- Misiones: http://www.datos.misiones.gov.ar/
- Mar del Plata: http://www.mardelplata.gob.ar/opendata
- Bahia Blanca: http://gabierto.bahiablanca.gob.ar/datos-abiertos/
- Mercedes: http://datos.mercedes.gob.ar/home
- Pilar: http://datosabiertos.pilar.gov.ar/home
- Gualeguachú: http://data.gualeguaychu.gov.ar/
- Junín: http://www.junin.gov.ar/ga/
- Córdoba (ciudad): http://cdcordoba.opendata.junar.com/home/
- Mendoza (ciudad): http://datos.ciudaddemendoza.gov.ar/
- Unión Europea: https://www.europeandataportal.eu/
- Estados Unidos: https://www.data.gov/
- Reino Unido: https://www.data.gov.uk/
pandas
: Estructuras y herramientas para análisis de datos en Python.geopandas
: Extiendepandas
con funcionalidades geoespaciales.numpy
: Objetos y estructuras para computación científica en Python.scipy
: Herramientas de computación científica en Python.matplotlib
: Gráficos en Python.scikit-learn
: Machine learning en Python.seaborn
: Estadística y visualización en Python.statsmodels
: Modelos y tests estadísticos en Python.
- Shapefile provincias (INDEC)
- Shapefile departamentos (INDEC)
- Estimaciones de producción de cultivos (MAGYP)
- Valores y cantidades de comercio exterior (API de COMTRADE)
- Precios internacionales de cultivos (API del Banco Mundial)
- Anaconda - Nuestra distro de python para análisis de datos.
- Jupyter - El notebook para ejecutar código dinámicamente.
- DocToc - Para la tabla de contenidos
2 horas (modo expositivo) / 3 horas (modo taller)