Este repositorio contiene las clases del curso en Big Data
-
Syllabus
-
Programación Python
-
Bases de Datos Relacionales
- Introducción a bases de datos
- Modelo entidad-relación
- Implementación de bases de datos
- Algebra relacional
- SQL I
- SQL II
- SQL III -Ejemplo Sakila
- SQLAlchemy para consultar las bases de datos desde Python-Pandas Github
-
Motor Dask para Big Data en Python
- Introducción la procesamiento paralelo con Dask
- Ejecución retrasada (lazzy)
- Mejores prácticas con ejecución retrasada
- Colleciones bag
- Arrays
- Dataframes
- Ejecución distribuida
- Ejecución distribuida avanzada
- Ejecución con un cluster en la nube - Coiled
- Almacenamiento eficiente de dask-dataframes
- Aprendizaje de Maquinas paralelo y distribuido
- Almacenamiento hdf5
-
Spark