Datasets en DCA
Datasets en AWS S3
Datasets en AWS por medio del CLI
Datasets desde el shell en 192.168.10.116 a AWS S3
Datasets en HUE
Datasets en cluster EMR
Local DCA
$ cd 02-mapreduce
$ python wordcount-local.py /datasets/gutenberg-small/*.txt > salida-serial.txt
$ more salida-serial.txt
MRJob
$ cd 02-mapreduce
$ python wordcount-mr.py ../datasets/gutenberg-small/*.txt
Script de creación y terminación de clusters
Conexión al Clúster desde SSH
Acceso al Hue desde el Clúster
Acceso a Zeppelin y creación de un Notebook
python wordcount-mr.py hdfs:///user/lsanchezc/datasets/gutenberg-small/*.txt -r hadoop
Correr Wordcount-mr.py con hdfs en EMR
Correr Wordcount-mr.py con hdfs en el DCA
Enunciado
- Se tiene un conjunto de datos, que representan el salario anual de los empleados formales en Colombia por sector económico, según la DIAN.
La estructura del archivo es: (sececon: sector económico) (archivo: dataempleados.csv)
idemp,sececon,salary,year
3233,1234,35000,1960
3233,5434,36000,1961
1115,3432,34000,1980
3233,1234,40000,1965
1115,1212,77000,1980
1115,1412,76000,1981
1116,1412,76000,1982
Realizar un programa en Map/Reduce, con hadoop en Python o Java, que permita calcular:
-
El salario promedio por Sector Económico (SE)
-
El salario promedio por Empleado
-
Número de SE por Empleado que ha tenido a lo largo de la estadística
python employees1.py dataempleados.csv
python employees2.py dataempleados.csv
python employees3.py dataempleados.csv
Hive es utilizado para gestionar enormes datasets almacenados bajo el HDFS de Hadoop y realizar consultas (queries) sobre los mismos.
$ sqoop import-all-tables --connect jdbc:mysql://database-2.cnwmmyylynxl.us-east-1.rds.amazonaws.com:3306/retail_db --username=admin --password=<password>--hive-database retail_db --hive-overwrite --hive-import --warehouse-dir=/tmp/retail_dbtmp --mysql-delimiters
HUE (Hadoop User Experience) es una interfaz de usuario web para la gestión de Hadoop. Facilita el manejo y visualización de los datos
- Productos más populares
- Productos que generan más ganacias
Pregunta:
¿Son los productos más vistos también los más vendidos?
Respuesta según los Query
Partiendo de la suposición de que las URL tienen el nombre de los productos, tenemos que: El producto más visitado es uno de los que más genera ganacias
Spark es un framework de programación para procesamiento de datos distribuidos diseñado para ser rápido y de propósito general.
Se creó una función que analizara el estado de los pacientes y agregara una columna para mostrar la atención requerida
Nueva Columna
Agrupar por edades y en orden ascendente según cantidad de casos
Agrupación por estado, según número de casos
Filtrado de datos para ver la edad y el sexo de los casos graves en Antioquia
Filtro de los casos graves en la población más vulnerable (mayores de 70 años)