Laboratorio BigData

Laura Sánchez Córdoba

Bitácora

Gestión de Datos:

Datasets en DCA

Instalación del AWS CLI

Datasets en AWS S3

Datasets en AWS por medio del CLI

Datasets desde el shell en 192.168.10.116 a AWS S3

Datasets en HUE

Datasets en cluster EMR

Ejecución del Wordcount local y MRjob

Local DCA

$ cd 02-mapreduce

$ python wordcount-local.py /datasets/gutenberg-small/*.txt > salida-serial.txt 

$ more salida-serial.txt

MRJob

$ cd 02-mapreduce

$ python wordcount-mr.py ../datasets/gutenberg-small/*.txt

Creación de Clúster por CLI

Script de creación y terminación de clusters

Conexión al Clúster desde SSH

Acceso al Hue desde el Clúster

Acceso a Zeppelin y creación de un Notebook

Wordcount con datos en hdfs

python wordcount-mr.py hdfs:///user/lsanchezc/datasets/gutenberg-small/*.txt -r hadoop

Correr Wordcount-mr.py con hdfs en EMR

Correr Wordcount-mr.py con hdfs en el DCA

Ejercicio 1 de MapReduce/MRJob

Enunciado

Se tiene un conjunto de datos, que representan el salario anual de los empleados formales en Colombia por sector económico, según la DIAN.

La estructura del archivo es: (sececon: sector económico) (archivo: dataempleados.csv)

idemp,sececon,salary,year

3233,1234,35000,1960

3233,5434,36000,1961

1115,3432,34000,1980

3233,1234,40000,1965

1115,1212,77000,1980

1115,1412,76000,1981

1116,1412,76000,1982

Realizar un programa en Map/Reduce, con hadoop en Python o Java, que permita calcular:

El salario promedio por Sector Económico (SE)
El salario promedio por Empleado
Número de SE por Empleado que ha tenido a lo largo de la estadística
python employees1.py dataempleados.csv

python employees2.py dataempleados.csv

python employees3.py dataempleados.csv

HIVE

Hive es utilizado para gestionar enormes datasets almacenados bajo el HDFS de Hadoop y realizar consultas (queries) sobre los mismos.

Creación y conexión a base de datos MYSQL en EC2

Importar base de datos HIVE

Comando:

$ sqoop import-all-tables --connect jdbc:mysql://database-2.cnwmmyylynxl.us-east-1.rds.amazonaws.com:3306/retail_db --username=admin --password=<password>--hive-database retail_db --hive-overwrite --hive-import --warehouse-dir=/tmp/retail_dbtmp --mysql-delimiters

Verificamos que funcionó con HUE

HUE (Hadoop User Experience) es una interfaz de usuario web para la gestión de Hadoop. Facilita el manejo y visualización de los datos

Realización de Querys

Productos más populares

Productos que generan más ganacias

Creación de tabla externa con datos en HDFS desde el Clúster EMR

Crear directorio para tabla externa con ETL

Query de los productos más visitados

Pregunta:

¿Son los productos más vistos también los más vendidos?

Respuesta según los Query

Partiendo de la suposición de que las URL tienen el nombre de los productos, tenemos que: El producto más visitado es uno de los que más genera ganacias

Spark

Spark es un framework de programación para procesamiento de datos distribuidos diseñado para ser rápido y de propósito general.

Subir los datos a un Bucket S3

Crear un Notebook y leer los datos

- Agregar columnas

Se creó una función que analizara el estado de los pacientes y agregara una columna para mostrar la atención requerida

Nueva Columna

- Agrupaciones

Agrupar por edades y en orden ascendente según cantidad de casos

Agrupación por estado, según número de casos

- Filtraciones

Filtrado de datos para ver la edad y el sexo de los casos graves en Antioquia

Filtro de los casos graves en la población más vulnerable (mayores de 70 años)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Laboratorio BigData

Laura Sánchez Córdoba

Bitácora

Gestión de Datos:

Ejecución del Wordcount local y MRjob

Creación de Clúster por CLI

Wordcount con datos en hdfs

Ejercicio 1 de MapReduce/MRJob

HIVE

Creación y conexión a base de datos MYSQL en EC2

Importar base de datos HIVE

Comando:

Verificamos que funcionó con HUE

Realización de Querys

Creación de tabla externa con datos en HDFS desde el Clúster EMR

Crear directorio para tabla externa con ETL

Query de los productos más visitados

Spark

Subir los datos a un Bucket S3

Crear un Notebook y leer los datos

- Agregar columnas

- Agrupaciones

- Filtraciones

- Eliminar Columnas

Guardar en S3

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
README.md		README.md
dataempleados.csv		dataempleados.csv
employees1.py		employees1.py
employees2.py		employees2.py
employees3.py		employees3.py

lsanchezc613/lab01bigdata

Folders and files

Latest commit

History

Repository files navigation

Laboratorio BigData

Laura Sánchez Córdoba

Bitácora

Gestión de Datos:

Ejecución del Wordcount local y MRjob

Creación de Clúster por CLI

Wordcount con datos en hdfs

Ejercicio 1 de MapReduce/MRJob

HIVE

Creación y conexión a base de datos MYSQL en EC2

Importar base de datos HIVE

Comando:

Verificamos que funcionó con HUE

Realización de Querys

Creación de tabla externa con datos en HDFS desde el Clúster EMR

Crear directorio para tabla externa con ETL

Query de los productos más visitados

Spark

Subir los datos a un Bucket S3

Crear un Notebook y leer los datos

- Agregar columnas

- Agrupaciones

- Filtraciones

- Eliminar Columnas

Guardar en S3

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages