Skip to content

Laboratorio de Big Data Tópicos Especiales en Telemática

Notifications You must be signed in to change notification settings

lsanchezc613/lab01bigdata

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Laboratorio BigData

Laura Sánchez Córdoba

Bitácora

Gestión de Datos:

Datasets en DCA

Instalación del AWS CLI

Datasets en AWS S3

Datasets en AWS por medio del CLI

Datasets desde el shell en 192.168.10.116 a AWS S3

Datasets en HUE

Datasets en cluster EMR

Ejecución del Wordcount local y MRjob

Local DCA

$ cd 02-mapreduce

$ python wordcount-local.py /datasets/gutenberg-small/*.txt > salida-serial.txt 

$ more salida-serial.txt

MRJob

$ cd 02-mapreduce

$ python wordcount-mr.py ../datasets/gutenberg-small/*.txt

Creación de Clúster por CLI

Script de creación y terminación de clusters

Conexión al Clúster desde SSH

Acceso al Hue desde el Clúster

Acceso a Zeppelin y creación de un Notebook

Wordcount con datos en hdfs

python wordcount-mr.py hdfs:///user/lsanchezc/datasets/gutenberg-small/*.txt -r hadoop

Correr Wordcount-mr.py con hdfs en EMR

Correr Wordcount-mr.py con hdfs en el DCA

Ejercicio 1 de MapReduce/MRJob

Enunciado

  1. Se tiene un conjunto de datos, que representan el salario anual de los empleados formales en Colombia por sector económico, según la DIAN.

La estructura del archivo es: (sececon: sector económico) (archivo: dataempleados.csv)

idemp,sececon,salary,year

3233,1234,35000,1960

3233,5434,36000,1961

1115,3432,34000,1980

3233,1234,40000,1965

1115,1212,77000,1980

1115,1412,76000,1981

1116,1412,76000,1982

Realizar un programa en Map/Reduce, con hadoop en Python o Java, que permita calcular:

  • El salario promedio por Sector Económico (SE)

  • El salario promedio por Empleado

  • Número de SE por Empleado que ha tenido a lo largo de la estadística

    python employees1.py dataempleados.csv

python employees2.py dataempleados.csv

python employees3.py dataempleados.csv

HIVE

Hive es utilizado para gestionar enormes datasets almacenados bajo el HDFS de Hadoop y realizar consultas (queries) sobre los mismos.

Creación y conexión a base de datos MYSQL en EC2

Importar base de datos HIVE

Comando:

$ sqoop import-all-tables --connect jdbc:mysql://database-2.cnwmmyylynxl.us-east-1.rds.amazonaws.com:3306/retail_db --username=admin --password=<password>--hive-database retail_db --hive-overwrite --hive-import --warehouse-dir=/tmp/retail_dbtmp --mysql-delimiters 

Verificamos que funcionó con HUE

HUE (Hadoop User Experience) es una interfaz de usuario web para la gestión de Hadoop. Facilita el manejo y visualización de los datos

Realización de Querys

  • Productos más populares

  • Productos que generan más ganacias

Creación de tabla externa con datos en HDFS desde el Clúster EMR

Crear directorio para tabla externa con ETL

Query de los productos más visitados

Pregunta:

¿Son los productos más vistos también los más vendidos?

Respuesta según los Query

Partiendo de la suposición de que las URL tienen el nombre de los productos, tenemos que: El producto más visitado es uno de los que más genera ganacias

Spark

Spark es un framework de programación para procesamiento de datos distribuidos diseñado para ser rápido y de propósito general.

Subir los datos a un Bucket S3

Crear un Notebook y leer los datos

- Agregar columnas

Se creó una función que analizara el estado de los pacientes y agregara una columna para mostrar la atención requerida

Nueva Columna

- Agrupaciones

Agrupar por edades y en orden ascendente según cantidad de casos

Agrupación por estado, según número de casos

- Filtraciones

Filtrado de datos para ver la edad y el sexo de los casos graves en Antioquia

Filtro de los casos graves en la población más vulnerable (mayores de 70 años)

- Eliminar Columnas

Guardar en S3

About

Laboratorio de Big Data Tópicos Especiales en Telemática

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages