En este repositorio se muestra el proyecto grupal del Módulo 3 de Data Analytics de Adalab, compuesto por Silvia, Eli, Anabela y Clara.
🎯 Objetivo:
La empresa ABC Corporation, consultora tecnológica especializada en ofrecer soluciones de inteligencia artificial (IA) y aprendizaje automático (machine learning) con sede en California, nos ha contratado para desarrollar un proyecto de análisis de datos y experimentación A/B . La finalidad del análisis es identificar los factores que llevan a un empleado a dejar la empresa, para favorecer que el talento permanezca en la consultora.
Se han llevado a cabo las siguientes fases:
´Fase 1:´Exploración y limpieza de datos
´Fase 2:´ Transformación de los datos
´Fase 3:´ Diseño e inserción de la base de datos
´Fase 4:´ A/B Testing
´Fase 5:´ Creación de una ETL
´Fase 6:´ Reporte de resultados
📚 Importación de librerías:
-
Manipulación de Datos: pandas as pd: Biblioteca fundamental para manipulación y análisis de datos en Python. Proporciona estructuras de datos flexibles y eficientes, como DataFrame, para trabajar con conjuntos de datos. numpy as np: Biblioteca para realizar operaciones numéricas y matriciales eficientes en Python. Complementa pandas y es esencial para realizar cálculos numéricos.
-
Procesamiento de Datos: word2number: Módulo para convertir palabras numéricas en números. Útil para manejar datos donde las cantidades están expresadas en palabras.
-
Imputación de Datos: SimpleImputer: De la biblioteca scikit-learn, se utiliza para imputar valores faltantes en un conjunto de datos utilizando estrategias simples como la media, mediana, moda, entre otras. IterativeImputer: También de scikit-learn, realiza imputación de datos utilizando técnicas iterativas, siendo útil cuando las relaciones entre variables son complejas. KNNImputer: Otra opción de imputación de scikit-learn que utiliza el método de vecinos más cercanos (K-Nearest Neighbors) para estimar los valores faltantes.
-
Visualización de Datos: seaborn as sns: Biblioteca de visualización de datos basada en matplotlib, que proporciona una interfaz de alto nivel para crear gráficos atractivos y informativos. matplotlib.pyplot as plt: Parte de la biblioteca matplotlib, se utiliza para crear gráficos estáticos, diagramas de dispersión y otras visualizaciones.
-
Estadísticas y Pruebas: scipy.stats as stats: Biblioteca de estadísticas científicas que incluye diversas funciones estadísticas y pruebas hipotéticas. chisquare, kstest, chi2_contingency, ttest_ind: Funciones específicas de scipy.stats para realizar pruebas estadísticas como la prueba de chi-cuadrado, prueba de Kolmogorov-Smirnov, prueba de contingencia chi-cuadrado y prueba t de Student.
-
Conexión a Base de Datos: mysql.connector: Conector para MySQL que permite establecer conexiones y realizar operaciones en bases de datos MySQL desde Python. Estos imports sugieren que el código podría estar relacionado con la manipulación, análisis y visualización de datos, así como con la imputación de datos faltantes y la realización de pruebas estadísticas. Además, se incluye una librería para la conexión a una base de datos MySQL.
📂 Estructura de los archivos del proyecto: