Readme

En este repositorio se muestra el proyecto grupal del Módulo 3 de Data Analytics de Adalab, compuesto por Silvia, Eli, Anabela y Clara.

🎯 Objetivo:

La empresa ABC Corporation, consultora tecnológica especializada en ofrecer soluciones de inteligencia artificial (IA) y aprendizaje automático (machine learning) con sede en California, nos ha contratado para desarrollar un proyecto de análisis de datos y experimentación A/B . La finalidad del análisis es identificar los factores que llevan a un empleado a dejar la empresa, para favorecer que el talento permanezca en la consultora.

Se han llevado a cabo las siguientes fases:

´Fase 1:´Exploración y limpieza de datos

´Fase 2:´ Transformación de los datos

´Fase 3:´ Diseño e inserción de la base de datos

´Fase 4:´ A/B Testing

´Fase 5:´ Creación de una ETL

´Fase 6:´ Reporte de resultados

📚 Importación de librerías:

Manipulación de Datos: pandas as pd: Biblioteca fundamental para manipulación y análisis de datos en Python. Proporciona estructuras de datos flexibles y eficientes, como DataFrame, para trabajar con conjuntos de datos. numpy as np: Biblioteca para realizar operaciones numéricas y matriciales eficientes en Python. Complementa pandas y es esencial para realizar cálculos numéricos.
Procesamiento de Datos: word2number: Módulo para convertir palabras numéricas en números. Útil para manejar datos donde las cantidades están expresadas en palabras.
Imputación de Datos: SimpleImputer: De la biblioteca scikit-learn, se utiliza para imputar valores faltantes en un conjunto de datos utilizando estrategias simples como la media, mediana, moda, entre otras. IterativeImputer: También de scikit-learn, realiza imputación de datos utilizando técnicas iterativas, siendo útil cuando las relaciones entre variables son complejas. KNNImputer: Otra opción de imputación de scikit-learn que utiliza el método de vecinos más cercanos (K-Nearest Neighbors) para estimar los valores faltantes.
Visualización de Datos: seaborn as sns: Biblioteca de visualización de datos basada en matplotlib, que proporciona una interfaz de alto nivel para crear gráficos atractivos y informativos. matplotlib.pyplot as plt: Parte de la biblioteca matplotlib, se utiliza para crear gráficos estáticos, diagramas de dispersión y otras visualizaciones.
Estadísticas y Pruebas: scipy.stats as stats: Biblioteca de estadísticas científicas que incluye diversas funciones estadísticas y pruebas hipotéticas. chisquare, kstest, chi2_contingency, ttest_ind: Funciones específicas de scipy.stats para realizar pruebas estadísticas como la prueba de chi-cuadrado, prueba de Kolmogorov-Smirnov, prueba de contingencia chi-cuadrado y prueba t de Student.
Conexión a Base de Datos: mysql.connector: Conector para MySQL que permite establecer conexiones y realizar operaciones en bases de datos MySQL desde Python. Estos imports sugieren que el código podría estar relacionado con la manipulación, análisis y visualización de datos, así como con la imputación de datos faltantes y la realización de pruebas estadísticas. Además, se incluye una librería para la conexión a una base de datos MySQL.

📂 Estructura de los archivos del proyecto:

Name		Name	Last commit message	Last commit date
Latest commit History 40 Commits
BBDD		BBDD
Borradores		Borradores
Notebooks (ipynb)		Notebooks (ipynb)
src		src
.DS_Store		.DS_Store
HR RAW DATA.csv		HR RAW DATA.csv
README.md		README.md
main.py		main.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Readme

About

Releases

Packages

Languages

clarasdata/adalab-m3-proyecto-ab-testing

Folders and files

Latest commit

History

Repository files navigation

Readme

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages