machine-learning-using-pyspark

1. Understanding PySpark Ecosystem

Big Data
Hadoop
Spark
PySpark
Machine Learning using PySpark

2. Foundations of Machine Learning

Introduction to Machine Learning
Supervised vs Unsupervised
Classification vs Regression
Data Ingestion
Data Wrangling
Data Preprocessing
Model Training
Model Validation
Deployment

3. Internal Details of Spark

Driver
Executors
Partitions
Jobs
Stages
Tasks
Resilient Distributed Datastructure
DataFrames as a High Level Datastructure

4. Low level Understanding using RDD

Creation of RDD
Transformation methods
Aggregation methods
Actions
Caching
Debugging

5. Data Ingestion

Loading CSV, JSON & parquet
Connecting to databases
Getting data from streaming server

5. Data Wrangling using DataFrames

Descriptive Statistics
Accessing subsets of data - Rows, Columns, Filters
Handling Missing Data
Dropping rows & columns
Handling Duplicates
Aggregate functions
Merge, Join & Concatenate

6. Data Preprocessing

Why Preprocessing ?
Scaling Techniques
Encoding Techniques
Text Processing
Dimensionality Reduction
Vectorization of Data

7. Regression Learning Models

Linear Regression
Decision Tree Regressor
Random Forest Regressor
GBT Regressor
Evaluation of Regression Models

8. Classification Learning Models

LogisticRegression
DecisionTreeClassifier
GBT Classifier
RandomForestClassifier
NaiveBayes
MultiLayerPerceptronClassifier
Evaluation of Classification Models

9. Clustering Learning Models

Motivation behind clustering
KMeans
GaussianMixtureModel
Latent Dirichlet Allocation

10. Recommandation Engine

11. Pipeline & Hyper-parameter Tuning

Composite Estimators using Pipelines
Model Selection
Hyper-parameter Tuning
Persisting trained models
Deployment

Name		Name	Last commit message	Last commit date
Latest commit History 31 Commits
1. Understanding PySpark Ecosystem.ipynb		1. Understanding PySpark Ecosystem.ipynb
10. Pipeline & Hyper-parameter Tuning.ipynb		10. Pipeline & Hyper-parameter Tuning.ipynb
2. Foundations of Machine Learning.ipynb		2. Foundations of Machine Learning.ipynb
3. Internal Details of Spark.ipynb		3. Internal Details of Spark.ipynb
4. Low level Understanding using RDD.ipynb		4. Low level Understanding using RDD.ipynb
5. Data Ingestion.ipynb		5. Data Ingestion.ipynb
6. Data Wrangling using DataFrames.ipynb		6. Data Wrangling using DataFrames.ipynb
7. Data Preprocessing using PySpark (1).ipynb		7. Data Preprocessing using PySpark (1).ipynb
8. Regression Models in PySpark.ipynb		8. Regression Models in PySpark.ipynb
Data Wrangling using DataFrames.ipynb		Data Wrangling using DataFrames.ipynb
README.md		README.md
UDF, UDAF using pandasUDF.ipynb		UDF, UDAF using pandasUDF.ipynb
vec.PNG		vec.PNG

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

machine-learning-using-pyspark

1. Understanding PySpark Ecosystem

2. Foundations of Machine Learning

3. Internal Details of Spark

4. Low level Understanding using RDD

5. Data Ingestion

5. Data Wrangling using DataFrames

6. Data Preprocessing

7. Regression Learning Models

8. Classification Learning Models

9. Clustering Learning Models

10. Recommandation Engine

11. Pipeline & Hyper-parameter Tuning

About

Releases

Packages

Languages

edyoda/machine-learning-using-pyspark

Folders and files

Latest commit

History

Repository files navigation

machine-learning-using-pyspark

1. Understanding PySpark Ecosystem

2. Foundations of Machine Learning

3. Internal Details of Spark

4. Low level Understanding using RDD

5. Data Ingestion

5. Data Wrangling using DataFrames

6. Data Preprocessing

7. Regression Learning Models

8. Classification Learning Models

9. Clustering Learning Models

10. Recommandation Engine

11. Pipeline & Hyper-parameter Tuning

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages