Avik-Jain · nitin-bommi · Mar 5, 2020
diff --git a/Code/Day 1_Data PreProcessing.md b/Code/Day 1_Data PreProcessing.md
@@ -15,27 +15,21 @@ import pandas as pd
 ```python
 dataset = pd.read_csv('Data.csv')
 X = dataset.iloc[ : , :-1].values
-Y = dataset.iloc[ : , 3].values
+Y = dataset.iloc[ : , -1].values
 ```
 ## Step 3: Handling the missing data
 ```python
-from sklearn.preprocessing import Imputer
-imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
-imputer = imputer.fit(X[ : , 1:3])
-X[ : , 1:3] = imputer.transform(X[ : , 1:3])
+from sklearn.impute import SimpleImputer
+imputer = SimpleImputer(missing_values=np.nan, strategy='mean', verbose=0)
+X[:, [1,2]] = imputer.fit_transform(X[:, [1,2]])
 ```
 ## Step 4: Encoding categorical data
 ```python
 from sklearn.preprocessing import LabelEncoder, OneHotEncoder
-labelencoder_X = LabelEncoder()
-X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])
-```
-### Creating a dummy variable
-```python
-onehotencoder = OneHotEncoder(categorical_features = [0])
-X = onehotencoder.fit_transform(X).toarray()
-labelencoder_Y = LabelEncoder()
-Y =  labelencoder_Y.fit_transform(Y)
+from sklearn.compose import ColumnTransformer
+ct = ColumnTransformer([('encoder', OneHotEncoder(), [0])], remainder='passthrough')
+X = np.array(ct.fit_transform(X), dtype=np.float)
+y = LabelEncoder().fit_transform(y)
 ```
 ## Step 5: Splitting the datasets into training sets and Test sets 
 ```python