Skip to content

파이썬 머신러닝 완벽 가이드를 교재로 진행한 쏘카 데이터 그룹 사내 스터디 보완 자료

License

Notifications You must be signed in to change notification settings

seungtaek94/Perfect-Guide-about-Machine-Learning-Study

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Perfect-Guide-about-Machine-Learning-Study

  • 파이썬 머신러닝 완벽 가이드 쏘카 데이터그룹 사내 스터디 보완 자료

책에 대한 설명

  • (작가 서문 참고)
  • 다양한 실전 예제를 직접 구현해 보면서 머신러닝을 체득할 수 있도록 만듬
  • 최대한 수학적 사용은 배제하면서 코드 작성과 예제를 통해 핵심 개념을 이해할 수 있도록 함
  • 어느정도 머신러닝에 경험이 있는 독자들을 대상으로 집필

스터디 방식

  • 매주 월요일마다 스터디(2시간)
    • 미리 준비할 필요 없이, 스터디 시간에 책을 읽음
    • 타이머 시간 설정을 한 후 각자 읽어봄(Default : 15분)
    • 코드도 눈으로 보고 넘김
  • 각자 읽은 부분 중
    • 중요하게 생각하는 것
    • 나에게 특히 영감을 준 부분
    • 의문점이 드는 것 등을 공유
  • 분량이 너무 많은 경우 타이머 시작하기 전에 섹션을 나눈 후 읽고 담당 섹션에 대해 이야기
  • XGBoost, LightGBM의 경우 논문에 대해 읽어보기
    • 우리가 속한 분야는 새로운 아이디어가 계속 나오는 분야
    • 논문을 접하는 것이 중요하기 때문에, 논문 읽는 것에 대한 습관을 위해 진행 (모두 이해하지 못해도 괜찮음)
    • XGBoost Paper
    • LightGBM Paper
    • 논문 이해가 잘 안되는 경우 부가 자료도 함께 읽어보며 학습
      • (아이디어) 논문을 바로 읽으면 어려울 수 있으므로, API Document를 본 후 진행하는 방법
      • 이 경우, 공식 Document를 (일부분만) 번역해서 Socar Repo에 공유하면 어떨까? => 스터디 + 대외적 홍보 효과
      • XGBoost Document
      • LightGBM Document
XGBoost, LightGBM 부가 자료

  • 코드 구현
    • 2가지 방식으로 진행할 예정
      1. 2명이 하나의 노트북을 두고 Pair Programming
      • (의견 받습니다. 2명 팀으로 각자 노트북에서 진행?)
      1. 캐글 커널 필사 (따라 치기) => 이것도 짝꿍은 있되, 각자 노트북으로 진행

책의 목차

  • 스터디에서 모두 진행하진 않을 예정
    1. 파이썬 기반의 머신러닝과 생태계 이해 (86p)
    • Numpy, Pandas
    1. 사이킷런으로 시작하는 머신러닝 (55p)
    • sklearn Estimator, Model Selection, 데이터 전처리
    1. 평가 (34p)
    • Accuracy, Precision, Recall, Confusion Matrix, F1 Score, ROC Curve, AUC
    1. 분류 (105p)
    • Decision Tree, Ensemble, Random Forest, Gradient Boosting Machine, XGBoost, LightGBM, Under Sampling/Over Sampling, Stacking
    1. 회귀 (85p)
    • Linear Regression, Lidge, Rasso, ElasticNet, Logistic Regression
    1. 차원 축소 (30p)
    • PCA, LDA, SVD, NMF
    1. 군집화 (54p)
    • K-means, Cluster Evaluation, Mean Shift, GMM, DBSCAN
  • 여기까지 449p
    1. 텍스트 분석 (94p)
    1. 추천 시스템 (63p)
    • 8), 9)는 다루지 않을 예정

스터디 규칙

  • 함께 자라기 : 동료가 성장하면 저도 성장하고, 업무 퀄리티도 좋아집니다
  • 모르는 내용에 대해 서로 알려주기 : 모두 잘 알수는 없어요. 내가 모르는 내용을 다른 분이 알 수 있어요. 돕고 살아요
  • 바로 물어보기 : 토론식 스터디라 바로 물어봐도 괜찮아요

Repo 사용 방법

  • Git clone

     git clone https://github.com/zzsza/Perfect-Guide-about-Machine-Learning-Study.git
    
  • Repo를 최신화하고 싶은 경우

     git pull
    

스터디 기록 및 회고

  • 19.03.18

    • 1장. 파이썬 기반의 머신러닝과 생태계 이해(~p.86) 읽음
    • Kaggle 실습 진행
    • 저녁 식사를 미리 고민할 것(맥도날드가 너무 늦게 옴)
    • 사람들의 책 읽는 속도에 대한 감을 알게 됨 => Default Minute을 15분이 아닌 25분으로 조정
    • 스터디에 조금 늦은 사람과 기존에 참여한 사람과 시간 차이가 벌어짐
    • 어디까지 진행할지 언급
    • 어쩌다 보니 스터디 3시간 진행
  • 19.03.25

    • 스쿨푸드 먹음
    • 2장 전체 읽음
    • sklearn
    • train_test_split
    • Estimator - fit(), predict()
    • cross_val_score()
    • KFold, StraritifiedKFold
    • GridSearch()
    • Ont Hot Encoding / Label Encoding Scaler
    • 피드백!
      • 실습 형태 : 3명 중 2명이 개인을 선호
      • 복습 자료 : 3명 중 2명이 복습 자료는 부담스럽다
  • 19.04.01

    • 피자스쿨 먹음
    • Metric에 대한 이해
    • 각 Metric을 왜 사용하는지 이해하기
  • 19.04.08

    • 햄버거 먹음
    • Decision Tree
    • 정리하며 읽기
    • sklearn tree 구현체 파악해보기
    • Regression 문제일 땐 어떻게 information gain을 측정할까? => Standard Deviation : 참고 자료
  • 19.04.15

    • 제가 아파서 스터디 참여 못했 ^_ㅠ
    • 256쪽 분류 실습 전까지 읽음
    • 디테일한 내용에 대해 논의 했지만 답은 못 찾은? 경우가 있었던 것 같음
  • 19.04.22

    • 타코 먹음
    • XGBoost 논문 리뷰
    • 머리가 매우 아프지만, 저희가 있는 도메인은 논문을 접하는 것이 매우 중요하기 때문에! 계속 노력해보는 것이 중요하다고 생각
    • 수학에 대한 것은 보충하며 진행하면 될 것이라 생각
  • 19.04.29

    • 버거킹 먹음
    • LightGBM
    • Imbalanced Data 처리하는 방법
  • 19.05.13

    • 김밥 먹음
    • 5장 회귀 부분 다 읽음
  • 19.05.20

    • 치킨 먹음
    • 5장 회귀 부분 실습 진행
  • 19.05.27

    • 맥도날드 먹음
    • 6장. 차원 축소 읽고 실습

Reference

About

파이썬 머신러닝 완벽 가이드를 교재로 진행한 쏘카 데이터 그룹 사내 스터디 보완 자료

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 100.0%