-
프로젝트 개요
- 캐글은 기업이나, 정부 또는 개인이 구축한 데이터를 가지고 데이터 과학자(또는 데이터 과학을 배우고 싶은 사람)들이 최상의 해법을 제시하기 위해 경쟁하는 빅데이터 플랫폼
- 캐글은 하나의 데이터 과학자 온라인 커뮤니티 기능을 하여, 캐글에 가입한 전 세계에서 온 데이터 과학자(캐글러라 명칭)들이 서로 브레인스토밍 및 지식 토론하는 장을 마련
- 캐글러들은 자신들의 분석 노하우를 소스코드 및 그에 따른 상세한 해설을 포함하여 공유함 (커널이라고 명칭)
- 본 프로젝트에서는 위 커널을 한글화시켜서 전 세계 유능한 캐글러들의 노하우를 한국에 보급하려고 함
-
프로젝트 중점 사항
- 머신러닝, 딥러닝의 핵심 어플리케이션 위주로 먼저 집중 (예시: Image recognition, Classification, Regression, Time series data analysis)
- 최대한 다양한 오픈소스 라이브러리를 활용하여 작성 (예시: 데이터 시각화- Matplotlib, Seaborn, Plotly; 딥러닝: Tensorflow, Pytorch, Keras)
- 다양한 분야의 데이터를 다루도록 함 (예시: Image recognition라는 큰 주제 속에서, X-ray 사진(의학 분야), Cancer cell(생물학 분야), Fruit(사물 구별) 등의 다양한 데이터가 존재할 수 있음)
-
컨트리뷰톤 가이드
- Image recognition, Classification, Regression, Time series data analysis 등으로 큰 주제를 나눈 뒤 팀을 배정
- 팀별로 주제에 맞는 캐글 내 컴퍼티션 또는 데이터셋을 정한 뒤 커널 스티디 진행
- 적합한 커널을 선정하여 한글화 작업 진행
- 팀별로 자신들만의 커널을 직접 작성할 수도 있음
- 작업한 커널은 캐글코리아 블로그에 게재
-
팀별 활동 운영방안
- 오프라인으로 만나서 주제 선정
- 주제 선정 후 커널 스터디 진행. 총 2주 동안 온라인으로 진행하며, 각자 공부를 진행하며 Slack를 이용하여 서로 정보 공유
- 2주 스터디 후 오프라인에서 모여서 한글화 작업 계획 수립
- 2주 동안 첫 커널 한글화 작업 진행. 한글화 작업은 Jupyter notebook과 Github을 사용하여 온라인 공동 작업
- 완성 후 온라인 피드백 및 게재
Mentor : 김준태
Mentor : 강천성
Mentor : 이유한