Skip to content

포스코 AI·BIG Data 아카데미 - 데이터 분석 과제 및 타이타닉 분석

Notifications You must be signed in to change notification settings

yerin723/PoscoAcademy_DataAssignment

Repository files navigation

POSCO AI BIG DATA 아카데미

1. Big Data 분석 기초 과제

1.1. 데이터 생성 📊

1.2. 데이터 읽기 및 저장 💾

1.3. 정규분포 데이터 분석 📈

2. Big Data 기술통계 실습 과제

2.1. 자동차 연비 데이터 세트로 기술통계치 계산 🚗

2.2. 통계적 문제 해결

  • 대한민국 20~30대 남성 키 분석 및 해석.
  • 1리터당 주행거리와 관련된 확률 문제 해결.
  • 확률 변수 T 및 F에 대한 문제 해결 및 확률 계산.

3. Big Data 타이타닉 기술통계 실습 과제

3.1. 분석 목표 및 변수 설명 🚢

  • 생존률에 영향을 미치는 영향인자 도출 목표.
  • Pclass, Name, Sex, Age, SibSp, Parch, Ticket, Fare, Cabin, Embarked 변수 소개.

3.2. 결측치 및 이상치 처리

3.3. 변수 간 관계 분석

3.3.1. Pclass, Sex, Age와 Survived의 관계

  • 선실등급, 성별, 나이와 생존 여부 간 관계 분석.

3.3.2. SibSp와 Survived의 관계

  • 자매 또는 배우자와 함께 탑승한 인원과 생존 여부 간 관계 분석.

3.3.3. Embarked와 Survived의 관계

  • 승선지와 생존 여부 간 관계 분석.

3.4. 생존에 영향을 미치는 잠재 인자 도출 🤔

가설 1: 선실등급은 생존에 영향을 주는 설명변수일 것이다.

  • 견해: 선실등급이 높을수록 생존률이 높았기에, 선실등급은 생존에 영향을 주는 변수임.

가설 2: 성별은 생존에 영향을 주는 설명변수일 것이다.

  • 견해: 여성이 남성보다 생존률이 높다는 사실로 성별이 생존에 영향을 주는 변수임.

가설 3: 나이는 생존에 영향을 주는 설명변수일 것이다.

  • 견해: 어린 아이들의 생존 확률이 높으며, 시대적 배경에서 어린 아이들과 여성이 먼저 구출될 것임.

가설 4: 승선장소는 생존에 영향을 주는 설명변수일 것이다.

  • 견해: 승선장소에 따라 생존률 차이가 있으며, 승선지가 생존에 영향을 미칠 것임.

  • 관련 정보: 뉴질랜드에서의 승객 수가 적으며, C(Cherbourg)에서 탑승한 승객이 다른 승선지보다 높은 생존률을 가지고 있음.

About

포스코 AI·BIG Data 아카데미 - 데이터 분석 과제 및 타이타닉 분석

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published