IT/Data 분석

[우주선 생존] 분석 2회차

송시 2023. 3. 25. 23:23
728x90

2023.03.23 - [IT/Data 분석] - [우주선 생존] 분석 1회차

 

[우주선 생존] 분석 1회차

https://www.kaggle.com/competitions/spaceship-titanic Spaceship Titanic | Kaggle www.kaggle.com 우주선에서 시공간 이상으로 승객이 다른 차원으로 이동된다. 어떤 승객이 다른 차원으로 이동되었는지 예측해보자. df =

songsiaix.tistory.com

1회차의 마지막 부분에서 df.head() 의 정보를 토대로 어떠한 내용들이 있는지를 알아 볼 수 있었다.

 

결측치  정보들이 있는 것을 알 수 있었다.

 

그런데 이 결측치들이 중요 정보일지 아닐지 판단을 해야하는데 어떻게 판단할 수 있을까?

 

경험적으로?

 

그래 물론 경험이란 것은 컴퓨터가 인간을 넘기에는 아직 어려운 부분이 있지만 사람도 해당 자료 또는 데이터에 대한 경험이 적거나 없다면 이 결측치를 어떻게 해야할지 모를거다.

 

결측치의 양은 다음을 통해 알 수 있다.

df.isna().sum()

PassengerId       0
HomePlanet      201
CryoSleep       217
Cabin           199
Destination     182
Age             179
VIP             203
RoomService     181
FoodCourt       183
ShoppingMall    208
Spa             183
VRDeck          188
Name            200
Transported       0
dtype: int64

골고루 결측치가 있지만 적어도 종속변수인 Transported에는 결측치가 없기 때문에 전체 인원에 대한 시공간을 이동한 인원의 참 거짓에 대한 신뢰도가 높을 수 있을 것 이다.

 

다만 독립변수들에 대한 결측치가 있기 때문에 

 

1. 결측치를 대체하거나

2. 결측치를 포함한 행을 삭제하거나

3. 결측치가 없는 PassengerId 와의 상관관계를 찾는

 

것에 대해 선택이 필요해보인다.

 

PassengerId 와 Transported 간의 상관관계에 대해서 알아보자.

 

df2 = df[['PassengerId','Transported']]
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8693 entries, 0 to 8692
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   PassengerId  8693 non-null   object
 1   Transported  8693 non-null   bool  
dtypes: bool(1), object(1)
memory usage: 76.5+ KB

아래의 방법으로 상관관계를 알아보자

df2.corr()

  Transported
Transported 1.0

PassengerId에 대한 상관관계가 출력되지 않는다.

 

상관관계를 얻기 위해서는 object 는 할 수 없다는 것을 확인 할 해본다.

 

그렇다면 어떻게 두 관계의 상관관계를 찾아볼 수 있을까?

 

문득 떠오르는 것은 원핫인코딩 을 통해 가능은 하겠지만 어떤 의미가 있는지는 잘 모르겠다.

 

다음에 한번 해보도록 하기로 하고 오늘은 이만.

728x90

'IT > Data 분석' 카테고리의 다른 글

[우주선 생존] 분석 5회차  (0) 2023.04.02
[우주선 생존] 분석 4회차  (0) 2023.03.28
[우주선 생존] 분석 3회차  (0) 2023.03.26
[우주선 생존] 분석 1회차  (0) 2023.03.23
[용인시 종량제봉투]분석 1회차  (0) 2023.03.12