IT/Data 분석

[우주선 생존] 분석 7회차

송시 2023. 4. 10. 01:02
728x90

2023.04.04 - [IT/Data 분석] - [우주선 생존] 분석 6회차

 

[우주선 생존] 분석 6회차

2023.04.02 - [IT/Data 분석] - [우주선 생존] 분석 5회차 [우주선 생존] 분석 5회차 2023.03.28 - [IT/Data 분석] - [우주선 생존] 분석 4회차 [우주선 생존] 분석 4회차 2023.03.26 - [IT/Data 분석] - [우주선 생존] 분

songsiaix.tistory.com

하도 결측치가 중요하다고 해서 앞의 글에서는 결측치에 많은 비중을 두고 알아보았다.(물론 결측치는 중요하다, 다만 내가 그 결측치를 활용할 방안의 한계에 봉착한 것 뿐이다.)

 

우선 결측치보다 각각의 종속변수에 대한 이해가 높아야 하는 것 같다.

 

모든 종속변수가 다 활용될 필요도 없으며, 필요한 종속변수를 선택함으로써 보다 의미있는 데이터 분석이 될 것이다.

 

print(df.columns,len(df.columns))
for i in df.columns:
    print(f'{i} : {len(df[i].unique())}')

Index(['PassengerId', 'HomePlanet', 'CryoSleep', 'Cabin', 'Destination', 'Age',
       'VIP', 'RoomService', 'FoodCourt', 'ShoppingMall', 'Spa', 'VRDeck',
       'Name', 'Transported'],
      dtype='object') 14
PassengerId : 8693
HomePlanet : 4
CryoSleep : 3
Cabin : 6561
Destination : 4
Age : 81
VIP : 3
RoomService : 1274
FoodCourt : 1508
ShoppingMall : 1116
Spa : 1328
VRDeck : 1307
Name : 8474
Transported : 2

우선 각 독립변수에 존재하는 고유의 값 갯수를 알아보았다.

 

이중에는 Nan을 포함하여 숫자가 1개 더 증가된 것이 있다. 예를 들어 VIP가 그 대표적인 예이다.

df.VIP.unique()

array([False, True, nan], dtype=object)

 

print(df['Transported'].value_counts())
import seaborn as sns
ax=sns.countplot(data=df,x='Transported',palette='pastel')

True     4378
False    4315
Name: Transported, dtype: int64

종속변수인 Transported의 값의 분포를 확인해본다.

 

이것만 봐도 문득 간단한 분석이 완료가 된다.

 

어떤 이유인지는 알 수 없지만 거의 절반은 이동이 되었고, 그 절반보다 아주 조금 더 높은 인원은 이동을 했다는 점이다.

 

확률로 따지면 50%인 셈이다.

 

내가 만약 저곳에 있었다면 나는 그 50%의 확률로 이동을 하거나 하지 못했을 것 이다.

 

그렇다면 어떤 이유가 그 50%를 만들어 줄 까?

 

진짜 독립변수들은 아무런 관련이 없을 수 있다.

 

그런데 데이터분석 관련 책들을 보다 이런글을 본적이 있다.

 

동전의 앞, 뒷면이 나올 확률에 대한 이야기다.

 

아무리 생각해봐도 그저 운이 전부일 것 같은 이 현상이

 

횟수를 반복할 수록 어떤 확률이 있음을 야기시킨다.

 

아무런 연관이 없을 듯 한 이 독립변수들은 이 종속변수를 추가로 설명해주는 매우 중요한 역할을 해줄 것이다.

 

그런 의미에서 이전회차에서는 상관관계를 확인해보았고, 다음 회차에 독립변수와 종속변수간의 분포를 확인해보겠다

728x90

'IT > Data 분석' 카테고리의 다른 글

[우주선 생존] 분석 9회차  (0) 2023.04.15
[우주선 생존] 분석 8회차  (0) 2023.04.11
[우주선 생존] 분석 6회차  (0) 2023.04.04
[우주선 생존] 분석 5회차  (0) 2023.04.02
[우주선 생존] 분석 4회차  (0) 2023.03.28