2023.04.04 - [IT/Data 분석] - [우주선 생존] 분석 6회차
하도 결측치가 중요하다고 해서 앞의 글에서는 결측치에 많은 비중을 두고 알아보았다.(물론 결측치는 중요하다, 다만 내가 그 결측치를 활용할 방안의 한계에 봉착한 것 뿐이다.)
우선 결측치보다 각각의 종속변수에 대한 이해가 높아야 하는 것 같다.
모든 종속변수가 다 활용될 필요도 없으며, 필요한 종속변수를 선택함으로써 보다 의미있는 데이터 분석이 될 것이다.
print(df.columns,len(df.columns))
for i in df.columns:
print(f'{i} : {len(df[i].unique())}')
Index(['PassengerId', 'HomePlanet', 'CryoSleep', 'Cabin', 'Destination', 'Age',
'VIP', 'RoomService', 'FoodCourt', 'ShoppingMall', 'Spa', 'VRDeck',
'Name', 'Transported'],
dtype='object') 14
PassengerId : 8693
HomePlanet : 4
CryoSleep : 3
Cabin : 6561
Destination : 4
Age : 81
VIP : 3
RoomService : 1274
FoodCourt : 1508
ShoppingMall : 1116
Spa : 1328
VRDeck : 1307
Name : 8474
Transported : 2
우선 각 독립변수에 존재하는 고유의 값 갯수를 알아보았다.
이중에는 Nan을 포함하여 숫자가 1개 더 증가된 것이 있다. 예를 들어 VIP가 그 대표적인 예이다.
df.VIP.unique()
array([False, True, nan], dtype=object)
print(df['Transported'].value_counts())
import seaborn as sns
ax=sns.countplot(data=df,x='Transported',palette='pastel')
True 4378
False 4315
Name: Transported, dtype: int64
종속변수인 Transported의 값의 분포를 확인해본다.
이것만 봐도 문득 간단한 분석이 완료가 된다.
어떤 이유인지는 알 수 없지만 거의 절반은 이동이 되었고, 그 절반보다 아주 조금 더 높은 인원은 이동을 했다는 점이다.
확률로 따지면 50%인 셈이다.
내가 만약 저곳에 있었다면 나는 그 50%의 확률로 이동을 하거나 하지 못했을 것 이다.
그렇다면 어떤 이유가 그 50%를 만들어 줄 까?
진짜 독립변수들은 아무런 관련이 없을 수 있다.
그런데 데이터분석 관련 책들을 보다 이런글을 본적이 있다.
동전의 앞, 뒷면이 나올 확률에 대한 이야기다.
아무리 생각해봐도 그저 운이 전부일 것 같은 이 현상이
횟수를 반복할 수록 어떤 확률이 있음을 야기시킨다.
아무런 연관이 없을 듯 한 이 독립변수들은 이 종속변수를 추가로 설명해주는 매우 중요한 역할을 해줄 것이다.
그런 의미에서 이전회차에서는 상관관계를 확인해보았고, 다음 회차에 독립변수와 종속변수간의 분포를 확인해보겠다
'IT > Data 분석' 카테고리의 다른 글
[우주선 생존] 분석 9회차 (0) | 2023.04.15 |
---|---|
[우주선 생존] 분석 8회차 (0) | 2023.04.11 |
[우주선 생존] 분석 6회차 (0) | 2023.04.04 |
[우주선 생존] 분석 5회차 (0) | 2023.04.02 |
[우주선 생존] 분석 4회차 (0) | 2023.03.28 |