2023.03.23 - [IT/Data 분석] - [우주선 생존] 분석 1회차
1회차의 마지막 부분에서 df.head() 의 정보를 토대로 어떠한 내용들이 있는지를 알아 볼 수 있었다.
결측치 정보들이 있는 것을 알 수 있었다.
그런데 이 결측치들이 중요 정보일지 아닐지 판단을 해야하는데 어떻게 판단할 수 있을까?
경험적으로?
그래 물론 경험이란 것은 컴퓨터가 인간을 넘기에는 아직 어려운 부분이 있지만 사람도 해당 자료 또는 데이터에 대한 경험이 적거나 없다면 이 결측치를 어떻게 해야할지 모를거다.
결측치의 양은 다음을 통해 알 수 있다.
df.isna().sum()
PassengerId 0
HomePlanet 201
CryoSleep 217
Cabin 199
Destination 182
Age 179
VIP 203
RoomService 181
FoodCourt 183
ShoppingMall 208
Spa 183
VRDeck 188
Name 200
Transported 0
dtype: int64
골고루 결측치가 있지만 적어도 종속변수인 Transported에는 결측치가 없기 때문에 전체 인원에 대한 시공간을 이동한 인원의 참 거짓에 대한 신뢰도가 높을 수 있을 것 이다.
다만 독립변수들에 대한 결측치가 있기 때문에
1. 결측치를 대체하거나
2. 결측치를 포함한 행을 삭제하거나
3. 결측치가 없는 PassengerId 와의 상관관계를 찾는
것에 대해 선택이 필요해보인다.
PassengerId 와 Transported 간의 상관관계에 대해서 알아보자.
df2 = df[['PassengerId','Transported']]
df2.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8693 entries, 0 to 8692
Data columns (total 2 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 PassengerId 8693 non-null object
1 Transported 8693 non-null bool
dtypes: bool(1), object(1)
memory usage: 76.5+ KB
아래의 방법으로 상관관계를 알아보자
df2.corr()
Transported | |
Transported | 1.0 |
PassengerId에 대한 상관관계가 출력되지 않는다.
상관관계를 얻기 위해서는 object 는 할 수 없다는 것을 확인 할 해본다.
그렇다면 어떻게 두 관계의 상관관계를 찾아볼 수 있을까?
문득 떠오르는 것은 원핫인코딩 을 통해 가능은 하겠지만 어떤 의미가 있는지는 잘 모르겠다.
다음에 한번 해보도록 하기로 하고 오늘은 이만.
'IT > Data 분석' 카테고리의 다른 글
[우주선 생존] 분석 5회차 (0) | 2023.04.02 |
---|---|
[우주선 생존] 분석 4회차 (0) | 2023.03.28 |
[우주선 생존] 분석 3회차 (0) | 2023.03.26 |
[우주선 생존] 분석 1회차 (0) | 2023.03.23 |
[용인시 종량제봉투]분석 1회차 (0) | 2023.03.12 |