728x90
2023.03.28 - [IT/Data 분석] - [우주선 생존] 분석 4회차
앞선 회차에서 결측치를 중앙값과 평균값으로 변경하였을 때 특별한 상관관계를 못찾았다.
이번에는 결측치를 갖고 있는 모든 행을 삭제하고 난 이후 한번더 도전해보았다.
df4 = df.copy()
df4.dropna(inplace=True)
df4.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 6606 entries, 0 to 8692
Data columns (total 14 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 PassengerId 6606 non-null object
1 HomePlanet 6606 non-null object
2 CryoSleep 6606 non-null object
3 Cabin 6606 non-null object
4 Destination 6606 non-null object
5 Age 6606 non-null float64
6 VIP 6606 non-null object
7 RoomService 6606 non-null float64
8 FoodCourt 6606 non-null float64
9 ShoppingMall 6606 non-null float64
10 Spa 6606 non-null float64
11 VRDeck 6606 non-null float64
12 Name 6606 non-null object
13 Transported 6606 non-null bool
dtypes: bool(1), float64(6), object(7)
memory usage: 729.0+ KB
import seaborn as sns
sns.heatmap(df4.corr())
진짜 일부 아주 조금 개선된 부분이 있지만 보라색은 보라색이요 검은색은 검은색이라.
문득 이런생각도 든다.
결측치를 어떻게 치환하는가에 따라서 결과는 꽤 큰 차이를 보여줄 수 있겠지만
이미 상관계수가 낮은 경우에는 결측치 그 자체가 큰 변화를 보여주지 않을 수 있겠다 라는 생각이 든다.
728x90
'IT > Data 분석' 카테고리의 다른 글
[우주선 생존] 분석 7회차 (0) | 2023.04.10 |
---|---|
[우주선 생존] 분석 6회차 (0) | 2023.04.04 |
[우주선 생존] 분석 4회차 (0) | 2023.03.28 |
[우주선 생존] 분석 3회차 (0) | 2023.03.26 |
[우주선 생존] 분석 2회차 (0) | 2023.03.25 |