IT/Data 분석

[우주선 생존] 분석 5회차

송시 2023. 4. 2. 23:29
728x90

2023.03.28 - [IT/Data 분석] - [우주선 생존] 분석 4회차

 

[우주선 생존] 분석 4회차

2023.03.26 - [IT/Data 분석] - [우주선 생존] 분석 3회차 [우주선 생존] 분석 3회차 2023.03.25 - [IT/Data 분석] - [우주선 생존] 분석 2회차 [우주선 생존] 분석 2회차 2023.03.23 - [IT/Data 분석] - [우주선 생존] 분

songsiaix.tistory.com

앞선 회차에서 결측치를 중앙값과 평균값으로 변경하였을 때 특별한 상관관계를 못찾았다.

 

이번에는 결측치를 갖고 있는 모든 행을 삭제하고 난 이후 한번더 도전해보았다.

 

df4 = df.copy()

df4.dropna(inplace=True)

df4.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6606 entries, 0 to 8692
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   PassengerId   6606 non-null   object 
 1   HomePlanet    6606 non-null   object 
 2   CryoSleep     6606 non-null   object 
 3   Cabin         6606 non-null   object 
 4   Destination   6606 non-null   object 
 5   Age           6606 non-null   float64
 6   VIP           6606 non-null   object 
 7   RoomService   6606 non-null   float64
 8   FoodCourt     6606 non-null   float64
 9   ShoppingMall  6606 non-null   float64
 10  Spa           6606 non-null   float64
 11  VRDeck        6606 non-null   float64
 12  Name          6606 non-null   object 
 13  Transported   6606 non-null   bool   
dtypes: bool(1), float64(6), object(7)
memory usage: 729.0+ KB

 

import seaborn as sns
sns.heatmap(df4.corr())

진짜 일부 아주 조금 개선된 부분이 있지만 보라색은 보라색이요 검은색은 검은색이라.

 

문득 이런생각도 든다.

 

결측치를 어떻게 치환하는가에 따라서 결과는 꽤 큰 차이를 보여줄 수 있겠지만 

 

이미 상관계수가 낮은 경우에는 결측치 그 자체가 큰 변화를 보여주지 않을 수 있겠다 라는 생각이 든다.

 

728x90

'IT > Data 분석' 카테고리의 다른 글

[우주선 생존] 분석 7회차  (0) 2023.04.10
[우주선 생존] 분석 6회차  (0) 2023.04.04
[우주선 생존] 분석 4회차  (0) 2023.03.28
[우주선 생존] 분석 3회차  (0) 2023.03.26
[우주선 생존] 분석 2회차  (0) 2023.03.25