https://www.kaggle.com/competitions/spaceship-titanic
우주선에서 시공간 이상으로 승객이 다른 차원으로 이동된다.
어떤 승객이 다른 차원으로 이동되었는지 예측해보자.
df = pd.read_csv('/kaggle/input/spaceship-titanic/train.csv')
훈련 데이터를 데이터 프레임으로 저장한 후 어떤 형태인지 살펴보자.
df.shape
(8693, 14)
8693개의 행과 14개의 열을 가진 데이터 프레임이다.
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8693 entries, 0 to 8692
Data columns (total 14 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 PassengerId 8693 non-null object
1 HomePlanet 8492 non-null object
2 CryoSleep 8476 non-null object
3 Cabin 8494 non-null object
4 Destination 8511 non-null object
5 Age 8514 non-null float64
6 VIP 8490 non-null object
7 RoomService 8512 non-null float64
8 FoodCourt 8510 non-null float64
9 ShoppingMall 8485 non-null float64
10 Spa 8510 non-null float64
11 VRDeck 8505 non-null float64
12 Name 8493 non-null object
13 Transported 8693 non-null bool
dtypes: bool(1), float64(6), object(7)
memory usage: 891.5+ KB
14개의 행은 대충 눈치밥으로 보니
승객의 아이디 - PassengerId - null 값 없음 - 오브젝트
고향행성 - HomePlanet - null 값 은근히 있음 - 오브젝트
냉동수면중인 - CryoSleep - null 값 고향행성 비스므레 하게 있음 - 오브젝트
목적지 - Destination - null 값 은근히 있음 - 오브텍즈
나이 - Age - null 값 은근히 있음 - 실수
쀠아피 - VIP - null 값 은근히 있음 - 오브젝트
이름 - Name - null 값이 고향행성 보다 1개 더 적음 - 오브젝트
다른차원으로 이동되었는지 안되었는지 - Transported - null 값 없음 - 참 거짓 논리형
그 외에는 중요하지 않은건 아니고 그냥 눈치밥으로 봐도 모르겠다.
목적이 이동된 사람의 특징을 확인하는 것이기에 Transported가 독립변수(y) 가 되어 줄 것이란 생각이 든다.
나머지는 종속변수(x) 가 되어줄 것이고 어떤 상관관계를 갖고 있을지 알아봐야 겠다.
df.head()
대충 5개 정보를 보니 VIP 정도는 bool 형태로 해도 되겠다는 생각이 든다.
문득 null 값 때문에 bool 형태가 아닌 object 형태로 인식되었을 것이다.
자 일단 밤이 늦었으니 잠부터 자기로 하자.
'IT > Data 분석' 카테고리의 다른 글
[우주선 생존] 분석 5회차 (0) | 2023.04.02 |
---|---|
[우주선 생존] 분석 4회차 (0) | 2023.03.28 |
[우주선 생존] 분석 3회차 (0) | 2023.03.26 |
[우주선 생존] 분석 2회차 (0) | 2023.03.25 |
[용인시 종량제봉투]분석 1회차 (0) | 2023.03.12 |