2023.04.27 - [IT/Data 분석] - [차원 이동] 분석 10 회차[독립변수 파악]
train_df[["HomePlanet","CryoSleep","Cabin","Destination","Age","VIP"]].head()
HomePlanetCryoSleepCabinDestinationAgeVIP01234
HomePlanet | CryoSleep | Cabin | Destination | Age | VIP |
Europa | False | B/0/P | TRAPPIST-1e | 39.0 | False |
Earth | False | F/0/S | TRAPPIST-1e | 24.0 | False |
Europa | False | A/0/S | TRAPPIST-1e | 58.0 | True |
Europa | False | A/0/S | TRAPPIST-1e | 33.0 | False |
Earth | False | F/1/S | TRAPPIST-1e | 16.0 | False |
HomePlanet(고향행성)은 출발지가 어디인지 인 것 같고
CryoSleep(냉동수면)으로 이동하고 있는지 아닌지
Cabin(선실)은 우주선의 어떤 선실에 있는지
Destination(목적지)이 어디인지
Age(나이)가 어떻게 되는지
VIP인지 아닌지
등에 대한 정보가 있다.
HomePlanet, Cabin 과 Destination은 범주형에 속해 있다.
print(f'{train_df.HomePlanet.unique()}\n{train_df.Cabin.unique()}\n{train_df.Destination.unique()}')
['Europa' 'Earth' 'Mars']
['B/0/P' 'F/0/S' 'A/0/S' ... 'G/1499/S' 'G/1500/S' 'E/608/S']
['TRAPPIST-1e' 'PSO J318.5-22' '55 Cancri e']
Homeplanet 과 Destination은 각각 3곳이 출발지이자 도착지이다.
Cabin의 경우는 꽤 많아 보인다.
train_df.Cabin.nunique()
5305
매우 많은 값을 갖고 있지만 한가지 특징이 보인다면 알파벳/숫자/알파벳 의 형태를 띈다.
이 또한 의미를 가질 수 있다는 생각이 든다.
다만 저렇게해서는 5305에서 특징을 찾아내기는 어렵기에 분리를 해서 한번 알아볼 필요가 있어 보인다.
train_df['Cabin1'] = train_df['Cabin'].apply(lambda x: x.split('/')[0])
train_df['Cabin2'] = train_df['Cabin'].apply(lambda x: x.split('/')[1])
train_df['Cabin3'] = train_df['Cabin'].apply(lambda x: x.split('/')[2])
print(train_df[['Cabin1','Cabin2','Cabin3']].head())
print(f"{train_df['Cabin1'].unique()}\n{train_df['Cabin3'].unique()}\n")
Cabin1 Cabin2 Cabin3
0 B 0 P
1 F 0 S
2 A 0 S
3 A 0 S
4 F 1 S
['B' 'F' 'A' 'G' 'E' 'C' 'D' 'T']
['P' 'S']
Cabin2 는 연속되는 숫자로 증가하는 느낌이기에 제외하고 Cabin1,Cabin2 가 갖고있는 범주의 특징이 있는 것으로 보여진다.
Age 와 VIP 이였나 등을 통해서도 차원 이동과 관련해서 알아볼 만한 가치가 있을 것 같다.
다만 기존에 있었던 Cabin은 범주가 크기도 하고, 상관관계도 적어보인다.
향후 분석에서는 Cabin을 제외하고 Cabin1,2,3 을 토대로 분석을 해보도록 생각해봤다.
'IT > Data 분석' 카테고리의 다른 글
[차원 이동] 베이스라인 모델 - 1 (0) | 2023.05.25 |
---|---|
[차원 이동] 분석 12회차[독립변수 파악3] (0) | 2023.05.13 |
[차원 이동] 분석 10 회차[독립변수 파악] (0) | 2023.04.27 |
[우주선 생존] 분석 9회차 (0) | 2023.04.15 |
[우주선 생존] 분석 8회차 (0) | 2023.04.11 |