IT/Data 분석

[차원 이동] 분석 11회차[독립변수 파악2]

송시 2023. 4. 27. 23:59
728x90

2023.04.27 - [IT/Data 분석] - [차원 이동] 분석 10 회차[독립변수 파악]

 

[차원 이동] 분석 10 회차[독립변수 파악]

2023.04.15 - [IT/Data 분석] - [우주선 생존] 분석 9회차 [우주선 생존] 분석 9회차 2023.04.11 - [IT/Data 분석] - [우주선 생존] 분석 8회차 [우주선 생존] 분석 8회차 2023.04.10 - [IT/Data 분석] - [우주선 생존] 분

songsiaix.tistory.com

train_df[["HomePlanet","CryoSleep","Cabin","Destination","Age","VIP"]].head()

HomePlanetCryoSleepCabinDestinationAgeVIP01234

HomePlanet CryoSleep Cabin Destination Age VIP
Europa False B/0/P TRAPPIST-1e 39.0 False
Earth False F/0/S TRAPPIST-1e 24.0 False
Europa False A/0/S TRAPPIST-1e 58.0 True
Europa False A/0/S TRAPPIST-1e 33.0 False
Earth False F/1/S TRAPPIST-1e 16.0 False

HomePlanet(고향행성)은 출발지가 어디인지 인 것 같고

CryoSleep(냉동수면)으로 이동하고 있는지 아닌지

Cabin(선실)은 우주선의 어떤 선실에 있는지

Destination(목적지)이 어디인지

Age(나이)가 어떻게 되는지

VIP인지 아닌지

등에 대한 정보가 있다.

HomePlanet, Cabin 과 Destination은 범주형에 속해 있다.

 

print(f'{train_df.HomePlanet.unique()}\n{train_df.Cabin.unique()}\n{train_df.Destination.unique()}')

['Europa' 'Earth' 'Mars']
['B/0/P' 'F/0/S' 'A/0/S' ... 'G/1499/S' 'G/1500/S' 'E/608/S']
['TRAPPIST-1e' 'PSO J318.5-22' '55 Cancri e']

Homeplanet 과 Destination은 각각 3곳이 출발지이자 도착지이다.

Cabin의 경우는 꽤 많아 보인다.

train_df.Cabin.nunique()

5305

매우 많은 값을 갖고 있지만 한가지 특징이 보인다면 알파벳/숫자/알파벳 의 형태를 띈다.

이 또한 의미를 가질 수 있다는 생각이 든다.

다만 저렇게해서는 5305에서 특징을 찾아내기는 어렵기에 분리를 해서 한번 알아볼 필요가 있어 보인다.

 

train_df['Cabin1'] = train_df['Cabin'].apply(lambda x: x.split('/')[0])
train_df['Cabin2'] = train_df['Cabin'].apply(lambda x: x.split('/')[1])
train_df['Cabin3'] = train_df['Cabin'].apply(lambda x: x.split('/')[2])
print(train_df[['Cabin1','Cabin2','Cabin3']].head())
print(f"{train_df['Cabin1'].unique()}\n{train_df['Cabin3'].unique()}\n")

  Cabin1 Cabin2 Cabin3
0      B      0      P
1      F      0      S
2      A      0      S
3      A      0      S
4      F      1      S
['B' 'F' 'A' 'G' 'E' 'C' 'D' 'T']
['P' 'S']

Cabin2 는 연속되는 숫자로 증가하는 느낌이기에 제외하고 Cabin1,Cabin2 가 갖고있는 범주의 특징이 있는 것으로 보여진다.

 

Age 와 VIP 이였나 등을 통해서도 차원 이동과 관련해서 알아볼 만한 가치가 있을 것 같다.

 

다만 기존에 있었던 Cabin은 범주가 크기도 하고, 상관관계도 적어보인다.

 

향후 분석에서는 Cabin을 제외하고 Cabin1,2,3 을 토대로 분석을 해보도록 생각해봤다.

728x90