728x90

IT/Data 분석 16

[게 나이 예측] EDA - 1

2023.06.03 - [IT/Data 분석] - [게 나이 예측] 선형회귀 베이스라인 [게 나이 예측] 선형회귀 베이스라인 데이터 안에서 게의 나이를 예측 하는 kaggle 의 playground 에 참여해보았다. https://www.kaggle.com/competitions/playground-series-s3e16 Regression with a Crab Age Dataset | Kaggle www.kaggle.com 총 8개의 독립변수[피처]를 토 songsiaix.tistory.com 앞서 단순한 선형회귀 베이스라인을 설정하고 돌렸을 때 1.44 정도의 MAE 점수가 나왔다. EDA 를 성의없게 했기에 이번에는 EDA 를 통해 변수를 분석해보려 한다. plt.figure(figsize=(12,..

IT/Data 분석 2023.06.05

[게 나이 예측] 선형회귀 베이스라인

데이터 안에서 게의 나이를 예측 하는 kaggle 의 playground 에 참여해보았다. https://www.kaggle.com/competitions/playground-series-s3e16 Regression with a Crab Age Dataset | Kaggle www.kaggle.com 총 8개의 독립변수[피처]를 토대로 종속변수인 게의 나이를 예측하는 문제다. 문제의 평가 기준은 MAE(Mean Absolute Error) 로 예측한 값을 추축한다. Error 를 측정하는 것이기 때문에 0에 가까울 수록 높은 예측력을 갖고 있게 된다. 변수는 다음과 같다. (Age 를 제외한 8개는 모두 독립변수) Sex object 게의 성 (Male, Female, Intermediate) Leng..

IT/Data 분석 2023.06.03

[차원 이동] 베이스라인 모델 - 1

베이스라인 모델이라함은 영어 그대로 가장 기본이 되는 모델을 선택하는 것 이다. 가장 기초적인 모델을 선택한다는 것은 문제를 해결하기 위한 다른 말로 내가 원하는 목표를 이루기 위해 필요한 가장 최소한의 해결방법을 결정하는 것 이다/ 해결방법을 결정하였다면 그 방법이 최선인지를 추가할만한 다른 방법이 없는지(하이퍼파라미터) 등을 통해 문제 해결 방법을 개선 시킬 수 있다. 베이스 라인 모델은 여러 종류가 있고 해결하고자 하는 방법에 따라 입맛에 맞게 선택하면 된다. 차원 이동은 차원을 이동 했냐? 안했냐에 대한 이진분류 문제 이진 분류의 대표적인 머신 러닝 모델로는 로지스틱 회귀 모델(logistic regression) 을 사용 하여 이진 분류를 베이스라인 모델을 선택하고 어떻게 성능을 더 개선할 수 ..

IT/Data 분석 2023.05.25

[차원 이동] 분석 12회차[독립변수 파악3]

2023.04.27 - [IT/Data 분석] - [차원 이동] 분석 11회차[독립변수 파악2] [차원 이동] 분석 11회차[독립변수 파악2] 2023.04.27 - [IT/Data 분석] - [차원 이동] 분석 10 회차[독립변수 파악] [차원 이동] 분석 10 회차[독립변수 파악] 2023.04.15 - [IT/Data 분석] - [우주선 생존] 분석 9회차 [우주선 생존] 분석 9회차 2023.04.11 - [IT songsiaix.tistory.com 앞선 회차에서 Cabin 을 활용해 볼 수 있을 것이라는 생각으로 진행해보았다. cabins=['Cabin1','Cabin2','Cabin3'] for i in cabins: print(f'{i} : {train_df[i].nunique()} \n{..

IT/Data 분석 2023.05.13

[차원 이동] 분석 11회차[독립변수 파악2]

2023.04.27 - [IT/Data 분석] - [차원 이동] 분석 10 회차[독립변수 파악] [차원 이동] 분석 10 회차[독립변수 파악] 2023.04.15 - [IT/Data 분석] - [우주선 생존] 분석 9회차 [우주선 생존] 분석 9회차 2023.04.11 - [IT/Data 분석] - [우주선 생존] 분석 8회차 [우주선 생존] 분석 8회차 2023.04.10 - [IT/Data 분석] - [우주선 생존] 분 songsiaix.tistory.com train_df[["HomePlanet","CryoSleep","Cabin","Destination","Age","VIP"]].head() HomePlanetCryoSleepCabinDestinationAgeVIP01234 HomePlanet C..

IT/Data 분석 2023.04.27

[차원 이동] 분석 10 회차[독립변수 파악]

2023.04.15 - [IT/Data 분석] - [우주선 생존] 분석 9회차 [우주선 생존] 분석 9회차 2023.04.11 - [IT/Data 분석] - [우주선 생존] 분석 8회차 [우주선 생존] 분석 8회차 2023.04.10 - [IT/Data 분석] - [우주선 생존] 분석 7회차 [우주선 생존] 분석 7회차 2023.04.04 - [IT/Data 분석] - [우주선 생존] 분 songsiaix.tistory.com 독립변수를 확인하는게 보통 1~2 단계에서 해야할텐데, 돌고 돌아 블로그 10회차에서 1 단계로 다시 돌아왔다. 각각의 독립변수를 한번 음미해보고자 한다. 총 13개의 독립변수가 있다.(Transported 는 우리가 확인하고자 하는 목표 즉 종속 변수이기에 train.csv 에는..

IT/Data 분석 2023.04.27

[우주선 생존] 분석 9회차

2023.04.11 - [IT/Data 분석] - [우주선 생존] 분석 8회차 [우주선 생존] 분석 8회차 2023.04.10 - [IT/Data 분석] - [우주선 생존] 분석 7회차 [우주선 생존] 분석 7회차 2023.04.04 - [IT/Data 분석] - [우주선 생존] 분석 6회차 [우주선 생존] 분석 6회차 2023.04.02 - [IT/Data 분석] - [우주선 생존] 분 songsiaix.tistory.com 9회차가 되어서야 무엇인가 잘못되었다는 생각에 빠진다. 분석하는건 좋은데 이 분석의 목적대로 내가 잘 따라가고 있는 것일까? 하는 고민에 빠진다. 1. 분석의 목적을 제대로 인지하고 확인했나? 2. 각 독립변수(features)를 잘 이해하고 있나? 3. 목적을 달성하기 위해 필요..

IT/Data 분석 2023.04.15

[우주선 생존] 분석 8회차

2023.04.10 - [IT/Data 분석] - [우주선 생존] 분석 7회차 [우주선 생존] 분석 7회차 2023.04.04 - [IT/Data 분석] - [우주선 생존] 분석 6회차 [우주선 생존] 분석 6회차 2023.04.02 - [IT/Data 분석] - [우주선 생존] 분석 5회차 [우주선 생존] 분석 5회차 2023.03.28 - [IT/Data 분석] - [우주선 생존] 분 songsiaix.tistory.com 독립변수 중 unique 한 값 중 너무 많아서 분포를 확인하기 어려운 애들은 제외하고 VIP, CryoSleep, Destination, HomePlanet 으로만 추려 종속변수와의 분포를 확인해보자. import seaborn as sns import matplotlib.pyp..

IT/Data 분석 2023.04.11

[우주선 생존] 분석 7회차

2023.04.04 - [IT/Data 분석] - [우주선 생존] 분석 6회차 [우주선 생존] 분석 6회차 2023.04.02 - [IT/Data 분석] - [우주선 생존] 분석 5회차 [우주선 생존] 분석 5회차 2023.03.28 - [IT/Data 분석] - [우주선 생존] 분석 4회차 [우주선 생존] 분석 4회차 2023.03.26 - [IT/Data 분석] - [우주선 생존] 분 songsiaix.tistory.com 하도 결측치가 중요하다고 해서 앞의 글에서는 결측치에 많은 비중을 두고 알아보았다.(물론 결측치는 중요하다, 다만 내가 그 결측치를 활용할 방안의 한계에 봉착한 것 뿐이다.) 우선 결측치보다 각각의 종속변수에 대한 이해가 높아야 하는 것 같다. 모든 종속변수가 다 활용될 필요도 없..

IT/Data 분석 2023.04.10

[우주선 생존] 분석 6회차

2023.04.02 - [IT/Data 분석] - [우주선 생존] 분석 5회차 [우주선 생존] 분석 5회차 2023.03.28 - [IT/Data 분석] - [우주선 생존] 분석 4회차 [우주선 생존] 분석 4회차 2023.03.26 - [IT/Data 분석] - [우주선 생존] 분석 3회차 [우주선 생존] 분석 3회차 2023.03.25 - [IT/Data 분석] - [우주선 생존] 분 songsiaix.tistory.com 5회차에서 간과했던 것이 있다. 결측치를 제거하면 자동으로 타입이 변환될 것으로 예상했는데, 다른 말로 object 였던 타입이 실수형이나 논리형으로 자동 변환될 것으로 예상하고 진행하였는데 그렇지 않았다 필요에 맞게 다시 형변환이 필요하다는 것을 깨달았다. 결측치를 제거하고도 b..

IT/Data 분석 2023.04.04
728x90