728x90

IT/Data 분석 16

[우주선 생존] 분석 5회차

2023.03.28 - [IT/Data 분석] - [우주선 생존] 분석 4회차 [우주선 생존] 분석 4회차 2023.03.26 - [IT/Data 분석] - [우주선 생존] 분석 3회차 [우주선 생존] 분석 3회차 2023.03.25 - [IT/Data 분석] - [우주선 생존] 분석 2회차 [우주선 생존] 분석 2회차 2023.03.23 - [IT/Data 분석] - [우주선 생존] 분 songsiaix.tistory.com 앞선 회차에서 결측치를 중앙값과 평균값으로 변경하였을 때 특별한 상관관계를 못찾았다. 이번에는 결측치를 갖고 있는 모든 행을 삭제하고 난 이후 한번더 도전해보았다. df4 = df.copy() df4.dropna(inplace=True) df4.info() Int64Index: 6..

IT/Data 분석 2023.04.02

[우주선 생존] 분석 4회차

2023.03.26 - [IT/Data 분석] - [우주선 생존] 분석 3회차 [우주선 생존] 분석 3회차 2023.03.25 - [IT/Data 분석] - [우주선 생존] 분석 2회차 [우주선 생존] 분석 2회차 2023.03.23 - [IT/Data 분석] - [우주선 생존] 분석 1회차 [우주선 생존] 분석 1회차 https://www.kaggle.com/competitions/spaceship-titanic Sp songsiaix.tistory.com 일단 현재 데이터프레임의 상관관계를 보자. corr() 를 일단 때리는 형태가 많아서 서점에 있는 책들에 많이 있는데 3회차에서는 그냥 좀 돌아가보았다. Age RoomService FoodCourt ShoppingMall Spa VRDeck Tra..

IT/Data 분석 2023.03.28

[우주선 생존] 분석 3회차

2023.03.25 - [IT/Data 분석] - [우주선 생존] 분석 2회차 [우주선 생존] 분석 2회차 2023.03.23 - [IT/Data 분석] - [우주선 생존] 분석 1회차 [우주선 생존] 분석 1회차 https://www.kaggle.com/competitions/spaceship-titanic Spaceship Titanic | Kaggle www.kaggle.com 우주선에서 시공간 이상으로 승객이 다른 차 songsiaix.tistory.com 문자 자체를 연산할 수 있는지 기술적으론 모르겠지만 수학적인 분석이 이루어지기 위해서는 숫자가 유리하다. 앞전에 했던 예시 중에 Transported 는 참 거짓의 논리 타입이라 True, False 를 그대로 사용해도 무관하겠지만 이를 숫자로..

IT/Data 분석 2023.03.26

[우주선 생존] 분석 2회차

2023.03.23 - [IT/Data 분석] - [우주선 생존] 분석 1회차 [우주선 생존] 분석 1회차 https://www.kaggle.com/competitions/spaceship-titanic Spaceship Titanic | Kaggle www.kaggle.com 우주선에서 시공간 이상으로 승객이 다른 차원으로 이동된다. 어떤 승객이 다른 차원으로 이동되었는지 예측해보자. df = songsiaix.tistory.com 1회차의 마지막 부분에서 df.head() 의 정보를 토대로 어떠한 내용들이 있는지를 알아 볼 수 있었다. 결측치 정보들이 있는 것을 알 수 있었다. 그런데 이 결측치들이 중요 정보일지 아닐지 판단을 해야하는데 어떻게 판단할 수 있을까? 경험적으로? 그래 물론 경험이란 것은..

IT/Data 분석 2023.03.25

[우주선 생존] 분석 1회차

https://www.kaggle.com/competitions/spaceship-titanic Spaceship Titanic | Kaggle www.kaggle.com 우주선에서 시공간 이상으로 승객이 다른 차원으로 이동된다. 어떤 승객이 다른 차원으로 이동되었는지 예측해보자. df = pd.read_csv('/kaggle/input/spaceship-titanic/train.csv') 훈련 데이터를 데이터 프레임으로 저장한 후 어떤 형태인지 살펴보자. df.shape (8693, 14) 8693개의 행과 14개의 열을 가진 데이터 프레임이다. df.info() RangeIndex: 8693 entries, 0 to 8692 Data columns (total 14 columns): # Column ..

IT/Data 분석 2023.03.23

[용인시 종량제봉투]분석 1회차

요즘 데이터 분석과 머신 러닝등에 관심을 기울이고 있다. 수학이나 통계적인 부분이 내겐 쉽지 않기에 몇번이고 포기했었는데 살면서 언젠가 어느곳에선가 사용하게 될 것 같다는 생각이 들어서 요즘 짧게 짧게 공부를 해오고 있다. 문득 아주 작게나마 연습을 위해 기록을 해야겠다는 생각에 공공 데이터 홈페이지를 방문하여 내 눈에 뛴 것을 선택 했다. "용인도시공사_종량제 봉투 판매업소 현황" 정말 특별히 의미있는 것은 아니겠지만 저 곳에서 어떤 의미를 찾을 수 있을까를 추론하려고 하니 콩팥이 설렌다. 데이터를 다운로드 받고 판다스로 읽어오려는데 맥북이라 그런가 역시나 인코딩 관련 에러가 발생한다 >>> import pandas as pd >>> pd.DataFrame('yongin.csv') Traceback (..

IT/Data 분석 2023.03.12
728x90