728x90

IT 145

[우주선 생존] 분석 8회차

2023.04.10 - [IT/Data 분석] - [우주선 생존] 분석 7회차 [우주선 생존] 분석 7회차 2023.04.04 - [IT/Data 분석] - [우주선 생존] 분석 6회차 [우주선 생존] 분석 6회차 2023.04.02 - [IT/Data 분석] - [우주선 생존] 분석 5회차 [우주선 생존] 분석 5회차 2023.03.28 - [IT/Data 분석] - [우주선 생존] 분 songsiaix.tistory.com 독립변수 중 unique 한 값 중 너무 많아서 분포를 확인하기 어려운 애들은 제외하고 VIP, CryoSleep, Destination, HomePlanet 으로만 추려 종속변수와의 분포를 확인해보자. import seaborn as sns import matplotlib.pyp..

IT/Data 분석 2023.04.11

[우주선 생존] 분석 7회차

2023.04.04 - [IT/Data 분석] - [우주선 생존] 분석 6회차 [우주선 생존] 분석 6회차 2023.04.02 - [IT/Data 분석] - [우주선 생존] 분석 5회차 [우주선 생존] 분석 5회차 2023.03.28 - [IT/Data 분석] - [우주선 생존] 분석 4회차 [우주선 생존] 분석 4회차 2023.03.26 - [IT/Data 분석] - [우주선 생존] 분 songsiaix.tistory.com 하도 결측치가 중요하다고 해서 앞의 글에서는 결측치에 많은 비중을 두고 알아보았다.(물론 결측치는 중요하다, 다만 내가 그 결측치를 활용할 방안의 한계에 봉착한 것 뿐이다.) 우선 결측치보다 각각의 종속변수에 대한 이해가 높아야 하는 것 같다. 모든 종속변수가 다 활용될 필요도 없..

IT/Data 분석 2023.04.10

[우주선 생존] 분석 6회차

2023.04.02 - [IT/Data 분석] - [우주선 생존] 분석 5회차 [우주선 생존] 분석 5회차 2023.03.28 - [IT/Data 분석] - [우주선 생존] 분석 4회차 [우주선 생존] 분석 4회차 2023.03.26 - [IT/Data 분석] - [우주선 생존] 분석 3회차 [우주선 생존] 분석 3회차 2023.03.25 - [IT/Data 분석] - [우주선 생존] 분 songsiaix.tistory.com 5회차에서 간과했던 것이 있다. 결측치를 제거하면 자동으로 타입이 변환될 것으로 예상했는데, 다른 말로 object 였던 타입이 실수형이나 논리형으로 자동 변환될 것으로 예상하고 진행하였는데 그렇지 않았다 필요에 맞게 다시 형변환이 필요하다는 것을 깨달았다. 결측치를 제거하고도 b..

IT/Data 분석 2023.04.04

[우주선 생존] 분석 5회차

2023.03.28 - [IT/Data 분석] - [우주선 생존] 분석 4회차 [우주선 생존] 분석 4회차 2023.03.26 - [IT/Data 분석] - [우주선 생존] 분석 3회차 [우주선 생존] 분석 3회차 2023.03.25 - [IT/Data 분석] - [우주선 생존] 분석 2회차 [우주선 생존] 분석 2회차 2023.03.23 - [IT/Data 분석] - [우주선 생존] 분 songsiaix.tistory.com 앞선 회차에서 결측치를 중앙값과 평균값으로 변경하였을 때 특별한 상관관계를 못찾았다. 이번에는 결측치를 갖고 있는 모든 행을 삭제하고 난 이후 한번더 도전해보았다. df4 = df.copy() df4.dropna(inplace=True) df4.info() Int64Index: 6..

IT/Data 분석 2023.04.02

[우주선 생존] 분석 4회차

2023.03.26 - [IT/Data 분석] - [우주선 생존] 분석 3회차 [우주선 생존] 분석 3회차 2023.03.25 - [IT/Data 분석] - [우주선 생존] 분석 2회차 [우주선 생존] 분석 2회차 2023.03.23 - [IT/Data 분석] - [우주선 생존] 분석 1회차 [우주선 생존] 분석 1회차 https://www.kaggle.com/competitions/spaceship-titanic Sp songsiaix.tistory.com 일단 현재 데이터프레임의 상관관계를 보자. corr() 를 일단 때리는 형태가 많아서 서점에 있는 책들에 많이 있는데 3회차에서는 그냥 좀 돌아가보았다. Age RoomService FoodCourt ShoppingMall Spa VRDeck Tra..

IT/Data 분석 2023.03.28

[우주선 생존] 분석 3회차

2023.03.25 - [IT/Data 분석] - [우주선 생존] 분석 2회차 [우주선 생존] 분석 2회차 2023.03.23 - [IT/Data 분석] - [우주선 생존] 분석 1회차 [우주선 생존] 분석 1회차 https://www.kaggle.com/competitions/spaceship-titanic Spaceship Titanic | Kaggle www.kaggle.com 우주선에서 시공간 이상으로 승객이 다른 차 songsiaix.tistory.com 문자 자체를 연산할 수 있는지 기술적으론 모르겠지만 수학적인 분석이 이루어지기 위해서는 숫자가 유리하다. 앞전에 했던 예시 중에 Transported 는 참 거짓의 논리 타입이라 True, False 를 그대로 사용해도 무관하겠지만 이를 숫자로..

IT/Data 분석 2023.03.26

[우주선 생존] 분석 2회차

2023.03.23 - [IT/Data 분석] - [우주선 생존] 분석 1회차 [우주선 생존] 분석 1회차 https://www.kaggle.com/competitions/spaceship-titanic Spaceship Titanic | Kaggle www.kaggle.com 우주선에서 시공간 이상으로 승객이 다른 차원으로 이동된다. 어떤 승객이 다른 차원으로 이동되었는지 예측해보자. df = songsiaix.tistory.com 1회차의 마지막 부분에서 df.head() 의 정보를 토대로 어떠한 내용들이 있는지를 알아 볼 수 있었다. 결측치 정보들이 있는 것을 알 수 있었다. 그런데 이 결측치들이 중요 정보일지 아닐지 판단을 해야하는데 어떻게 판단할 수 있을까? 경험적으로? 그래 물론 경험이란 것은..

IT/Data 분석 2023.03.25

[우주선 생존] 분석 1회차

https://www.kaggle.com/competitions/spaceship-titanic Spaceship Titanic | Kaggle www.kaggle.com 우주선에서 시공간 이상으로 승객이 다른 차원으로 이동된다. 어떤 승객이 다른 차원으로 이동되었는지 예측해보자. df = pd.read_csv('/kaggle/input/spaceship-titanic/train.csv') 훈련 데이터를 데이터 프레임으로 저장한 후 어떤 형태인지 살펴보자. df.shape (8693, 14) 8693개의 행과 14개의 열을 가진 데이터 프레임이다. df.info() RangeIndex: 8693 entries, 0 to 8692 Data columns (total 14 columns): # Column ..

IT/Data 분석 2023.03.23

[용인시 종량제봉투]분석 1회차

요즘 데이터 분석과 머신 러닝등에 관심을 기울이고 있다. 수학이나 통계적인 부분이 내겐 쉽지 않기에 몇번이고 포기했었는데 살면서 언젠가 어느곳에선가 사용하게 될 것 같다는 생각이 들어서 요즘 짧게 짧게 공부를 해오고 있다. 문득 아주 작게나마 연습을 위해 기록을 해야겠다는 생각에 공공 데이터 홈페이지를 방문하여 내 눈에 뛴 것을 선택 했다. "용인도시공사_종량제 봉투 판매업소 현황" 정말 특별히 의미있는 것은 아니겠지만 저 곳에서 어떤 의미를 찾을 수 있을까를 추론하려고 하니 콩팥이 설렌다. 데이터를 다운로드 받고 판다스로 읽어오려는데 맥북이라 그런가 역시나 인코딩 관련 에러가 발생한다 >>> import pandas as pd >>> pd.DataFrame('yongin.csv') Traceback (..

IT/Data 분석 2023.03.12

[공통] LoadBalancer와 WAF

클라우드 상품은 CSP 사에서 제공하는 그대로 사용해야 하는 장점이자 단점이 있다. 모든 CSP가 이와 같은 문제를 갖고 있지 않을 수 있고 이것을 문제라고 생각해야 하는지도 의문이지만 WAF와 LoadBalancer 사이에 묘한 문제가 있다. 우선 우리는 CSP 사에서 제공하고있는 상품들은 보안상의 이유로 구성의 위치를 정확하게 알 수는 없다. 단지 Legacy 방식에서 유사할 것이라고 생각하거나 기타 여러 명령어 또는 네트워크 흐름을 통해서 유추할 뿐이다. 이러한 이유로 앞서 말한 것 처럼 지금 말하고자 하는 WAF 와 LoadBalancer 의 특이점이 모든 CSP에 공통으로 적용되는 것은 아니다. 웹 서버는 보통 공인 IP를 사용하고 그 공인 IP는 domain 으로 사용하게 된다. 이때 웹에 가..

IT/Cloud Architect 2023.03.05
728x90