본문 바로가기

AI

(23)
[Kaggle] Melbourne 집값 예측하기 - 4 Pipelines 파이프라인! 지금까지는 컴퓨터구조에만 파이프라인이 있는 줄 알았는데 머신러닝에도 파이프라인이 있었다 사이킷런의 파이프라인의 장점은 1. 깔끔한 코드 : preprocessing 단계마다 매번 코드를 작성하면 코드가 더러워질 수 있고 흐름 따라가기가 어렵지만 파이프라인을 사용하면 깔끔하게 사용할 수 있다 2. 더 적은 실수 : preprocessing 단계를 빼먹는다거나, 순서를 잘못 적용하지 않을 수 있다 3. 쉬운 생산화 4. model validation 과정에서 많은 옵션 가능 이 있다고 한다 개념은 이정도면 충분하고 실제로 적용 방법을 알아보자! 이번에도 데이터는 캐글의 집값 데이터를 사용해보았다 쉽게 사용법을 익히기 위해 숫자가 아닌 값을 가진 데이터는 unique한 종류가 너무 많지 않은 행만..
[Kaggle] Melbourne 집값 예측하기 - 3 Categorical Variables 비어있는 데이터를 처리하는 법 다음으로는 숫자가 아닌 값들을 가지고 있는 데이터를 처리해보았다 Categorical Variable은 매우 높음, 높음, 보통, 낮음, 매우 낮음처럼 단계별로 나누어져있을 수도 있고 선호하는 카페의 종류라는 질문의 대답처럼 다양한 대답이 나올 수도 있다 이때 이런 Categorical Variable은 파이썬 머신 러닝 모델에 들어가기 전에 전처리가 필요하다 세가지의 방법으로 Categorical Variable을 처리해보았다 학습을 시키고 error를 구하기 전에 먼저 비어있는 데이터를 처리할 때 처럼 trainging data, test data를 나누어주었다 그리고 지금은 연습하는 단계니까 간단하게 연습해보기 위해서 비어있는 값이 있는 행은 버려주고 종류가 너무 많이..
[Kaggle] Melbourne 집값 예측하기 - 2 Missing Values 데이터 전처리를 거의 하지 않고 집값을 예측했던 모델을 점점 발전시켜보려고 한다 데이터가 모든 행마다 값이 다 차있으면 좋겠지만 현실에서 실제 데이터는 몇몇 특징이 비어있는 경우가 대부분일것이다 이때 비어있는 데이터를 어떻게 처리하는게 좋을지 알아보았다 1 2 3 4 5 6 7 8 9 10 11 # save filepath to variable for easier access melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv' # read the data and store data in DataFrame titled melbourne_data melbourne_data = pd.read_csv(melbourne_file_pa..
[Kaggle] Melbourne 집값 예측하기 - 1 캐글 사이트에 있는 course를 바탕으로 집값 예측을 해 보았다 데이터를 처리해서 모델을 생성하는 게 익숙하지 않아 코스 내용과 공부 내용을 기록해보고자 한다 1 2 3 4 5 6 # save filepath to variable for easier access melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv' # read the data and store data in DataFrame titled melbourne_data melbourne_data = pd.read_csv(melbourne_file_path) # print a summary of the data in Melbourne data melbourne_da..
[Python Big Data] Google bigquery와 SQL Bigquery를 이용하면 SQL을 이용하여 큰 데이터셋을 다룰 수 있다 SQL은 데이터베이스 시간에 어느정도 공부를 해서 bigquery를 파이썬에서 pandas와 어떻게 함께 사용하나에 대해 공부해보았다 먼저 1 2 import pandas as pd from google.cloud import bigquery cs pandas와 bigquery import 해주기! 1 2 3 4 5 6 7 8 # Create a "Client" object client = bigquery.Client() # Construct a reference to the "stackoverflow" dataset dataset_ref = client.dataset("stackoverflow", project="bigquery-..
[Python Data Manipulation] Pandas 사용법 캐글 미니코스에서 판다스를 공부해보았다 UCI 데이터 사이언스 과목 청강할때 그때그때 필요한 내용을 공부하면서 사용해본적은 있지만 개념을 정확히 모르고 사용하니 쓸때마다 알아가는 느낌이 아니라 매번 검색해야해서 답답했다 캐글 코스를 들으면 금방 정리할 수 있을 것 같아 듣고 나중에 보기 위한 내용정리! 판다스는 이렇게 import 해서 사용한다 1 import pandas as pd cs 판다스를 사용하기 위해서는 가장 중요한 두개의 object가 있는데 바로 DataFrame과 Series이다 먼저 DataFrame은 테이블이라고 생각할 수 있다 이 테이블은 index를 0,1,2로 기본적으로 만들지만 따로 index를 지정해줄수도 있다 Series는 DataFrame과는 다르게 value들의 수열이라..
[Python Data Visualization] Seaborn 사용법 코세라 머신러닝 강의를 다 듣고 실제로 데이터에 적용시켜보고 싶어서 캐글에 도전하게 되었다 캐글 python data visualizaion course에서 알게된 seaborn library의 사용법을 정리해보려고 한다 한번 정리해서 두고두고 찾아봐야지 www.seaborn.pydata.org matplotlib를 기반으로 하는 Seaborn 라이브러리는 matplotlib을 많이 사용해보지는 않았지만 matplotlib에 비해 사용법이 훨씬 간단하다고 느꼈다 Visualizing Statistical Relationships 데이터 셋의 값들이 서로 어떤 영향을 끼치고 의존하는가에 대한 분석을 위해 필요한 api relplot() 함수를 가장 많이 쓴다 relplot 함수는 인자로 kind를 가지는데..