본문 바로가기

파이썬

(4)
[Kaggle] Melbourne 집값 예측하기 - 4 Pipelines 파이프라인! 지금까지는 컴퓨터구조에만 파이프라인이 있는 줄 알았는데 머신러닝에도 파이프라인이 있었다 사이킷런의 파이프라인의 장점은 1. 깔끔한 코드 : preprocessing 단계마다 매번 코드를 작성하면 코드가 더러워질 수 있고 흐름 따라가기가 어렵지만 파이프라인을 사용하면 깔끔하게 사용할 수 있다 2. 더 적은 실수 : preprocessing 단계를 빼먹는다거나, 순서를 잘못 적용하지 않을 수 있다 3. 쉬운 생산화 4. model validation 과정에서 많은 옵션 가능 이 있다고 한다 개념은 이정도면 충분하고 실제로 적용 방법을 알아보자! 이번에도 데이터는 캐글의 집값 데이터를 사용해보았다 쉽게 사용법을 익히기 위해 숫자가 아닌 값을 가진 데이터는 unique한 종류가 너무 많지 않은 행만..
[Python Big Data] Google bigquery와 SQL Bigquery를 이용하면 SQL을 이용하여 큰 데이터셋을 다룰 수 있다 SQL은 데이터베이스 시간에 어느정도 공부를 해서 bigquery를 파이썬에서 pandas와 어떻게 함께 사용하나에 대해 공부해보았다 먼저 1 2 import pandas as pd from google.cloud import bigquery cs pandas와 bigquery import 해주기! 1 2 3 4 5 6 7 8 # Create a "Client" object client = bigquery.Client() # Construct a reference to the "stackoverflow" dataset dataset_ref = client.dataset("stackoverflow", project="bigquery-..
[Python Data Manipulation] Pandas 사용법 캐글 미니코스에서 판다스를 공부해보았다 UCI 데이터 사이언스 과목 청강할때 그때그때 필요한 내용을 공부하면서 사용해본적은 있지만 개념을 정확히 모르고 사용하니 쓸때마다 알아가는 느낌이 아니라 매번 검색해야해서 답답했다 캐글 코스를 들으면 금방 정리할 수 있을 것 같아 듣고 나중에 보기 위한 내용정리! 판다스는 이렇게 import 해서 사용한다 1 import pandas as pd cs 판다스를 사용하기 위해서는 가장 중요한 두개의 object가 있는데 바로 DataFrame과 Series이다 먼저 DataFrame은 테이블이라고 생각할 수 있다 이 테이블은 index를 0,1,2로 기본적으로 만들지만 따로 index를 지정해줄수도 있다 Series는 DataFrame과는 다르게 value들의 수열이라..
[Python Data Visualization] Seaborn 사용법 코세라 머신러닝 강의를 다 듣고 실제로 데이터에 적용시켜보고 싶어서 캐글에 도전하게 되었다 캐글 python data visualizaion course에서 알게된 seaborn library의 사용법을 정리해보려고 한다 한번 정리해서 두고두고 찾아봐야지 www.seaborn.pydata.org matplotlib를 기반으로 하는 Seaborn 라이브러리는 matplotlib을 많이 사용해보지는 않았지만 matplotlib에 비해 사용법이 훨씬 간단하다고 느꼈다 Visualizing Statistical Relationships 데이터 셋의 값들이 서로 어떤 영향을 끼치고 의존하는가에 대한 분석을 위해 필요한 api relplot() 함수를 가장 많이 쓴다 relplot 함수는 인자로 kind를 가지는데..