본문 바로가기

머신러닝

(2)
[Kaggle] Melbourne 집값 예측하기 - 4 Pipelines 파이프라인! 지금까지는 컴퓨터구조에만 파이프라인이 있는 줄 알았는데 머신러닝에도 파이프라인이 있었다 사이킷런의 파이프라인의 장점은 1. 깔끔한 코드 : preprocessing 단계마다 매번 코드를 작성하면 코드가 더러워질 수 있고 흐름 따라가기가 어렵지만 파이프라인을 사용하면 깔끔하게 사용할 수 있다 2. 더 적은 실수 : preprocessing 단계를 빼먹는다거나, 순서를 잘못 적용하지 않을 수 있다 3. 쉬운 생산화 4. model validation 과정에서 많은 옵션 가능 이 있다고 한다 개념은 이정도면 충분하고 실제로 적용 방법을 알아보자! 이번에도 데이터는 캐글의 집값 데이터를 사용해보았다 쉽게 사용법을 익히기 위해 숫자가 아닌 값을 가진 데이터는 unique한 종류가 너무 많지 않은 행만..
[Python Data Manipulation] Pandas 사용법 캐글 미니코스에서 판다스를 공부해보았다 UCI 데이터 사이언스 과목 청강할때 그때그때 필요한 내용을 공부하면서 사용해본적은 있지만 개념을 정확히 모르고 사용하니 쓸때마다 알아가는 느낌이 아니라 매번 검색해야해서 답답했다 캐글 코스를 들으면 금방 정리할 수 있을 것 같아 듣고 나중에 보기 위한 내용정리! 판다스는 이렇게 import 해서 사용한다 1 import pandas as pd cs 판다스를 사용하기 위해서는 가장 중요한 두개의 object가 있는데 바로 DataFrame과 Series이다 먼저 DataFrame은 테이블이라고 생각할 수 있다 이 테이블은 index를 0,1,2로 기본적으로 만들지만 따로 index를 지정해줄수도 있다 Series는 DataFrame과는 다르게 value들의 수열이라..