사이킷런 (3) 썸네일형 리스트형 [Kaggle] Melbourne 집값 예측하기 - 4 Pipelines 파이프라인! 지금까지는 컴퓨터구조에만 파이프라인이 있는 줄 알았는데 머신러닝에도 파이프라인이 있었다 사이킷런의 파이프라인의 장점은 1. 깔끔한 코드 : preprocessing 단계마다 매번 코드를 작성하면 코드가 더러워질 수 있고 흐름 따라가기가 어렵지만 파이프라인을 사용하면 깔끔하게 사용할 수 있다 2. 더 적은 실수 : preprocessing 단계를 빼먹는다거나, 순서를 잘못 적용하지 않을 수 있다 3. 쉬운 생산화 4. model validation 과정에서 많은 옵션 가능 이 있다고 한다 개념은 이정도면 충분하고 실제로 적용 방법을 알아보자! 이번에도 데이터는 캐글의 집값 데이터를 사용해보았다 쉽게 사용법을 익히기 위해 숫자가 아닌 값을 가진 데이터는 unique한 종류가 너무 많지 않은 행만.. [Kaggle] Melbourne 집값 예측하기 - 3 Categorical Variables 비어있는 데이터를 처리하는 법 다음으로는 숫자가 아닌 값들을 가지고 있는 데이터를 처리해보았다 Categorical Variable은 매우 높음, 높음, 보통, 낮음, 매우 낮음처럼 단계별로 나누어져있을 수도 있고 선호하는 카페의 종류라는 질문의 대답처럼 다양한 대답이 나올 수도 있다 이때 이런 Categorical Variable은 파이썬 머신 러닝 모델에 들어가기 전에 전처리가 필요하다 세가지의 방법으로 Categorical Variable을 처리해보았다 학습을 시키고 error를 구하기 전에 먼저 비어있는 데이터를 처리할 때 처럼 trainging data, test data를 나누어주었다 그리고 지금은 연습하는 단계니까 간단하게 연습해보기 위해서 비어있는 값이 있는 행은 버려주고 종류가 너무 많이.. [Kaggle] Melbourne 집값 예측하기 - 2 Missing Values 데이터 전처리를 거의 하지 않고 집값을 예측했던 모델을 점점 발전시켜보려고 한다 데이터가 모든 행마다 값이 다 차있으면 좋겠지만 현실에서 실제 데이터는 몇몇 특징이 비어있는 경우가 대부분일것이다 이때 비어있는 데이터를 어떻게 처리하는게 좋을지 알아보았다 1 2 3 4 5 6 7 8 9 10 11 # save filepath to variable for easier access melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv' # read the data and store data in DataFrame titled melbourne_data melbourne_data = pd.read_csv(melbourne_file_pa.. 이전 1 다음