본문 바로가기

ML

(3)
[Kaggle] Melbourne 집값 예측하기 - 3 Categorical Variables 비어있는 데이터를 처리하는 법 다음으로는 숫자가 아닌 값들을 가지고 있는 데이터를 처리해보았다 Categorical Variable은 매우 높음, 높음, 보통, 낮음, 매우 낮음처럼 단계별로 나누어져있을 수도 있고 선호하는 카페의 종류라는 질문의 대답처럼 다양한 대답이 나올 수도 있다 이때 이런 Categorical Variable은 파이썬 머신 러닝 모델에 들어가기 전에 전처리가 필요하다 세가지의 방법으로 Categorical Variable을 처리해보았다 학습을 시키고 error를 구하기 전에 먼저 비어있는 데이터를 처리할 때 처럼 trainging data, test data를 나누어주었다 그리고 지금은 연습하는 단계니까 간단하게 연습해보기 위해서 비어있는 값이 있는 행은 버려주고 종류가 너무 많이..
[Kaggle] Melbourne 집값 예측하기 - 2 Missing Values 데이터 전처리를 거의 하지 않고 집값을 예측했던 모델을 점점 발전시켜보려고 한다 데이터가 모든 행마다 값이 다 차있으면 좋겠지만 현실에서 실제 데이터는 몇몇 특징이 비어있는 경우가 대부분일것이다 이때 비어있는 데이터를 어떻게 처리하는게 좋을지 알아보았다 1 2 3 4 5 6 7 8 9 10 11 # save filepath to variable for easier access melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv' # read the data and store data in DataFrame titled melbourne_data melbourne_data = pd.read_csv(melbourne_file_pa..
[Kaggle] Melbourne 집값 예측하기 - 1 캐글 사이트에 있는 course를 바탕으로 집값 예측을 해 보았다 데이터를 처리해서 모델을 생성하는 게 익숙하지 않아 코스 내용과 공부 내용을 기록해보고자 한다 1 2 3 4 5 6 # save filepath to variable for easier access melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv' # read the data and store data in DataFrame titled melbourne_data melbourne_data = pd.read_csv(melbourne_file_path) # print a summary of the data in Melbourne data melbourne_da..