sklearn - GradientBoostingClassifier

1. 기술/머신러닝, 딥러닝

sklearn - GradientBoostingClassifier

swsong 2022. 6. 14. 14:26

GradientBoostingClassifier

GradientBoostingClassifier

GradientBoosting 모델은 RandomForest 모델과 달리 learning_rate를 통해 오차를 줄여나가는 학습 방식을 사용한다. RandomForest 모델은 말그대로 Random하게 Bagging, Tree를 생성한다. 하지만 GradientBoosting 모델은 Tree를 생성할 때마다 이전 Tree보다 오차를 줄이게 된다. 또한 개별 Tree의 깊이는 얕게 만들어내면서 오차가 줄어든 Tree를 계속해서 연결해나가는 구조다.(때문에, Tree 깊이는 얕게, 갯수는 늘리는 방식을 주로 사용한다.)

아래 3가지 하이퍼파라미터는 GradientBoosting 모델 성능(정확도)에 민감하게 작용한다.

n_estimator

default : 100
트리의 갯수를 의미한다. GradientBoosting 모델은 매 Tree 생성마다 학습오차를 줄이기 때문에(learning_rate) n_estimator가 많아질 수록, 즉 Tree를 많이 생성할 수록 Training 데이터셋에 대한 학습(예측)오차는 줄어들며 과적합된다.
이는 RandomForest 모델과 다른 점이다. RandomForest 모델은 n_estimator를 크게 할 수록 좋다.

learning_rate

default : 0.1
값이 작으면 이전 Tree의 학습 오차를 살짝만 줄익고, 값이 크면 크게 줄인다. 즉, 값이 커질 수록 training 데이터셋에 과적합된다.

max_depth

default : 3
개별 Tree의 깊이를 의미한다. 보통 1~3 정도로 설정한다.
깊이가 작은 특성때문에 이러한 단일 트리를 weak learner라고 한다.
이러한 weak learner는 적은 데이터(전체 중 좁은 일부)만 담기에 메모리를 적게 사용하고 예측이 빠른 장점이 있다.

사용법은 다른 sklearn classification 모델들과 동일하다. 단, sklearn의 ensemble 패키지를 활용한다.

from sklearn.ensemble import GradientBoostingClassifier

model = GradientBoostingClassifier(randome_state=0) # default : max_depth=3, learning_rate=0.1
model.fit(X_train, y_train)

# Prediction
print('Train Score : {}'.format(model.score(X_train, y_train)))
print('Test Score : {}'.format(model.score(X_test,y_test)))

Train Score : 0.98
Test Score : 0.93

"sparse한 고차원 데이터에는 잘 동작하지 않는다"는 단점이 있다. 이는 Tree 모델의 공통적인 특징이다.

저작자표시

현재글sklearn - GradientBoostingClassifier

Capability, Utility, and Data Analysis.

Python, Javascript, Django, 가설검정, 딥러닝, 데이터사이언스, 판다스, 데이터분석, sklearn, StarGAN, 통계, 자바스크립트, 금융데이터, 시계열분석, 머신러닝, 사이킷런, 기계학습, 프로그래밍, 주식데이터, 파이썬,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

관성을 이기는 데이터