Python 38

sklearn - classification_report()

sklearn.metrics.classification_report reference : scikit-learn.org, sklearn.metrics.classification_report, document scikit-learn.org,sklearn.metrics.f1_score, document stackoverflow, How to interpret classification report of scikit-learn?,LaSul Answered Accuracy(정확도), Recall(재현율), Precision(정밀도), 그리고 F1 Score, eunsukimme Document : sklearn.metrix.classification_report(y_true, y_pred, *, Labels=N..

pandas - corr()

df.corr(method='s') reference document : pandas.DataFrame.corr 비선형 상관관계 : 스피어만 상관계수, 켄달타우 pandas 데이터프레임 객체에 대해 corr()함수를 사용할 수 있다. corr()은 누락값을 제외하고 전체(dataframe) 컬럼들 간의 상관도를 계산한다. 계산에 사용되는 상관계수의 default값은 pearson 상관계수로, 모든 변수가 연속형이고 정규분포를 띄는 경우 사용할 수 있다. 만약 정규분포를 따르지 않는 변수가 포함되어 있다면 보편적으로 spearman 상관계수를 사용한다. spearman 상관계수는 비모수적 방법 (모수를 특정 분포로 가정하여 접근하는 방법론) 으로써 값에 순위를 매기고 순위에 대해 상관계수를 구하는 방식이다..

범주형/연속형 변수 조합에 따른 가설 검정 방법

1. 단일변수 1-1. 연속형 정규성 검정 One Sample T-Test(일표본 평균검정) # One Sample T-Test : ## 귀무가설 H0 - 특정 값은 집단의 평균과 다르지 않다. (H0확률 = p-value, 0.05 미만이면 기각) ## 연구가설 H1 - 특정 값은 집단의 평균과 다르다. stats.ttest_1samp(Series, value) # 집단의 평균(Series) vs 검증하고자 하는 값(value) 1-2. 범주형 비율 검정(ex. 연구가설 H1-집단 내 남녀 비율은 차이가 있다) 2. 다변수 2-1. 범주형 'X' & 연속형(정규분포) 'Y' Two Sample T-Test(이표본 평균검정), 등분산 검정(Levene Test) 등분산 검정 결과에 따라(이분산, 등분산)..

StarGAN v2

StarGAN v2 - Basic Concept reference : github/clovaai/stargan-v2 github/yunjey/stargan StarGAN v2: Diverse Image Synthesis for Multiple Domains 도메인과 스타일, 모두 잡았다! StarGAN v2 기존 StarGAN는 하나의 모델로 하나의 도메인에 대해 학습, Generate하는 것이 아닌, 하나의 모델로 다양한 도메인을 표현해낼 수 있었다면 StarGAN v2는 이에 더해 여러 도메인을 결합하여 동시에 표현해낼 수 있다. 예를 들어, 기존의 StarGAN은 입력받은 하나의 이미지가 서로 다른 다양한 도메인을 표현하도록 가짜 이미지를 생성해낸다. 출처 : StarGAN - Official/RE..

LGBM

LGBM(Light Gradient Boosting Machine) LightGBM's documentation LightGBM 주요 파라미터 정리 LightGBM이란? LGBM은 'Light'(==fast)하고 또 'Light'(==low memory)하다. 그만큼 또 예민하다는 단점이 있다. 예민하다는 것은 과적합(Overfitting)되기 쉽다는 것이며 1만 개 이하의 적은 데이터셋을 다루기에는 적합하지 않은 모델이다. LGBM을 사용할 때에는 과적합에 특히 유의해야 하며 아래의 하이퍼파라미터들을 통해 학습을 조절할 필요가 있다. max_depth Tree의 깊이가 깊을 수록 당연하게도 train set에 더 가까운 가중치를 학습하게 된다. 다른 모델을 사용할 때보다 현저하게 max_depth를 줄..

xgboost

XGBoost(eXtreme Gradient Boost) 캐글로 배우는 머신러닝 #10 XGBoost 파이썬 Scikit-Learn 형식 XGBoost 파라미터 XGBoost 알고리즘의 개념 이해 머신러닝 앙상블(ensemble) xgboost란? XGBoost는 기존 Gradient Boosting 방식의 느리고, training set에 overfitting되는 문제를 어느 정도 해결한 고성능 ensemble 기법이다. 규제 Overfitting을 방지하도록 하이퍼파라미터를 통해 규제할 수 있다. reg_alpha : L1 규제 reg_lambda : L2 규제 early stopping 주로 딥러닝 학습에 파라미터로 사용되는 early stopping을 지원한다. model.fit(X_train, ..

sklearn - GradientBoostingClassifier

GradientBoostingClassifier Gradient Boosting Model sklearn.ensemble.GradientBoostingClassifier 지도학습 - 그래디언트 부스팅 2.3.6 결정 트리의 앙상블, 텐서 플로우 블로그 GradientBoosting 모델은 RandomForest 모델과 달리 learning_rate를 통해 오차를 줄여나가는 학습 방식을 사용한다. RandomForest 모델은 말그대로 Random하게 Bagging, Tree를 생성한다. 하지만 GradientBoosting 모델은 Tree를 생성할 때마다 이전 Tree보다 오차를 줄이게 된다. 또한 개별 Tree의 깊이는 얕게 만들어내면서 오차가 줄어든 Tree를 계속해서 연결해나가는 구조다.(때문에, ..

파이썬 퀀트 분석 패키지 - ffn(Financial Functions for Python)

https://github.com/pmorissette/ffn GitHub - pmorissette/ffn: ffn - a financial function library for Python ffn - a financial function library for Python. Contribute to pmorissette/ffn development by creating an account on GitHub. github.com Python ffn 패키지는 퀀트 분석을 편하게 하도록 작성된 라이브러리다. 유용한 함수들을 많이 제공하고 있는데, 그중에서도 어렵지 않게 써먹을만한 함수들을 빠르게 익혀보자. Step 1. 데이터 추출 기본적으로 야후 파이낸스를 통해 데이터를 가져오게 되어있고, 데이터 로드 속도..

K-Nearest Neighbor Algorithm

K-Nearest Neighbor Algorithm(최근접 이웃 알고리즘) Reference : K-NN 알고리즘(K-최근접이웃) 개념 파이썬 라이브러리를 활용한 머신러닝, 한빛미디어 Classification Regression 1. Classification (n = 1) 기존에 분포하는 값 중 가장 가까운 값의 label을 현재 Test값의 label로 지정한다. (n > 1) 기존에 분포하는 값 중 가장 가까운 순서대로 n개의 값을 찾고, 가장 많이 나오는 label을 현재 Test값의 label로 지정한다. ex. N = 3일 때, 탐색 방식 ex. N = 3일 때, 코드 예시 from sklearn.model_selection import train_test_split X, y = mglear..

1 2 3 4