데이터분석 36

미 장단기 국채 금리차 기반 경기 침체 예측 분석(ARIMA + Probit)

본 글에서는 ARIMA 모형을 활용해 미래 미국채 Spread 추이를 continuous하게 예측하고, 이어서 Probit 모형을 통해 ARIMA 예측값을 경기침체 여부로 변환한다. 경제 예측 모델링을 수행할 때에는 가급적 단순한(파라미터가 적은) 모델, 해석가능한 모델을 사용하는 것이 좋다. 일반적인 인식과 달리 경제 데이터는 딥러닝과 같은 모델 아키텍처로 적합시킬 만큼 대용량이 아닐 뿐더러 제대로 적합되지 않았을 때 Fat Tail Risk가 미치는 영향이 치명적일 수 있기 때문이다.따라서 시계열 모델 파라미터를 분리 해석할 수 있는 ARIMA 모형, 종속변수가 binary(이진) 변수일 때 yes or no 에 대한 발생 확률을 가장 단순하게 설명가능한 Probit 모형을 사용하고, 이를 통해 현재..

파이썬 금융 데이터 분석 - 디플레이션 국면의 나스닥 환헤지 전략 평가

현시점에서 Nasdaq 100, 환헤지 Nasdaq 100 중 어느 쪽에 베팅하는 것이 유리할까?Step 1. 데이터 수집우선, 전략 평가를 위한 데이터를 수집한다.Nasdaq 100 H, UH 지수: 각각 환율 헷지를 적용한 경우, 그렇지 않은 경우 자산 가격 변화를 비교하기 위함이다.원/달러 환율: 헷지, 언헷지 간 성과 차이를 분석하기 위해 환율 데이터를 불러온다.금 가격: 경제 불확실성과 안전자산으로서의 달러 수요를 함께 이해하기 위해 사용할 것이다. 금과 달러 관계를 살펴보면서 현재 환율 상승이 경기 불황에 기인한 것인지 파악할 수 있다 Step 2. 데이터 전처리 및 로그 변환자산 가격의 시계열 데이터는 지수적 증감이 있기 때문에 이를 직접 비교할 경우 시각적 착시가 발생할 수 있다. 따라서 ..

더 나은 비즈니스 전략을 위한 데이터 활용 방법 4가지

kenway consulting에서 발행한 아티클(4 ways to leverage data for a better business strategy)을 번역하였습니다. kenway consulting은 시카고에 본사를 둔 직원 100명 규모의 IT 경영 컨설팅 펌입니다. 주로 기업의 디저털 전환 및 경영 관리를 위해 데이터 파이프라인과 통합 시스템을 기획, 설계하고 관련 컨설팅을 제공하며 세일즈 포스와 Power BI와 협력하고 있습니다. "기업 혁신은 어떻게 성공하는가? 지속가능한 성장의 뒤편에는 무엇이 있는가? 번성하는 기업 문화는 어떻게 만들 수 있는가?" 이러한 질문들을 모두 관통하는 단 하나의 정답은 없을 것이다. 그러나 혁신하고, 성장하고, 번성하는 기업들의 공통점은 있다. 바로 데이터 기반 ..

Activation,퍼널이 아닌 고객 여정의 관점에서

그로스 조직은 Activation, 그리고 Retention을 높이기 위해 퍼널을 분석하고 개선한다. 커머스 플랫폼을 떠올려보면 광고, 상품페이지, 회원가입, 장바구니, 결제까지의 6개 흐름이 기본적인 퍼널을 구성하고, 각 단계에서의 전환 과정이 얼마나 효과적으로 이루어지고 있는가를 분석하는 것이다. 만약 광고 클릭율은 높은데 상품페이지에서 대부분의 유저가 이탈한다면 타겟 세그먼트를 잘못 분류했거나 상품페이지의 흐름이 잘못 구성되었을 것이라 가정해볼 수 있다. 또는 가입 절차가 복잡할 수도 있다. 그리고 그 가정에 따라 기획안을 다시 살펴보고 타겟을 재정의하고, 광고 문구를 수정하거나 페이지를 재구성한다. 그러나 많은 경우 이러한 개선이 효과적이지 않다. 혹은 해당 퍼널 지표가 개선되었다 하더라도 최종 ..

파이썬을 활용한 애플 주가수익률 예측 분석 - (3). 교차 검증 및 모델 선택

본 시리즈는 주가 데이터의 자기 상관(Auto-Correlation) 특성을 억제하고, 동시간대 연관 자산(Cross-Sectional) 수익률 및 지연 수익률을 통한 미래 주가 수익률 예측하는 내용을 담고 있다. 본 장에서는 (1). 데이터 확인 및 예측 안정성 확보, (2). 변수간 상관분석 및 예측변수 정상성 검정에 이어 예측 모델을 구현하는 세 번째 실습을 진행한다. 실습은 회귀(Regression) 예측을 위한 다양한 모델들을 일괄 구현한 다음, 교차검증(K-Fold Cross Validation)을 수행함으로써 각각의 성능을 비교 분석하는 방식으로 진행된다. Step 1. Train-Test Dataset Split 데이터는 이전 장에서 구축한 df_Xy를 사용한다. 예측 변수는 y, 애플 ..

파이썬을 활용한 애플 주가수익률 예측 분석 - (2). 변수간 상관분석 및 예측변수 정상성 검정

본격적으로 모델링을 수행하기 전에 변수간 상관관계가 어떤지, 예측변수의 정상성이 확보되었는지 확인할 필요가 있다. 특정 설명변수가 예측변수와 상관관계가 강하거나 특정 설명변수 간 상관관계가 강하다면 해당 변수를 유심히 살펴야 한다. 전자의 경우 예측변수에 후행하는 것은 아닌지, 후자의 경우 동일한 외생변수를 갖거나 둘 사이에 상호 인과성이 존재하는 것은 아닌지 등을 확인하고, 해당 변수를 소거하거나 집계를 통해 시점 혹은 분포를 변환해줘야 한다. 또한, 예측변수 내에 설명변수들로 하여금 예측변수를 추정하기 어렵도록 하는 특정 분포(추세, 계절성)의 존재 여부 역시 확인해야 한다. 예측변수 자체가 시간에 따라 그 분포(평균, 표준편차)를 달리한다면 단일변수를 통한 회귀분석은 물론 다중변수 모델링은 제대로 ..

파이썬을 활용한 애플 주가수익률 예측 분석 - (1). 데이터 확인 및 예측 안정성 확보

본 시리즈는 파이썬으로 시계열 자기상관 특성 및 마켓, 안전자산, 대체자산 등과의 동시간대 연관성을 분석하고 Apple Inc(AAPL) 주가를 예측한다. 튜토리얼 작성을 위해 금융전략을 위한 머신러닝(한빛미디어), 실전 시계열 분석(한빛미디어) 외 야후파이낸스 및 FRED API 공식문서 등을 참고하였으며 작업 과정에서 추가로 참고하게 되는 자료들은 이후 각 편 내에 서술하도록 하겠다. 1편에서는 간단히 데이터를 불러와 누락된 분포를 살피고, 시계열 기간을 동일하게 맞춘다. 그 다음, 예측에 필요한 데이터를 추출하기 위한 시계열 분석 작업을 간단히 수행하도록 한다. Step 1. Import Packages numpy와 pandas를 포함해 seaborn, matplotlib은 데이터 분석을 위해 언제..

콜옵션/풋옵션 기초 개념 + 내가격(ITM), 등가격(ATM), 외가격(OTM)

콜옵션은 기초자산을 시장가보다 싸게 매수할 수 있는 권리를 의미한다. (*기초자산 : 옵션 등 파생상품의 기초 혹은 근거가 되는 자산으로 주식, 채권, 통화, 금리 등의 금융상품뿐만 아니라 농축산물, 실물상품까지 포함한다.) 권리라 함은 추후 행사하거나 행사하지 않을 수 있다는 것이며 권리를 '매입'한다는 점에서 매입에 대한 가격, 즉 프리미엄이 붙는다. 이에 따라 콜옵션 매수 혹은 매도에 대한 이익과 손실 범위는 다음과 같이 나타난다. 콜옵션 매수자는 x축 기초자산 가격의 변동(상승시 우측 방향 이동)에 따라 옵션 권리(기초자산을 행사가에 매수할 권리)를 행사하거나 행사하지 않을 수 있다. 콜옵션은 매수 포지션상 외가격(좌측)에서 거래가 이루어지고, 자산 가격이 증가하여 행사가와 일치한 상태인 등가격,..

2. 도메인/금융 2023.04.20

TF-IDF 행렬의 특이값 분해를 통한 LSA(Latent Semantic Analysis)의 구현과 빈도 기반 토픽 모델의 한계

Step 1. 토픽모델링이란 토픽모델링은 특정 문서의 확률적 카테고리를 나누는 비지도학습 방법론이며 기본적인 컨셉은 다음과 같다. 문서는 단어의 조합이다. 문서 내 함께 등장하는 단어는 서로 연관성이 있다. 모든 문서에서 자주 등장하는 단어는 특수한 의미를 내포하지 않는다. 반면, 그렇지 않은 단어는 특수한 의미를 내포한다. 즉, 모든 문서에서 자주 등장하지 않으면서 특정 단어들과 함께 등장하는 단어들은 서로 유사한 의미를 내포한다. 그러므로 단어의 조합인 문서는 의미가 있는 단어들의 비중에 따라 카테고리(Topic)가 결정된다. 우리는 이러한 컨셉의 프로세스에 따라 1.문서를 단어 조합으로 가공하고, 2~5.문서 내 각 단어들의 의미를 부여한 다음, 6.문서의 토픽을 결정해보도록 하자. Step 2. ..

단어의 의미를 고려한 문장 유사도 측정 방법 - 기저 벡터와 선형 변환

Step 1. 문장의 유사도를 구하는 방법 두 문서의 유사성은 어떻게 측정할 수 있을까? 문장의 길이? 아니면 주어, 동사, 목적어 등의 문법 구조? 그것보다는 얼마나 공통 '단어'를 많이 포함하고 있는가? 가 더 합리적으로 보인다. 실제로 수많은 전통적인 텍스트마이닝 방법론들은 이러한 단어 기반 유사도 측정 방식을 따르며, 현재 딥러닝, AI 시대에도 역시 문장 구조와 속성을 분석할 때 단어는 핵심 요소다. 이렇게 단어를 기준으로 문장 유사도를 구하기 위해서는 단어를 숫자로 변환해 줄 필요가 있다. 즉, 유사도 혹은 거리를 수학적으로 계산하기 위해 문장을 일종의 좌표평면 상에 놓을 수 있어야 하고 문장이 좌표평면에 놓이기 위해서는 문장을 구성하고 있는 단어들을 스칼라 혹은 벡터값으로 변환해줘야 하는 것..

1 2 3 4