데이터분석 37

[파이썬 금융 데이터 분석] 미국 부채사이클 기반 2025년 리세션 리스크 평가

2025년 세계 경제는 중요한 기로에 서 있다. 국가 경제의 핵심 지표 중 하나는 바로 부채 사이클이다. 미국의 부채 수준, 이자 지급액, 그리고 통화량(M0, M1, M2)을 분석함으로써 경기 침체 리스크를 이해하고, 이에 따라 적절한 경제 전략을 수립할 수 있다.본 글에서는 미국 부채 사이클을 기반으로 현 시점 경제 상황을 분석하고, 통화량을 고려해 2025년 경기 침체 리스크를 평가한다.Step 1. 데이터 수집부채 사이클과 경기 침체 리스크 간의 관계를 이해하기 위해 Federal Reserve Economic Data(FRED) API에서 데이터를 수집한다. 다음과 같은 변수를 포함하도록 한다.이자 지급액(Interest Payments)국내총생산(GDP)연방 부채(Federal Debt)통화기..

미 장단기 국채 금리차 기반 경기 침체 예측 분석(ARIMA + Probit)

본 글에서는 ARIMA 모형을 활용해 미래 미국채 Spread 추이를 continuous하게 예측하고, 이어서 Probit 모형을 통해 ARIMA 예측값을 경기침체 여부로 변환한다. 경제 예측 모델링을 수행할 때에는 가급적 단순한(파라미터가 적은) 모델, 해석가능한 모델을 사용하는 것이 좋다. 일반적인 인식과 달리 경제 데이터는 딥러닝과 같은 모델 아키텍처로 적합시킬 만큼 대용량이 아닐 뿐더러 제대로 적합되지 않았을 때 Fat Tail Risk가 미치는 영향이 치명적일 수 있기 때문이다.따라서 시계열 모델 파라미터를 분리 해석할 수 있는 ARIMA 모형, 종속변수가 binary(이진) 변수일 때 yes or no 에 대한 발생 확률을 가장 단순하게 설명가능한 Probit 모형을 사용하고, 이를 통해 현재..

파이썬 금융 데이터 분석 - 디플레이션 국면의 나스닥 환헤지 전략 평가

현시점에서 Nasdaq 100, 환헤지 Nasdaq 100 중 어느 쪽에 베팅하는 것이 유리할까?Step 1. 데이터 수집우선, 전략 평가를 위한 데이터를 수집한다.Nasdaq 100 H, UH 지수: 각각 환율 헷지를 적용한 경우, 그렇지 않은 경우 자산 가격 변화를 비교하기 위함이다.원/달러 환율: 헷지, 언헷지 간 성과 차이를 분석하기 위해 환율 데이터를 불러온다.금 가격: 경제 불확실성과 안전자산으로서의 달러 수요를 함께 이해하기 위해 사용할 것이다. 금과 달러 관계를 살펴보면서 현재 환율 상승이 경기 불황에 기인한 것인지 파악할 수 있다 Step 2. 데이터 전처리 및 로그 변환자산 가격의 시계열 데이터는 지수적 증감이 있기 때문에 이를 직접 비교할 경우 시각적 착시가 발생할 수 있다. 따라서 ..

더 나은 비즈니스 전략을 위한 데이터 활용 방법 4가지

kenway consulting에서 발행한 아티클(4 ways to leverage data for a better business strategy)을 번역하였습니다. kenway consulting은 시카고에 본사를 둔 직원 100명 규모의 IT 경영 컨설팅 펌입니다. 주로 기업의 디저털 전환 및 경영 관리를 위해 데이터 파이프라인과 통합 시스템을 기획, 설계하고 관련 컨설팅을 제공하며 세일즈 포스와 Power BI와 협력하고 있습니다. "기업 혁신은 어떻게 성공하는가? 지속가능한 성장의 뒤편에는 무엇이 있는가? 번성하는 기업 문화는 어떻게 만들 수 있는가?" 이러한 질문들을 모두 관통하는 단 하나의 정답은 없을 것이다. 그러나 혁신하고, 성장하고, 번성하는 기업들의 공통점은 있다. 바로 데이터 기반 ..

Activation,퍼널이 아닌 고객 여정의 관점에서

그로스 조직은 Activation, 그리고 Retention을 높이기 위해 퍼널을 분석하고 개선한다. 커머스 플랫폼을 떠올려보면 광고, 상품페이지, 회원가입, 장바구니, 결제까지의 6개 흐름이 기본적인 퍼널을 구성하고, 각 단계에서의 전환 과정이 얼마나 효과적으로 이루어지고 있는가를 분석하는 것이다. 만약 광고 클릭율은 높은데 상품페이지에서 대부분의 유저가 이탈한다면 타겟 세그먼트를 잘못 분류했거나 상품페이지의 흐름이 잘못 구성되었을 것이라 가정해볼 수 있다. 또는 가입 절차가 복잡할 수도 있다. 그리고 그 가정에 따라 기획안을 다시 살펴보고 타겟을 재정의하고, 광고 문구를 수정하거나 페이지를 재구성한다. 그러나 많은 경우 이러한 개선이 효과적이지 않다. 혹은 해당 퍼널 지표가 개선되었다 하더라도 최종 ..

파이썬을 활용한 애플 주가수익률 예측 분석 - (3). 교차 검증 및 모델 선택

본 시리즈는 주가 데이터의 자기 상관(Auto-Correlation) 특성을 억제하고, 동시간대 연관 자산(Cross-Sectional) 수익률 및 지연 수익률을 통한 미래 주가 수익률 예측하는 내용을 담고 있다. 본 장에서는 (1). 데이터 확인 및 예측 안정성 확보, (2). 변수간 상관분석 및 예측변수 정상성 검정에 이어 예측 모델을 구현하는 세 번째 실습을 진행한다. 실습은 회귀(Regression) 예측을 위한 다양한 모델들을 일괄 구현한 다음, 교차검증(K-Fold Cross Validation)을 수행함으로써 각각의 성능을 비교 분석하는 방식으로 진행된다. Step 1. Train-Test Dataset Split 데이터는 이전 장에서 구축한 df_Xy를 사용한다. 예측 변수는 y, 애플 ..

파이썬을 활용한 애플 주가수익률 예측 분석 - (2). 변수간 상관분석 및 예측변수 정상성 검정

본격적으로 모델링을 수행하기 전에 변수간 상관관계가 어떤지, 예측변수의 정상성이 확보되었는지 확인할 필요가 있다. 특정 설명변수가 예측변수와 상관관계가 강하거나 특정 설명변수 간 상관관계가 강하다면 해당 변수를 유심히 살펴야 한다. 전자의 경우 예측변수에 후행하는 것은 아닌지, 후자의 경우 동일한 외생변수를 갖거나 둘 사이에 상호 인과성이 존재하는 것은 아닌지 등을 확인하고, 해당 변수를 소거하거나 집계를 통해 시점 혹은 분포를 변환해줘야 한다. 또한, 예측변수 내에 설명변수들로 하여금 예측변수를 추정하기 어렵도록 하는 특정 분포(추세, 계절성)의 존재 여부 역시 확인해야 한다. 예측변수 자체가 시간에 따라 그 분포(평균, 표준편차)를 달리한다면 단일변수를 통한 회귀분석은 물론 다중변수 모델링은 제대로 ..

파이썬을 활용한 애플 주가수익률 예측 분석 - (1). 데이터 확인 및 예측 안정성 확보

본 시리즈는 파이썬으로 시계열 자기상관 특성 및 마켓, 안전자산, 대체자산 등과의 동시간대 연관성을 분석하고 Apple Inc(AAPL) 주가를 예측한다. 튜토리얼 작성을 위해 금융전략을 위한 머신러닝(한빛미디어), 실전 시계열 분석(한빛미디어) 외 야후파이낸스 및 FRED API 공식문서 등을 참고하였으며 작업 과정에서 추가로 참고하게 되는 자료들은 이후 각 편 내에 서술하도록 하겠다. 1편에서는 간단히 데이터를 불러와 누락된 분포를 살피고, 시계열 기간을 동일하게 맞춘다. 그 다음, 예측에 필요한 데이터를 추출하기 위한 시계열 분석 작업을 간단히 수행하도록 한다. Step 1. Import Packages numpy와 pandas를 포함해 seaborn, matplotlib은 데이터 분석을 위해 언제..

콜옵션/풋옵션 기초 개념 + 내가격(ITM), 등가격(ATM), 외가격(OTM)

콜옵션은 기초자산을 시장가보다 싸게 매수할 수 있는 권리를 의미한다. (*기초자산 : 옵션 등 파생상품의 기초 혹은 근거가 되는 자산으로 주식, 채권, 통화, 금리 등의 금융상품뿐만 아니라 농축산물, 실물상품까지 포함한다.) 권리라 함은 추후 행사하거나 행사하지 않을 수 있다는 것이며 권리를 '매입'한다는 점에서 매입에 대한 가격, 즉 프리미엄이 붙는다. 이에 따라 콜옵션 매수 혹은 매도에 대한 이익과 손실 범위는 다음과 같이 나타난다. 콜옵션 매수자는 x축 기초자산 가격의 변동(상승시 우측 방향 이동)에 따라 옵션 권리(기초자산을 행사가에 매수할 권리)를 행사하거나 행사하지 않을 수 있다. 콜옵션은 매수 포지션상 외가격(좌측)에서 거래가 이루어지고, 자산 가격이 증가하여 행사가와 일치한 상태인 등가격,..

2. 도메인/금융 2023.04.20

TF-IDF 행렬의 특이값 분해를 통한 LSA(Latent Semantic Analysis)의 구현과 빈도 기반 토픽 모델의 한계

Step 1. 토픽모델링이란 토픽모델링은 특정 문서의 확률적 카테고리를 나누는 비지도학습 방법론이며 기본적인 컨셉은 다음과 같다. 문서는 단어의 조합이다. 문서 내 함께 등장하는 단어는 서로 연관성이 있다. 모든 문서에서 자주 등장하는 단어는 특수한 의미를 내포하지 않는다. 반면, 그렇지 않은 단어는 특수한 의미를 내포한다. 즉, 모든 문서에서 자주 등장하지 않으면서 특정 단어들과 함께 등장하는 단어들은 서로 유사한 의미를 내포한다. 그러므로 단어의 조합인 문서는 의미가 있는 단어들의 비중에 따라 카테고리(Topic)가 결정된다. 우리는 이러한 컨셉의 프로세스에 따라 1.문서를 단어 조합으로 가공하고, 2~5.문서 내 각 단어들의 의미를 부여한 다음, 6.문서의 토픽을 결정해보도록 하자. Step 2. ..

1 2 3 4