3. 튜토리얼/비즈니스 통계 분석 프로그래밍 6

Elastic Stack 활용 서울시 상권 매출 대시보드 구축 - (1) elastic search, kibana

데이터 파이프라인 구축 (1)에서 csv 파일의 텍스트 전처리가 필요했다. 해당 부분부터 이어서 kibana 대시보드 작업까지 진행한다. 지난 글에서 작성했지만, 작업환경과 파이프라인 flow도 다시 보자. """ 작업 환경: Macbook Pro 2019 - i9, 16GB GCP 가상 머신 4대 할당(e2-small 3대 + e2-medium 1대) 가상 머신 1대에 클러스터 1개 배치(클러스터당 노드도 1개씩) filebeat 설치(Local) logstash 설치(Local) elastic search 설치(e2-small 3개 각각 설치) kibana 설치(e2-medium 1대에 설치) 데이터: 서울시 상권 추정 매출(서울시 열린 데이터 광장 제공) 구축할 데이터 파이프라인 Flow: Beat..

Elastic Stack 활용 서울시 상권 매출 대시보드 구축 - (1) beats, logstash

Step 0. 실습 전 확인 사항 Elastic Stack은 Elastic Search를 중심으로 Beats, Logstash, Kibana를 활용해 데이터파이프를 구축하는 일련의 설계 방식이다. 이번 실습은 아래의 순서로 진행된다. 서울시 상권 추정 매출 데이터를 Beats로 읽어들여서, Logstash로 보내 문자열 처리를 거친 다음, Elastic search로 적재하고, Kibana로 대시보드를 그려보는 것 먼저, 실습 전에 나의 작업 환경은 아래와 같다. 동일하게 세팅할 필요는 없으며, 클라우드를 사용하지 않고 개인 로컬 환경에서도 충분히 실습이 가능하다. 작업 환경: Macbook Pro 2019 - i9, 16GB GCP 가상 머신 4대 할당(e2-small 3대 + e2-medium 1대)..

광고 프로모션 효율 증진을 위한 커머스 고객 세분화 - (2) 고객 군집 분석

"분석이 먼저, 머신러닝은 그다음" 분석이 먼저가 된 다음 머신러닝을 조미료처럼 얹어보는 것은 훌륭한 선택이다. 반대로 분석에 대한 이해가 부족한 상태에서 머신러닝을 사용한다면 해석에 오류를 덮어쓰게 되고 데이터 분석이 주는 설득의 이점을 잃게 만든다. 끝에서 한번 더 언급할텐데, 이 점을 유의하고 분석을 따라가다 보면 결론과 함께 앞으로 머신러닝을 어떻게 사용하면 좋을지 가늠할 수 있다. 데이터의 차원(칼럼)이 많을수록 고객을 분류할 기준을 찾기가 복잡해진다. 사람의 머리로는 4차원 이상의 데이터는 상상하기 어렵고 시각화 차트로 분포를 확인할 수도 없다. 이런 상황에서 머신러닝은 차원 수가 많더라도 그들 관계에 대한 가장 설명력이 높은 최적의 패턴을 찾아내는데, X와 Y를 연결하는 복잡한 식을 찾아낼 ..

광고 프로모션 효율 증진을 위한 커머스 고객 세분화 - (1) 문제 상황 가정 및 데이터 전처리

"데이터"가 아니라 "문제"를 먼저 보는 연습 이번 분석은 임의의 문제 상황을 가정하고 데이터를 통해 문제를 해결할 방법을 찾는다. 처음에는 의식적으로 '데이터'에 집중하게 되는데 본문에서 일부러 상황과 문제를 계속해서 강조했다. 그러니 '문제'에 집중해보자. '문제'를 이해하면 데이터는 자연스럽게 눈에 들어온다. 특히 후반부에 집단 군집 분석을 진행할 텐데, 이를 위해 머신러닝도 사용해볼 예정이다. 목차 ___ Step 1. 문제 상황 가정 및 데이터 전처리 1-1. 라이브러리 호출 및 데이터 확인 1-2. 일부 컬럼 제거 1-3. 컬럼명, 데이터타입 형식 통일 1-4. 현재 날짜 가정 1-5. 이상치 처리 1. 문제 상황 가정 및 데이터 전처리 지금부터 우리는 이커머스 스타트업의 데이터 분석가다. 상..

넷플릭스의 콘텐츠 보유 현황과 수급 전략 분석 - 파이썬 비즈니스 데이터 분석

넷플릭스의 콘텐츠 보유 현황과 수급 전략 분석 분석 목표 : 넷플릭스에서 보유한 콘텐츠 현황과 최근 집중하는 콘텐츠 유형을 파악해 넷플릭스의 시장 점유를 위한 콘텐츠 수급 전략을 분석한다. 데이터 출처 : Netflix Movies and TV Shows, Kaggle 참고 사이트 : 영화, TV 관람 등급 표 1. 가설 설정 각 컬럼별 유효 데이터와 결측치 분포를 확인하고, 이에 따라 분석 목표에 도달하기 위한 가설을 설정한다. import pandas as pd import numpy as np import plotly.express as px import plotly.graph_objects as go from plotly.subplots import make_subplots import matpl..

커머스 연간 지출액을 통한 매출 개선 시뮬레이션 - 파이썬 프로덕트 데이터 분석

웹/앱 접속 시간에 따른 지출 현황 분석 및 매출 개선 전략 수립 분석 목표 : 서비스 내 고객 별 접속 현황과 연간 지출액을 살펴보고, 매출을 높이기 위한 전략을 수립한다. 데이터 출처 : Ecommerce Customers, Kaggle 1. 가설 설정 각 컬럼 정보를 확인하고, 분석 목표에 도달하기 위한 가설을 설정한다. import pandas as pd import numpy as np from scipy import stats import statsmodels.api as sm from sklearn import model_selection from sklearn.linear_model import LinearRegression import seaborn as sns import matplot..

1