writer: Harim Kang
데이터 분석 계획
분석 방안 수립
-
분석 로드맵 설정
- 분석 로드맵: 단계별로 추진하고자 하는 목표를 명확히 정의, 선/후행 단계를 고려해 단계별로 추진내용을 정렬한 것
- 단계: 데이터 분석 체계 도입 → 데이터 분석 유효성 검증 → 데이터 분석 확산 및 고도화
-
분석 문제 정의
- 분석 문제: 목표와 현상사이의 차이가 있을 때, 이것의 해결을 요하는 사항을 의미한다.
- 하/상향식 접근 방식을 반복하면서 상호 보완하여 분석 과제를 발굴 → 분석 과제 정의서
- 하향식 접근 방식
- 분석 과제가 정해져 있고, 이에 대한 해법을 찾기 위해 체계적으로 분석
- 문제 탐색(비즈니스 모델 기반) → 문제 정의(비즈니스 → 데이터) → 다양한 해결방안 탐색 → 타당성(경제, 기술, 데이터, 운영적) 검토 → 선택(최적 대안)
- 상향식 접근 방식
- 문제 정의 자체가 어려운 경우에 데이터를 기반으로 문제를 개선하는 방법
- 디자인 사고 접근법을 사용, 객관적 데이터를 관찰하고 행동을 통해 대상을 이해
- 비지도 학습 방법: 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터 상태 분석
- 프로토타이핑 접근법: 시행착오를 통한 문제 해결을 위해 사용, 가설 → 실험 → 테스트 → 결과 → 통찰 및 확인
- 빅데이터 분석의 유형
- Optimization: 분석의 대상(문제)와 분석 방법을 알고 있는 경우에 사용, 개선을 통한 최적화 분석
- Solution: 분석의 대상을 알고, 분석 방법은 모를 때, 분석 주제에 대한 솔루션을 찾는다
- Insight: 분석 대상을 정확히 모를 때, 기존 분석 방법을 통해서 새로운 통찰을 찾는법
- Discovery: 분석 대상 및 방법을 모를 때, 발견 접근법을 사용하여 대상을 새롭게 도출
-
데이터 분석 방안
-
빅데이터 분석 방법론
- 빅데이터를 분석하기 위해 문제를 정의하고 답을 도축하기 위한 체계적인 절차와 처리 방법
- 계층적 프로세스 모델(Stepwised Process Model)로 3계층 구성
- Phase(단계): 프로세스 그룹을 통해 완성된 단계별 산출물이 생성됨, Baseline(기준선)으로 설정 관리, Configuration Management(버전관리)등을 통해 통제를 한다.
- Task: 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목
- Step: Input, Process & Tool, Output으로 구성된 단위 프로세스(Unit Process)
- 분석 절차
- Planning(분석 기획): 비즈니스 이해 및 프로젝트 정의, 계획 수립
- Preparing(데이터 준비): 데이터 정의 및 데이터 스토어 설계, 데이터 수집
- Analyzing(데이터 분석): 분석용 데이터 준비, 텍스트 분석, 탐색적 분석(EDA, 기초 통계량 산출, 관계 파악, 시각화), 모델링(데이터 split, 모델링, 알고리즘 작성), 평가 및 검증, 적용 및 운영 방안
- Developing(시스템 구현): 시스템 및 아키텍처 설계, 사용자 인터페이스 설계, 구축, 시스템 테스트 및 운영(유닛, 통합, 시스템 테스트)
- Deploying(평가 및 배포): 모델 생명주기 설정, 주기적인 평가, 유지보수, 모델 발전계획 수립, 프로젝트 평가 보고
-
KDD(Knowledge Discovery in DBs) 분석 방법론
- 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론
- 분석 절차
- Selection(데이터 세트 선택): 목표 설정 및 목표 데이터 구성
- Preprocessing(전처리): noise, 이상값, 결측값 제거
- Transformation(데이터 변환): 변수 선정 및 차원 축소 (효율적인 데이터 마이닝을 위해)
- Data Mining(데이터 마이닝): 분석 목적에 따라 데이터 마이닝 기법, 알고리즘 선택, 패턴 찾기, 데이터 분류, 예측
- Interpretation/Evaluation(평가): 분석 결과에 대한 해석 및 평가
-
CRISP-DM(Cross Industry Standard Process for Data Mining) 분석 방법론
- 비즈니스의 이해를 바탕으로 데이터 분석 목적의 6단계로 진행되는 데이터 마이닝 방법론
- 구성요소
- Phase(단계): 최상위 레벨
- Generic Tasks(일반화 태스크): 데이터 마이닝의 단일 프로세스를 수행하는 단위
- Specialized Tasks(세분화 태스크): 일반화 태스크를 구체적으로 수행하는 레벨
- Process Instances(프로세스 실행)
- 분석 절차
- Business Understanding(업무 이해): 목적, 상황 파악, 목표 설정, 프로젝트 계획 수립
- Data Understanding(데이터 이해): 인사이트 발견, 초기 데이터 수집 및 탐색
- Data Preparation(데이터 준비): 데이터 정제, 분석용 데이터 선택, 통합, split 등
- Modeling(모델링): 모델링 기법 및 알고리즘 선택, 파라미터 최적화, 모델 테스트 설계, 작성, 평가
- Evaluation(평가): 분석 결과 평가, 모델링 평가, 적용성 평가
- Deployment(배포): 전개 계획 수립, 모니터링, 유지보수 계획 수립, 프로젝트 리뷰
-
SEMMA(Sampling Exploration Modification Modeling Assessment) 분석 방법론
- SAS사 주도 통계 중심의 5단계 방법론
- 분석 절차
- Sampling(샘플링): 통계적 추출, 조건 추출등을 이용한 분석 데이터 생성
- Exploration(탐색): 여러 상관 분석을 통한 분석 데이터 탐색, 데이터 오류 검색, 모델 효율 증대
- Modification(수정): 수량화, 표준화, 각종 변환, 그룹화를 통한 분석 데이터 수정 및 변환, 최적의 모델 구축을 위한 변수 생성, 선택, 변형
- Modeling(모델링): 신경망, Decision Tree, Logistic Regression, 전통적 통계 분석 등을 이용한 모델 구축, 패턴 발견
- Assessment(검증): 모델 평가 검증, 여러 모델 비교
분석 작업 계획
- 데이터 확보 계획
- 분석 목적 달성을 위한 데이터 수집 방법 선정
- 계획 수립 절차
- 목표 정의
- 요구사항 도출: 데이터 및 기술 지원 등과 연관된 요구사항
- 예산안 수립
- 계획 수립: 인력, 일정, 품질 관리
- 분석 절차 및 작업 계획
- 빅데이터 분석 절차
- 문제 인식: 분석 목적 정의(문제는 가설의 형태)
- 연구 조사: 목적을 위한 각종 문헌 조사
- 모형화: 복잡한 문제를 단순화, 문제를 변수 간의 관계로 정의
- 자료 수집: 데이터 수집, 변수 측정
- 자료 분석: 수집 자료 분석, 변수들 간 관계 분석, 데이터 마이닝
- 결과 공유: 분석 결과 제시, 시각화
- WBS(Work Breakdown Structure) 설정
- 데이터 분석 과제 정의 → 데이터 준비 및 탐색 → 데이터 분석 모델링 및 검증 → 산출물 정리
Reference
빅데이터 분석 방법론: https://needjarvis.tistory.com/513, https://codedragon.tistory.com/6904