상세 컨텐츠

본문 제목

빅데이터 분석기사 필기 - 빅데이터 분석 기획 #2

IT/Certificate

by HarimKang 2020. 11. 19. 11:39

본문

writer: Harim Kang

데이터 분석 계획

분석 방안 수립

  1. 분석 로드맵 설정

    • 분석 로드맵: 단계별로 추진하고자 하는 목표를 명확히 정의, 선/후행 단계를 고려해 단계별로 추진내용을 정렬한 것
    • 단계: 데이터 분석 체계 도입 → 데이터 분석 유효성 검증 → 데이터 분석 확산 및 고도화
  2. 분석 문제 정의

    • 분석 문제: 목표와 현상사이의 차이가 있을 때, 이것의 해결을 요하는 사항을 의미한다.
    • 하/상향식 접근 방식을 반복하면서 상호 보완하여 분석 과제를 발굴 → 분석 과제 정의서
    • 하향식 접근 방식
      • 분석 과제가 정해져 있고, 이에 대한 해법을 찾기 위해 체계적으로 분석
      • 문제 탐색(비즈니스 모델 기반) → 문제 정의(비즈니스 → 데이터) → 다양한 해결방안 탐색 → 타당성(경제, 기술, 데이터, 운영적) 검토 → 선택(최적 대안)
    • 상향식 접근 방식
      • 문제 정의 자체가 어려운 경우에 데이터를 기반으로 문제를 개선하는 방법
      • 디자인 사고 접근법을 사용, 객관적 데이터를 관찰하고 행동을 통해 대상을 이해
      • 비지도 학습 방법: 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터 상태 분석
      • 프로토타이핑 접근법: 시행착오를 통한 문제 해결을 위해 사용, 가설 → 실험 → 테스트 → 결과 → 통찰 및 확인
    • 빅데이터 분석의 유형
      • Optimization: 분석의 대상(문제)와 분석 방법을 알고 있는 경우에 사용, 개선을 통한 최적화 분석
      • Solution: 분석의 대상을 알고, 분석 방법은 모를 때, 분석 주제에 대한 솔루션을 찾는다
      • Insight: 분석 대상을 정확히 모를 때, 기존 분석 방법을 통해서 새로운 통찰을 찾는법
      • Discovery: 분석 대상 및 방법을 모를 때, 발견 접근법을 사용하여 대상을 새롭게 도출
  3. 데이터 분석 방안

    • 빅데이터 분석 방법론

      • 빅데이터를 분석하기 위해 문제를 정의하고 답을 도축하기 위한 체계적인 절차와 처리 방법
      • 계층적 프로세스 모델(Stepwised Process Model)로 3계층 구성
        • Phase(단계): 프로세스 그룹을 통해 완성된 단계별 산출물이 생성됨, Baseline(기준선)으로 설정 관리, Configuration Management(버전관리)등을 통해 통제를 한다.
        • Task: 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목
        • Step: Input, Process & Tool, Output으로 구성된 단위 프로세스(Unit Process)
      • 분석 절차
        1. Planning(분석 기획): 비즈니스 이해 및 프로젝트 정의, 계획 수립
        2. Preparing(데이터 준비): 데이터 정의 및 데이터 스토어 설계, 데이터 수집
        3. Analyzing(데이터 분석): 분석용 데이터 준비, 텍스트 분석, 탐색적 분석(EDA, 기초 통계량 산출, 관계 파악, 시각화), 모델링(데이터 split, 모델링, 알고리즘 작성), 평가 및 검증, 적용 및 운영 방안
        4. Developing(시스템 구현): 시스템 및 아키텍처 설계, 사용자 인터페이스 설계, 구축, 시스템 테스트 및 운영(유닛, 통합, 시스템 테스트)
        5. Deploying(평가 및 배포): 모델 생명주기 설정, 주기적인 평가, 유지보수, 모델 발전계획 수립, 프로젝트 평가 보고
    • KDD(Knowledge Discovery in DBs) 분석 방법론

      • 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론
      • 분석 절차
        1. Selection(데이터 세트 선택): 목표 설정 및 목표 데이터 구성
        2. Preprocessing(전처리): noise, 이상값, 결측값 제거
        3. Transformation(데이터 변환): 변수 선정 및 차원 축소 (효율적인 데이터 마이닝을 위해)
        4. Data Mining(데이터 마이닝): 분석 목적에 따라 데이터 마이닝 기법, 알고리즘 선택, 패턴 찾기, 데이터 분류, 예측
        5. Interpretation/Evaluation(평가): 분석 결과에 대한 해석 및 평가
    • CRISP-DM(Cross Industry Standard Process for Data Mining) 분석 방법론

      • 비즈니스의 이해를 바탕으로 데이터 분석 목적의 6단계로 진행되는 데이터 마이닝 방법론
      • 구성요소
        • Phase(단계): 최상위 레벨
        • Generic Tasks(일반화 태스크): 데이터 마이닝의 단일 프로세스를 수행하는 단위
        • Specialized Tasks(세분화 태스크): 일반화 태스크를 구체적으로 수행하는 레벨
        • Process Instances(프로세스 실행)
      • 분석 절차
        1. Business Understanding(업무 이해): 목적, 상황 파악, 목표 설정, 프로젝트 계획 수립
        2. Data Understanding(데이터 이해): 인사이트 발견, 초기 데이터 수집 및 탐색
        3. Data Preparation(데이터 준비): 데이터 정제, 분석용 데이터 선택, 통합, split 등
        4. Modeling(모델링): 모델링 기법 및 알고리즘 선택, 파라미터 최적화, 모델 테스트 설계, 작성, 평가
        5. Evaluation(평가): 분석 결과 평가, 모델링 평가, 적용성 평가
        6. Deployment(배포): 전개 계획 수립, 모니터링, 유지보수 계획 수립, 프로젝트 리뷰
    • SEMMA(Sampling Exploration Modification Modeling Assessment) 분석 방법론

      • SAS사 주도 통계 중심의 5단계 방법론
      • 분석 절차
        1. Sampling(샘플링): 통계적 추출, 조건 추출등을 이용한 분석 데이터 생성
        2. Exploration(탐색): 여러 상관 분석을 통한 분석 데이터 탐색, 데이터 오류 검색, 모델 효율 증대
        3. Modification(수정): 수량화, 표준화, 각종 변환, 그룹화를 통한 분석 데이터 수정 및 변환, 최적의 모델 구축을 위한 변수 생성, 선택, 변형
        4. Modeling(모델링): 신경망, Decision Tree, Logistic Regression, 전통적 통계 분석 등을 이용한 모델 구축, 패턴 발견
        5. Assessment(검증): 모델 평가 검증, 여러 모델 비교

분석 작업 계획

  1. 데이터 확보 계획
    • 분석 목적 달성을 위한 데이터 수집 방법 선정
    • 계획 수립 절차
      1. 목표 정의
      2. 요구사항 도출: 데이터 및 기술 지원 등과 연관된 요구사항
      3. 예산안 수립
      4. 계획 수립: 인력, 일정, 품질 관리
  2. 분석 절차 및 작업 계획
    • 빅데이터 분석 절차
      1. 문제 인식: 분석 목적 정의(문제는 가설의 형태)
      2. 연구 조사: 목적을 위한 각종 문헌 조사
      3. 모형화: 복잡한 문제를 단순화, 문제를 변수 간의 관계로 정의
      4. 자료 수집: 데이터 수집, 변수 측정
      5. 자료 분석: 수집 자료 분석, 변수들 간 관계 분석, 데이터 마이닝
      6. 결과 공유: 분석 결과 제시, 시각화
    • WBS(Work Breakdown Structure) 설정
      • 데이터 분석 과제 정의 → 데이터 준비 및 탐색 → 데이터 분석 모델링 및 검증 → 산출물 정리

Reference

빅데이터 분석 방법론: https://needjarvis.tistory.com/513, https://codedragon.tistory.com/6904

관련글 더보기

댓글 영역