상세 컨텐츠

본문 제목

빅데이터 분석기사 필기 - 빅데이터 분석 기획 #1

IT/Certificate

by HarimKang 2020. 11. 12. 17:13

본문

Writer: Harim Kang

빅데이터의 이해

개요 및 활용

  1. 빅데이터 특징
    • 빅데이터는 막대한 양의 정형 및 비정형 데이터를 의미한다.
    • DIKW(Data-Information-Knowledge-Wisdom)피라미드
    • 3V(Volume-Variety-Velocity)의 특징을 가진다. 5V(Veracity-Value), 7V(Validity-Volatility)로 확장
      • Volume(규모) - Variety(다양성) - Velocity(속도)
      • Veracity(신뢰성) - Value(가치)
      • Validity(정확성) - Volatility(휘발성)
    • 빅데이터 유형
      • 정형 데이터: 정형화된 스키마 구조, DBMS에 저장이 가능한 구조
      • 반정형 데이터: 데이터 내부 구조에 메타 데이터가 포함된 구조
      • 비정형 데이터: 수집 데이터가 객체로 구분되는 데이터
    • 데이터 지식경영
      • 암묵지
        • 학습과 경험을 통해 개인에게 존재하지만, 드러나지 않는 지식
        • 공통화: 개인과 개인이 상호작용을 통해 암묵지를 습득 (암묵지 → 암묵지)
        • 내면화: 행동/교육 등을 통해 형식지가 암묵지로 체화 (형식지 → 암묵지)
      • 형식지
        • 문서나 메뉴얼처럼 형성화(문서화)된 지식
        • 표출화: 개인에게 내재된 경험을 형식지로 저장하거나 가공, 분석하는 과정 (암묵지 → 형식지)
        • 연결화: 형식지가 상호결합하면서 새로운 형식지를 창출하는 과정 (형식지 → 형식지)
  2. 빅데이터의 가치
    • 빅데이터를 통하여 기업의 불확실성 제거, 리스크 감소, 경쟁력, 타분야 융합 등의 가치를 창출할 수 있다.
    • 빅데이터 가치
      • 경제적 자산: 새로운 기회 창출
      • 불확실성 제거: 데이터를 기반으로 한 패턴 분석과 전망
      • 리스크 감소: 패턴 분석을 통한 이상 포착
      • 경쟁력: 데이터 분석을 통한 상황 인지, 트렌드 분석을 통한 경쟁력 확보
      • 타 분야 융합: 융합을 통한 새로운 가치 창출
    • 가치 산정은 어렵다
      • 데이터 활용 방식의 다양화로 가치 산정이 어려움
      • 새로운 가치 창출로 기존에 없던 가치라서 산정이 어려움
      • 분석기술의 급속한 발전으로 분석 비용에 대한 가치가 바뀌어서 산정이 어려움
    • 빅데이터의 영향
      • 기업- 혁신 수단 제공, 경쟁력 강화, 생산성 향상
      • 정부- 환경 탐색, 상황 분석, 미래 대응
      • 개인- 목적에 따라 활용
    • 빅데이터 위기 요인
      • 사생활 침해: 목적 외로 활용되는 경우
      • 책임 원칙 훼손: 분석 대상의 사람들이 알고리즘의 희생양이 될 수 있다.
      • 데이터 오용: 언제나 오류가 생길 수 있다는 점
    • 위기 요인에 대한 통제 방안
      • 알고리즘 접근 허용: 데이터 오용의 위기 요소에 대응
      • 책임의 강조: 개인정보 사용자에게 피해에 대한 책임을 지게 함
      • 결과 기반의 책임 적용: 오류가 있는 알고리즘을 통해서 불이익을 줄 수 없도록 장치 마련
  3. 빅데이터 산업의 이해
    • 데이터 활용의 증가 + 데이터 처리 비용 감소 → 빅데이터 산업의 발전
  4. 빅데이터 조직 및 인력
    • 빅데이터 조직 설계
      • 업무 프로세스 이해 및 조직 특성 고려 필요
      • 업무 프로세스: 빅데이터 도입 → 구축 → 운영
      • 설계 절차
        1. 경영 전략 및 사업 전략 수립
        2. 전체 조직 구조 설계
        3. 핵심 업무 프로세스 검토
        4. 팀 조직 구조 설계
        5. 핵심 인력 선발
        6. 역할과 책임 할당
        7. 성과 측정 기준 수립
        8. 역량 교육 및 훈련
      • 조직 구조 유형
        • 집중 구조: 전사 분석 업무를 분석 전담 조직에서 담당
        • 기능 구조: 각 부서에서 분석 업무를 수행
        • 분산 구조: 분석 전담 조직 인력들을 현업 부서로 직접 배치하여 분석 수행
      • 설계 특성
        • 공식화(문서화)
        • 분업화(수평적 분할- 업무 성격에 따라 나눔, 수직적 분할- 수준에 따라 나눔)
        • 직무 전문화, 통제 범위(인원수)
        • 의사소통 및 조정(수직적인 활동-보고, 수평적인 활동-협업)
      • 기업 또는 조직의 지속적인 경영을 위해서는 조직 역량 확보가 필수적
      • 역량 모델링
        • 기업의 목표 달성의 중요한 요소는 우수 성과자의 기여이다.
        • 우수 성과자 행동 특성을 파악하여 직무 역량 요소들을 도출하여 직무별 역량 모델을 만든다.
        • 데이터 사이언티스트의 역량
          • Soft skill: 분석의 통찰력, 다양한 분야와의 협력 능력, 전달력
          • Hard skill: 이론적인 지식, 분석 기술 숙련도
          • 분석 모델링, 데이터 관리, 소프트 스킬, 비즈니스 분석 등
        • 역량 모델 개발 절차
          1. 조직 성과 목표 검토(CSF, 핵심 성공 요인 검토)
          2. 구성원의 행동 특성 도출(우수 성과자 특성 파악)
          3. 구성원 역량 도출(직무별 역량 모델 생성)
          4. 역량 모델 확정(업무 전문가, 인사 담당자의 검토 및 협의)
        • 역량 교육 설계 절차
          1. 요구사항 분석
          2. 역량 모델 검토
          3. 역량 차이 분석
          4. 직무 역량 매트릭스 작성
          5. 직무별 역량 교육 체계 설계
      • 조직성과
        • 개인성과에 대한 관리가 중요, CSF와 KPI(핵심 성과 지표) 정의 및 관리
        • 평가 절차: 목표 설정 → 모니터링 → 목표 조정 → 평가 실시 → 피드백
        • BSC(Balanced Score Card, 균형 성과표)
          • 재무(성과), 고객(고객 관계 관리), 내부 프로세스, 학습 및 성장(미래 지향) 관점에서 균형 있게 목표를 설정 및 관리

빅데이터 기술 및 제도

  1. 빅데이터 플랫폼(Bigdata Platform)

    • 빅데이터에서 가치를 추출하기 위한 일련의 과정을 규격화한 기술

    • 구성요소

      • 데이터 수집 → 데이터 저장 → 데이터 분석 → 데이터 활용
    • 데이터 형식: HTML, XML, CSV, JSON, YAML

    • 구축 SW: R, Oozie, Flume, HBase, Sqoop

    • 분산 컴퓨팅 환경 SW 구성요소

      • Map Reduce(MR)

        • 여러 노드에 Task를 분배하는 방법
        • KV(Key-Value)형태의 데이터를 처리하는 SW로, Map(데이터 취합) → Shuffle(통합) → Reduce(정리) 순서로 처리
        • 하둡에서는 큰 데이터가 들어왔을 때, 64MB단위 블럭으로 분할(HDFS)
      • YARN

        • 클러스터 리소스 관리 및 애플리케이션 라이프 사이클 관리를 위한 아키텍처
        • 자원 관리 기능: Resource Manager(Master, 스케줄러 역할 및 최적화)와 Node Manager(Slave, 자원 관리 및 전달, 컨테이너 관리)로 구성
        • 애플리케이션 라이프 사이클 관리 기: 애플리케이션 마스터와 컨테이너로 구성
      • Apache Spark: 하둡 기반의 대규모 데이터 분산처리 시스템, 실시간 데이터 처리

      • HDFS(하둡 분산 파일 시스템): 대용량 파일을 분산 서버에 저장, 빠르게 처리할 수 있도록 하는 시스템, Name Node(Master, 속성 기록)와 Data Node(Slave, 일정 크기로 나눈 블록으로 저장)로 구성

      • Apache Hadoop: HDFS와 MR을 중심으로 다양한 프로그램으로 구성된 하둡 에코시스템을 가짐, 클라우드 위에서 클러스터를 구성하여 데이터 분석

    • 하둡 에코 시스템(Hadoop Ecosystem)

      • Hadoop Framework를 이루고 있는 다양한 서브 프로젝트들의 모임

      • 하둡은 분산처리를 통해 수많은 데이터를 저장하고 처리하는 기술이다. 데이터를 분산처리 하는 수를 늘리거나 줄여서 저렴한 비용을 사용하여 원하는 크기의 저장소를 가질 수 있다.

      • 위와 같은 장점으로 다양한 분야에서 빅데이터를 접근할 수 있다.

      • 구성

        • 비정형 데이터 수집(Log Collector): Chukwa, Flume, Scribe

        • 정형 데이터 수집(Data Exchange): Sqoop, Hiho

        • 분산 메세지 처리: Kafka

        • 분산 데이터 저장

          • HDFS(Hadoop Distributed File System)
            • 대용량 파일을 분산된 서버에 저장, 데이터를 빠르게 처리할 수 있는 분산 파일 시스템
            • 블록 단위 저장으로 대량 파일 저장 지원, 블록 복제를 이용한 장애 복구(하나의 블록은 3개의 블록으로 복제)
            • 범용 하드웨어에서 동작, 클럭스터에서 실행, 데이터 접근 패턴을 스트리밍으로 지원
            • 읽기 중심: 파일 수정을 제한하여 동작 단순화 및 읽기 속도 증가
        • 분산 데이터 처리

          • Map Reduce

            • 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 SW Framework
            • 간단한 단위작업을 반복하여 처리할 때 사용하는 프로그래밍 모델
            • MapReduce는 Hadoop 클러스터의 데이터를 처리하기 위한 시스템으로 총 2개(Map, Reduce)의 phase로 구성
            • 모든 Map 태스크가 종료되면, MapReduce 시스템은 intermediate 데이터를 Reduce phase를 수행할 노드로 분산하여 전송
        • 분산 데이터 베이스

          • HBase
            • HDFS위에 만들어진 분산 컬럼 기반의 DB
            • HDFS의 데이터에 대한 실시간 임의(비동기) 읽기/쓰기 기능 제공
            • 인터페이스 제공
        • 데이터 가공

          • Pig

            • 대용량 데이터를 분석하기 위한 플랫폼
            • MR를 사용하기 위한 높은 수준의 언어 피그 라틴을 제공
            • MR API를 단순화, SQL과 유사한 형태로 설계
          • Hive

            • 하둡 기반의 DW(Data Warehouse) 솔루션
            • SQL과 매우 유사한 HiveQL 제공
            • 내부적으로 HiveQL이 MR로 변환된다 (Map Reduce Job)
        • 데이터 마이닝

          • Mahout
            • 분산처리가 가능하고 확장성을 가진 기계학습용 데이터 마이닝 라이브러리
            • 협업 필터링 분야에 집중적으로 사용된다(그 외 주요 알고리즘 지원)
        • 실시간 SQL 질의

          • Impala
            • 하둡 기반의 대규모 병렬 처리 실시간 SQL 쿼리 엔진
            • 데이터 조회를 위한 인터페이스로 HiveQL 사용
            • HBase와 연동 가능
        • Workflow 관리

          • Oozie

            • Workflow Scheduler Framework로서, Scheduling(액션 수행), Coordinating(이전 액션에 이은 다음 액션 수행), Managing(액션 결과에 대한 관리)의 기능을 제공한다
        • 분산 Coordination

          • Zookeeper

            • 분산 환경에서 서버들 간 상호 조정이 필요한 다양한 서비스 제공
            • 서비스를 알맞게 분산 시키며 동시 처리
            • 서버에서 처리한 결과를 다른 서버들과도 동기화 및 안정성 보장
            • 클러스터 설정 관리, 리더 채택, 락, 동기화 서비스 제공
  2. 빅데이터와 인공지능

    • 인공지능이란 인간의 지적능력을 인공적으로 구현하여 지능적인 행동과 사고를 모방할 수 있도록 하는 SW
  3. 개인정보보호법/제도

    • 개인정보보호란 정보 주체의 개인정보 자기 결정권을 철저히 보장하는 활동
    • 개인정보는 유출 시 피해가 심각하고, 정보사회의 핵심 인프라이며, 개인정보 자기 통제권이라는 통제 권리가 있다.
    • 관련 법령: 개인 정보 보호법, 정보통신망법, 신용정보법, 위치정보법, 개인정보의 안정성 확보조치 기준
    • 법령을 바탕으로 데이터 수집을 위한 내규 제정 → 데이터 수집 시 가이드라인 제공
  4. 개인정보 활용

    • 개인정보 비식별화
      • 개인정보의 일부 또는 전부를 삭제하거나 대체함으로서 특정 개인을 식별할 수 없도록 하는 조치
      • 절차: 사전검토 → 비식별 조치 → 적정성 평가 → 사후관리
      • 조치 방법: 가명처리, 총계처리, 데이터 삭제, 데이터 범주화(범위화), 데이터 마스킹
      • 비식별 정보를 이용하려면 재식별 가능성을 정기적으로 모니터링 해야함

Reference

아래의 주소들에서 내용을 참고하였습니다. 이미지 출처들도 아래와 같습니다.

관련글 더보기

댓글 영역