빅데이터의 이해

개요 및 활용

빅데이터 특징
- 빅데이터는 막대한 양의 정형 및 비정형 데이터를 의미한다.
- DIKW(Data-Information-Knowledge-Wisdom)피라미드
- 3V(Volume-Variety-Velocity)의 특징을 가진다. 5V(Veracity-Value), 7V(Validity-Volatility)로 확장
  - Volume(규모) - Variety(다양성) - Velocity(속도)
  - Veracity(신뢰성) - Value(가치)
  - Validity(정확성) - Volatility(휘발성)
- 빅데이터 유형
  - 정형 데이터: 정형화된 스키마 구조, DBMS에 저장이 가능한 구조
  - 반정형 데이터: 데이터 내부 구조에 메타 데이터가 포함된 구조
  - 비정형 데이터: 수집 데이터가 객체로 구분되는 데이터
- 데이터 지식경영
  - 암묵지
    - 학습과 경험을 통해 개인에게 존재하지만, 드러나지 않는 지식
    - 공통화: 개인과 개인이 상호작용을 통해 암묵지를 습득 (암묵지 → 암묵지)
    - 내면화: 행동/교육 등을 통해 형식지가 암묵지로 체화 (형식지 → 암묵지)
  - 형식지
    - 문서나 메뉴얼처럼 형성화(문서화)된 지식
    - 표출화: 개인에게 내재된 경험을 형식지로 저장하거나 가공, 분석하는 과정 (암묵지 → 형식지)
    - 연결화: 형식지가 상호결합하면서 새로운 형식지를 창출하는 과정 (형식지 → 형식지)
빅데이터의 가치
- 빅데이터를 통하여 기업의 불확실성 제거, 리스크 감소, 경쟁력, 타분야 융합 등의 가치를 창출할 수 있다.
- 빅데이터 가치
  - 경제적 자산: 새로운 기회 창출
  - 불확실성 제거: 데이터를 기반으로 한 패턴 분석과 전망
  - 리스크 감소: 패턴 분석을 통한 이상 포착
  - 경쟁력: 데이터 분석을 통한 상황 인지, 트렌드 분석을 통한 경쟁력 확보
  - 타 분야 융합: 융합을 통한 새로운 가치 창출
- 가치 산정은 어렵다
  - 데이터 활용 방식의 다양화로 가치 산정이 어려움
  - 새로운 가치 창출로 기존에 없던 가치라서 산정이 어려움
  - 분석기술의 급속한 발전으로 분석 비용에 대한 가치가 바뀌어서 산정이 어려움
- 빅데이터의 영향
  - 기업- 혁신 수단 제공, 경쟁력 강화, 생산성 향상
  - 정부- 환경 탐색, 상황 분석, 미래 대응
  - 개인- 목적에 따라 활용
- 빅데이터 위기 요인
  - 사생활 침해: 목적 외로 활용되는 경우
  - 책임 원칙 훼손: 분석 대상의 사람들이 알고리즘의 희생양이 될 수 있다.
  - 데이터 오용: 언제나 오류가 생길 수 있다는 점
- 위기 요인에 대한 통제 방안
  - 알고리즘 접근 허용: 데이터 오용의 위기 요소에 대응
  - 책임의 강조: 개인정보 사용자에게 피해에 대한 책임을 지게 함
  - 결과 기반의 책임 적용: 오류가 있는 알고리즘을 통해서 불이익을 줄 수 없도록 장치 마련
빅데이터 산업의 이해
- 데이터 활용의 증가 + 데이터 처리 비용 감소 → 빅데이터 산업의 발전
빅데이터 조직 및 인력
- 빅데이터 조직 설계
  - 업무 프로세스 이해 및 조직 특성 고려 필요
  - 업무 프로세스: 빅데이터 도입 → 구축 → 운영
  - 설계 절차
    1. 경영 전략 및 사업 전략 수립
    2. 전체 조직 구조 설계
    3. 핵심 업무 프로세스 검토
    4. 팀 조직 구조 설계
    5. 핵심 인력 선발
    6. 역할과 책임 할당
    7. 성과 측정 기준 수립
    8. 역량 교육 및 훈련
  - 조직 구조 유형
    - 집중 구조: 전사 분석 업무를 분석 전담 조직에서 담당
    - 기능 구조: 각 부서에서 분석 업무를 수행
    - 분산 구조: 분석 전담 조직 인력들을 현업 부서로 직접 배치하여 분석 수행
  - 설계 특성
    - 공식화(문서화)
    - 분업화(수평적 분할- 업무 성격에 따라 나눔, 수직적 분할- 수준에 따라 나눔)
    - 직무 전문화, 통제 범위(인원수)
    - 의사소통 및 조정(수직적인 활동-보고, 수평적인 활동-협업)
  - 기업 또는 조직의 지속적인 경영을 위해서는 조직 역량 확보가 필수적
  - 역량 모델링
    - 기업의 목표 달성의 중요한 요소는 우수 성과자의 기여이다.
    - 우수 성과자 행동 특성을 파악하여 직무 역량 요소들을 도출하여 직무별 역량 모델을 만든다.
    - 데이터 사이언티스트의 역량
      - Soft skill: 분석의 통찰력, 다양한 분야와의 협력 능력, 전달력
      - Hard skill: 이론적인 지식, 분석 기술 숙련도
      - 분석 모델링, 데이터 관리, 소프트 스킬, 비즈니스 분석 등
    - 역량 모델 개발 절차
      1. 조직 성과 목표 검토(CSF, 핵심 성공 요인 검토)
      2. 구성원의 행동 특성 도출(우수 성과자 특성 파악)
      3. 구성원 역량 도출(직무별 역량 모델 생성)
      4. 역량 모델 확정(업무 전문가, 인사 담당자의 검토 및 협의)
    - 역량 교육 설계 절차
      1. 요구사항 분석
      2. 역량 모델 검토
      3. 역량 차이 분석
      4. 직무 역량 매트릭스 작성
      5. 직무별 역량 교육 체계 설계
  - 조직성과
    - 개인성과에 대한 관리가 중요, CSF와 KPI(핵심 성과 지표) 정의 및 관리
    - 평가 절차: 목표 설정 → 모니터링 → 목표 조정 → 평가 실시 → 피드백
    - BSC(Balanced Score Card, 균형 성과표)
      - 재무(성과), 고객(고객 관계 관리), 내부 프로세스, 학습 및 성장(미래 지향) 관점에서 균형 있게 목표를 설정 및 관리

빅데이터 기술 및 제도

빅데이터 플랫폼(Bigdata Platform)
- 빅데이터에서 가치를 추출하기 위한 일련의 과정을 규격화한 기술
- 구성요소
  - 데이터 수집 → 데이터 저장 → 데이터 분석 → 데이터 활용
- 데이터 형식: HTML, XML, CSV, JSON, YAML
- 구축 SW: R, Oozie, Flume, HBase, Sqoop
- 분산 컴퓨팅 환경 SW 구성요소
  - Map Reduce(MR)
    - 여러 노드에 Task를 분배하는 방법
    - KV(Key-Value)형태의 데이터를 처리하는 SW로, Map(데이터 취합) → Shuffle(통합) → Reduce(정리) 순서로 처리
    - 하둡에서는 큰 데이터가 들어왔을 때, 64MB단위 블럭으로 분할(HDFS)
  - YARN
    - 클러스터 리소스 관리 및 애플리케이션 라이프 사이클 관리를 위한 아키텍처
    - 자원 관리 기능: Resource Manager(Master, 스케줄러 역할 및 최적화)와 Node Manager(Slave, 자원 관리 및 전달, 컨테이너 관리)로 구성
    - 애플리케이션 라이프 사이클 관리 기: 애플리케이션 마스터와 컨테이너로 구성
  - Apache Spark: 하둡 기반의 대규모 데이터 분산처리 시스템, 실시간 데이터 처리
  - HDFS(하둡 분산 파일 시스템): 대용량 파일을 분산 서버에 저장, 빠르게 처리할 수 있도록 하는 시스템, Name Node(Master, 속성 기록)와 Data Node(Slave, 일정 크기로 나눈 블록으로 저장)로 구성
  - Apache Hadoop: HDFS와 MR을 중심으로 다양한 프로그램으로 구성된 하둡 에코시스템을 가짐, 클라우드 위에서 클러스터를 구성하여 데이터 분석
- 하둡 에코 시스템(Hadoop Ecosystem)
  - Hadoop Framework를 이루고 있는 다양한 서브 프로젝트들의 모임
  - 하둡은 분산처리를 통해 수많은 데이터를 저장하고 처리하는 기술이다. 데이터를 분산처리 하는 수를 늘리거나 줄여서 저렴한 비용을 사용하여 원하는 크기의 저장소를 가질 수 있다.
  - 위와 같은 장점으로 다양한 분야에서 빅데이터를 접근할 수 있다.
  - 구성
    - 비정형 데이터 수집(Log Collector): Chukwa, Flume, Scribe
    - 정형 데이터 수집(Data Exchange): Sqoop, Hiho
    - 분산 메세지 처리: Kafka
    - 분산 데이터 저장
      - HDFS(Hadoop Distributed File System)
        
        대용량 파일을 분산된 서버에 저장, 데이터를 빠르게 처리할 수 있는 분산 파일 시스템
        
        블록 단위 저장으로 대량 파일 저장 지원, 블록 복제를 이용한 장애 복구(하나의 블록은 3개의 블록으로 복제)
        
        범용 하드웨어에서 동작, 클럭스터에서 실행, 데이터 접근 패턴을 스트리밍으로 지원
        
        읽기 중심: 파일 수정을 제한하여 동작 단순화 및 읽기 속도 증가
    - 분산 데이터 처리
      - Map Reduce
        
        대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 SW Framework
        
        간단한 단위작업을 반복하여 처리할 때 사용하는 프로그래밍 모델
        
        MapReduce는 Hadoop 클러스터의 데이터를 처리하기 위한 시스템으로 총 2개(Map, Reduce)의 phase로 구성
        
        모든 Map 태스크가 종료되면, MapReduce 시스템은 intermediate 데이터를 Reduce phase를 수행할 노드로 분산하여 전송
    - 분산 데이터 베이스
      - HBase
        
        HDFS위에 만들어진 분산 컬럼 기반의 DB
        
        HDFS의 데이터에 대한 실시간 임의(비동기) 읽기/쓰기 기능 제공
        
        인터페이스 제공
    - 데이터 가공
      - Pig
        
        대용량 데이터를 분석하기 위한 플랫폼
        
        MR를 사용하기 위한 높은 수준의 언어 피그 라틴을 제공
        
        MR API를 단순화, SQL과 유사한 형태로 설계
      - Hive
        
        하둡 기반의 DW(Data Warehouse) 솔루션
        
        SQL과 매우 유사한 HiveQL 제공
        
        내부적으로 HiveQL이 MR로 변환된다 (Map Reduce Job)
    - 데이터 마이닝
      - Mahout
        
        분산처리가 가능하고 확장성을 가진 기계학습용 데이터 마이닝 라이브러리
        
        협업 필터링 분야에 집중적으로 사용된다(그 외 주요 알고리즘 지원)
    - 실시간 SQL 질의
      - Impala
        
        하둡 기반의 대규모 병렬 처리 실시간 SQL 쿼리 엔진
        
        데이터 조회를 위한 인터페이스로 HiveQL 사용
        
        HBase와 연동 가능
    - Workflow 관리
      - Oozie
        
        Workflow Scheduler Framework로서, Scheduling(액션 수행), Coordinating(이전 액션에 이은 다음 액션 수행), Managing(액션 결과에 대한 관리)의 기능을 제공한다
    - 분산 Coordination
      - Zookeeper
        
        분산 환경에서 서버들 간 상호 조정이 필요한 다양한 서비스 제공
        
        서비스를 알맞게 분산 시키며 동시 처리
        
        서버에서 처리한 결과를 다른 서버들과도 동기화 및 안정성 보장
        
        클러스터 설정 관리, 리더 채택, 락, 동기화 서비스 제공
빅데이터와 인공지능
- 인공지능이란 인간의 지적능력을 인공적으로 구현하여 지능적인 행동과 사고를 모방할 수 있도록 하는 SW
개인정보보호법/제도
- 개인정보보호란 정보 주체의 개인정보 자기 결정권을 철저히 보장하는 활동
- 개인정보는 유출 시 피해가 심각하고, 정보사회의 핵심 인프라이며, 개인정보 자기 통제권이라는 통제 권리가 있다.
- 관련 법령: 개인 정보 보호법, 정보통신망법, 신용정보법, 위치정보법, 개인정보의 안정성 확보조치 기준
- 법령을 바탕으로 데이터 수집을 위한 내규 제정 → 데이터 수집 시 가이드라인 제공
개인정보 활용
- 개인정보 비식별화
  - 개인정보의 일부 또는 전부를 삭제하거나 대체함으로서 특정 개인을 식별할 수 없도록 하는 조치
  - 절차: 사전검토 → 비식별 조치 → 적정성 평가 → 사후관리
  - 조치 방법: 가명처리, 총계처리, 데이터 삭제, 데이터 범주화(범위화), 데이터 마스킹
  - 비식별 정보를 이용하려면 재식별 가능성을 정기적으로 모니터링 해야함

Reference

아래의 주소들에서 내용을 참고하였습니다. 이미지 출처들도 아래와 같습니다.

Hadoop Eco-System: https://1004jonghee.tistory.com/m/entry/1004jonghee-하둡에코시스템Hadoop-Eco-System-Ver-10?category=419383
https://wikidocs.net/22651
Map Reduce: https://12bme.tistory.com/154
HBase: https://cyberx.tistory.com/164
Hive: https://blog.acronym.co.kr/387
Oozie: https://seamless.tistory.com/31

Zookeeper: engkimbs.tistory.com/660

저작자표시 변경금지 (새창열림)

'IT > Certificate' 카테고리의 다른 글

[Tensorflow Certificate] 준비 및 후기 (13)	2020.12.28
빅데이터 분석기사 필기 - 빅데이터 분석 기획 #3 (0)	2020.11.19
빅데이터 분석기사 필기 - 빅데이터 분석 기획 #2 (0)	2020.11.19

DAVINCI - AI

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

빅데이터의 이해

개요 및 활용

빅데이터 기술 및 제도

Reference

'IT > Certificate' 카테고리의 다른 글

관련글 더보기

추가 정보

인기글

최신글

티스토리툴바