Writer: Harim Kang
빅데이터의 이해
개요 및 활용
- 빅데이터 특징
- 빅데이터는 막대한 양의 정형 및 비정형 데이터를 의미한다.
- DIKW(Data-Information-Knowledge-Wisdom)피라미드
- 3V(Volume-Variety-Velocity)의 특징을 가진다. 5V(Veracity-Value), 7V(Validity-Volatility)로 확장
- Volume(규모) - Variety(다양성) - Velocity(속도)
- Veracity(신뢰성) - Value(가치)
- Validity(정확성) - Volatility(휘발성)
- 빅데이터 유형
- 정형 데이터: 정형화된 스키마 구조, DBMS에 저장이 가능한 구조
- 반정형 데이터: 데이터 내부 구조에 메타 데이터가 포함된 구조
- 비정형 데이터: 수집 데이터가 객체로 구분되는 데이터
- 데이터 지식경영
- 암묵지
- 학습과 경험을 통해 개인에게 존재하지만, 드러나지 않는 지식
- 공통화: 개인과 개인이 상호작용을 통해 암묵지를 습득 (암묵지 → 암묵지)
- 내면화: 행동/교육 등을 통해 형식지가 암묵지로 체화 (형식지 → 암묵지)
- 형식지
- 문서나 메뉴얼처럼 형성화(문서화)된 지식
- 표출화: 개인에게 내재된 경험을 형식지로 저장하거나 가공, 분석하는 과정 (암묵지 → 형식지)
- 연결화: 형식지가 상호결합하면서 새로운 형식지를 창출하는 과정 (형식지 → 형식지)
- 빅데이터의 가치
- 빅데이터를 통하여 기업의 불확실성 제거, 리스크 감소, 경쟁력, 타분야 융합 등의 가치를 창출할 수 있다.
- 빅데이터 가치
- 경제적 자산: 새로운 기회 창출
- 불확실성 제거: 데이터를 기반으로 한 패턴 분석과 전망
- 리스크 감소: 패턴 분석을 통한 이상 포착
- 경쟁력: 데이터 분석을 통한 상황 인지, 트렌드 분석을 통한 경쟁력 확보
- 타 분야 융합: 융합을 통한 새로운 가치 창출
- 가치 산정은 어렵다
- 데이터 활용 방식의 다양화로 가치 산정이 어려움
- 새로운 가치 창출로 기존에 없던 가치라서 산정이 어려움
- 분석기술의 급속한 발전으로 분석 비용에 대한 가치가 바뀌어서 산정이 어려움
- 빅데이터의 영향
- 기업- 혁신 수단 제공, 경쟁력 강화, 생산성 향상
- 정부- 환경 탐색, 상황 분석, 미래 대응
- 개인- 목적에 따라 활용
- 빅데이터 위기 요인
- 사생활 침해: 목적 외로 활용되는 경우
- 책임 원칙 훼손: 분석 대상의 사람들이 알고리즘의 희생양이 될 수 있다.
- 데이터 오용: 언제나 오류가 생길 수 있다는 점
- 위기 요인에 대한 통제 방안
- 알고리즘 접근 허용: 데이터 오용의 위기 요소에 대응
- 책임의 강조: 개인정보 사용자에게 피해에 대한 책임을 지게 함
- 결과 기반의 책임 적용: 오류가 있는 알고리즘을 통해서 불이익을 줄 수 없도록 장치 마련
- 빅데이터 산업의 이해
- 데이터 활용의 증가 + 데이터 처리 비용 감소 → 빅데이터 산업의 발전
- 빅데이터 조직 및 인력
- 빅데이터 조직 설계
- 업무 프로세스 이해 및 조직 특성 고려 필요
- 업무 프로세스: 빅데이터 도입 → 구축 → 운영
- 설계 절차
- 경영 전략 및 사업 전략 수립
- 전체 조직 구조 설계
- 핵심 업무 프로세스 검토
- 팀 조직 구조 설계
- 핵심 인력 선발
- 역할과 책임 할당
- 성과 측정 기준 수립
- 역량 교육 및 훈련
- 조직 구조 유형
- 집중 구조: 전사 분석 업무를 분석 전담 조직에서 담당
- 기능 구조: 각 부서에서 분석 업무를 수행
- 분산 구조: 분석 전담 조직 인력들을 현업 부서로 직접 배치하여 분석 수행
- 설계 특성
- 공식화(문서화)
- 분업화(수평적 분할- 업무 성격에 따라 나눔, 수직적 분할- 수준에 따라 나눔)
- 직무 전문화, 통제 범위(인원수)
- 의사소통 및 조정(수직적인 활동-보고, 수평적인 활동-협업)
- 기업 또는 조직의 지속적인 경영을 위해서는 조직 역량 확보가 필수적
- 역량 모델링
- 기업의 목표 달성의 중요한 요소는 우수 성과자의 기여이다.
- 우수 성과자 행동 특성을 파악하여 직무 역량 요소들을 도출하여 직무별 역량 모델을 만든다.
- 데이터 사이언티스트의 역량
- Soft skill: 분석의 통찰력, 다양한 분야와의 협력 능력, 전달력
- Hard skill: 이론적인 지식, 분석 기술 숙련도
- 분석 모델링, 데이터 관리, 소프트 스킬, 비즈니스 분석 등
- 역량 모델 개발 절차
- 조직 성과 목표 검토(CSF, 핵심 성공 요인 검토)
- 구성원의 행동 특성 도출(우수 성과자 특성 파악)
- 구성원 역량 도출(직무별 역량 모델 생성)
- 역량 모델 확정(업무 전문가, 인사 담당자의 검토 및 협의)
- 역량 교육 설계 절차
- 요구사항 분석
- 역량 모델 검토
- 역량 차이 분석
- 직무 역량 매트릭스 작성
- 직무별 역량 교육 체계 설계
- 조직성과
- 개인성과에 대한 관리가 중요, CSF와 KPI(핵심 성과 지표) 정의 및 관리
- 평가 절차: 목표 설정 → 모니터링 → 목표 조정 → 평가 실시 → 피드백
- BSC(Balanced Score Card, 균형 성과표)
- 재무(성과), 고객(고객 관계 관리), 내부 프로세스, 학습 및 성장(미래 지향) 관점에서 균형 있게 목표를 설정 및 관리
빅데이터 기술 및 제도
-
빅데이터 플랫폼(Bigdata Platform)
-
빅데이터에서 가치를 추출하기 위한 일련의 과정을 규격화한 기술
-
구성요소
- 데이터 수집 → 데이터 저장 → 데이터 분석 → 데이터 활용
-
데이터 형식: HTML, XML, CSV, JSON, YAML
-
구축 SW: R, Oozie, Flume, HBase, Sqoop
-
분산 컴퓨팅 환경 SW 구성요소
-
Map Reduce(MR)
- 여러 노드에 Task를 분배하는 방법
- KV(Key-Value)형태의 데이터를 처리하는 SW로, Map(데이터 취합) → Shuffle(통합) → Reduce(정리) 순서로 처리
- 하둡에서는 큰 데이터가 들어왔을 때, 64MB단위 블럭으로 분할(HDFS)
-
YARN
- 클러스터 리소스 관리 및 애플리케이션 라이프 사이클 관리를 위한 아키텍처
- 자원 관리 기능: Resource Manager(Master, 스케줄러 역할 및 최적화)와 Node Manager(Slave, 자원 관리 및 전달, 컨테이너 관리)로 구성
- 애플리케이션 라이프 사이클 관리 기: 애플리케이션 마스터와 컨테이너로 구성
-
Apache Spark: 하둡 기반의 대규모 데이터 분산처리 시스템, 실시간 데이터 처리
-
HDFS(하둡 분산 파일 시스템): 대용량 파일을 분산 서버에 저장, 빠르게 처리할 수 있도록 하는 시스템, Name Node(Master, 속성 기록)와 Data Node(Slave, 일정 크기로 나눈 블록으로 저장)로 구성
-
Apache Hadoop: HDFS와 MR을 중심으로 다양한 프로그램으로 구성된 하둡 에코시스템을 가짐, 클라우드 위에서 클러스터를 구성하여 데이터 분석
-
하둡 에코 시스템(Hadoop Ecosystem)
-
Hadoop Framework를 이루고 있는 다양한 서브 프로젝트들의 모임
-
하둡은 분산처리를 통해 수많은 데이터를 저장하고 처리하는 기술이다. 데이터를 분산처리 하는 수를 늘리거나 줄여서 저렴한 비용을 사용하여 원하는 크기의 저장소를 가질 수 있다.
-
위와 같은 장점으로 다양한 분야에서 빅데이터를 접근할 수 있다.
-
구성
-
비정형 데이터 수집(Log Collector): Chukwa, Flume, Scribe
-
정형 데이터 수집(Data Exchange): Sqoop, Hiho
-
분산 메세지 처리: Kafka
-
분산 데이터 저장
- HDFS(Hadoop Distributed File System)
- 대용량 파일을 분산된 서버에 저장, 데이터를 빠르게 처리할 수 있는 분산 파일 시스템
- 블록 단위 저장으로 대량 파일 저장 지원, 블록 복제를 이용한 장애 복구(하나의 블록은 3개의 블록으로 복제)
- 범용 하드웨어에서 동작, 클럭스터에서 실행, 데이터 접근 패턴을 스트리밍으로 지원
- 읽기 중심: 파일 수정을 제한하여 동작 단순화 및 읽기 속도 증가
-
분산 데이터 처리
-
Map Reduce
- 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 SW Framework
- 간단한 단위작업을 반복하여 처리할 때 사용하는 프로그래밍 모델
- MapReduce는 Hadoop 클러스터의 데이터를 처리하기 위한 시스템으로 총 2개(Map, Reduce)의 phase로 구성
- 모든 Map 태스크가 종료되면, MapReduce 시스템은 intermediate 데이터를 Reduce phase를 수행할 노드로 분산하여 전송
-
분산 데이터 베이스
- HBase
- HDFS위에 만들어진 분산 컬럼 기반의 DB
- HDFS의 데이터에 대한 실시간 임의(비동기) 읽기/쓰기 기능 제공
- 인터페이스 제공
-
데이터 가공
-
Pig
- 대용량 데이터를 분석하기 위한 플랫폼
- MR를 사용하기 위한 높은 수준의 언어 피그 라틴을 제공
- MR API를 단순화, SQL과 유사한 형태로 설계
-
Hive
- 하둡 기반의 DW(Data Warehouse) 솔루션
- SQL과 매우 유사한 HiveQL 제공
- 내부적으로 HiveQL이 MR로 변환된다 (Map Reduce Job)
-
데이터 마이닝
- Mahout
- 분산처리가 가능하고 확장성을 가진 기계학습용 데이터 마이닝 라이브러리
- 협업 필터링 분야에 집중적으로 사용된다(그 외 주요 알고리즘 지원)
-
실시간 SQL 질의
- Impala
- 하둡 기반의 대규모 병렬 처리 실시간 SQL 쿼리 엔진
- 데이터 조회를 위한 인터페이스로 HiveQL 사용
- HBase와 연동 가능
-
Workflow 관리
-
Oozie
- Workflow Scheduler Framework로서, Scheduling(액션 수행), Coordinating(이전 액션에 이은 다음 액션 수행), Managing(액션 결과에 대한 관리)의 기능을 제공한다
-
분산 Coordination
-
Zookeeper
- 분산 환경에서 서버들 간 상호 조정이 필요한 다양한 서비스 제공
- 서비스를 알맞게 분산 시키며 동시 처리
- 서버에서 처리한 결과를 다른 서버들과도 동기화 및 안정성 보장
- 클러스터 설정 관리, 리더 채택, 락, 동기화 서비스 제공
-
빅데이터와 인공지능
- 인공지능이란 인간의 지적능력을 인공적으로 구현하여 지능적인 행동과 사고를 모방할 수 있도록 하는 SW
-
개인정보보호법/제도
- 개인정보보호란 정보 주체의 개인정보 자기 결정권을 철저히 보장하는 활동
- 개인정보는 유출 시 피해가 심각하고, 정보사회의 핵심 인프라이며, 개인정보 자기 통제권이라는 통제 권리가 있다.
- 관련 법령: 개인 정보 보호법, 정보통신망법, 신용정보법, 위치정보법, 개인정보의 안정성 확보조치 기준
- 법령을 바탕으로 데이터 수집을 위한 내규 제정 → 데이터 수집 시 가이드라인 제공
-
개인정보 활용
- 개인정보 비식별화
- 개인정보의 일부 또는 전부를 삭제하거나 대체함으로서 특정 개인을 식별할 수 없도록 하는 조치
- 절차: 사전검토 → 비식별 조치 → 적정성 평가 → 사후관리
- 조치 방법: 가명처리, 총계처리, 데이터 삭제, 데이터 범주화(범위화), 데이터 마스킹
- 비식별 정보를 이용하려면 재식별 가능성을 정기적으로 모니터링 해야함
Reference
아래의 주소들에서 내용을 참고하였습니다. 이미지 출처들도 아래와 같습니다.