Writer: Harim Kang
빅데이터 플랫폼(Bigdata Platform)
빅데이터에서 가치를 추출하기 위한 일련의 과정을 규격화한 기술
구성요소
데이터 형식: HTML, XML, CSV, JSON, YAML
구축 SW: R, Oozie, Flume, HBase, Sqoop
분산 컴퓨팅 환경 SW 구성요소
Map Reduce(MR)
YARN
Apache Spark: 하둡 기반의 대규모 데이터 분산처리 시스템, 실시간 데이터 처리
HDFS(하둡 분산 파일 시스템): 대용량 파일을 분산 서버에 저장, 빠르게 처리할 수 있도록 하는 시스템, Name Node(Master, 속성 기록)와 Data Node(Slave, 일정 크기로 나눈 블록으로 저장)로 구성
Apache Hadoop: HDFS와 MR을 중심으로 다양한 프로그램으로 구성된 하둡 에코시스템을 가짐, 클라우드 위에서 클러스터를 구성하여 데이터 분석
하둡 에코 시스템(Hadoop Ecosystem)
Hadoop Framework를 이루고 있는 다양한 서브 프로젝트들의 모임
하둡은 분산처리를 통해 수많은 데이터를 저장하고 처리하는 기술이다. 데이터를 분산처리 하는 수를 늘리거나 줄여서 저렴한 비용을 사용하여 원하는 크기의 저장소를 가질 수 있다.
위와 같은 장점으로 다양한 분야에서 빅데이터를 접근할 수 있다.
구성
비정형 데이터 수집(Log Collector): Chukwa, Flume, Scribe
정형 데이터 수집(Data Exchange): Sqoop, Hiho
분산 메세지 처리: Kafka
분산 데이터 저장
분산 데이터 처리
Map Reduce
분산 데이터 베이스
데이터 가공
Pig
Hive
데이터 마이닝
실시간 SQL 질의
Workflow 관리
Oozie
분산 Coordination
Zookeeper
빅데이터와 인공지능
개인정보보호법/제도
개인정보 활용
아래의 주소들에서 내용을 참고하였습니다. 이미지 출처들도 아래와 같습니다.
[Tensorflow Certificate] 준비 및 후기 (13) | 2020.12.28 |
---|---|
빅데이터 분석기사 필기 - 빅데이터 분석 기획 #3 (0) | 2020.11.19 |
빅데이터 분석기사 필기 - 빅데이터 분석 기획 #2 (0) | 2020.11.19 |