Writer: Harim Kang
데이터 수집
프로세스
수집 데이터 대상
데이터 수집 방식
정형 데이터 수집
ETL(Extract Transform Load)
FTP(File Transfer Protocol)
API(Application Programming Interface): 시스템 연동을 통해 실시간으로 데이터를 수신할 수 있는 기능 제공 기술
DBToDB: DBMS간 데이터 동기화 및 전송 기술
Rsync(Remote Sync): 서버-클라이언트 방식으로 1:1로 파일과 디렉토리를 동기화하는 기술
Sqoop
비정형 데이터 수집
Crawling: 웹 사이트에서 문서 및 콘텐츠 수집
RSS(Rich Site Summary): XML기반의 배포 프로토콜을 활용하여 수집
Open API: 실시간으로 데이터를 수신하도록 공개된 API를 제공하여 데이터 수집
Scrapy
Apache Kafka
반정형 데이터 수집
Sensing
Streaming
Flume
Scribe
Chukwa
데이터 유형 및 속성 파악
데이터 변환
데이터 비식별화
데이터 품질 검증
데이터 적재
데이터 저장
대용량 데이터 집합을 저장하고 관리하는 시스템으로 큰 저장 공간, 빠른 처리, 확장성, 신뢰성, 가용성 등을 보장
저장 기술
분산 파일 시스템
구글 파일 시스템(GFS)
HDFS(Hadoop Distributed File System)
러스터(Lustre)
DB 클러스터
NoSQL(Not Only SQL)
병렬 DBMS: VoltDB, SAP HANA
네트워크 구성 저장 시스템: SAN(Storage Area Network), NAS(Network Attached Storage)
클라우드 파일 저장 시스템: AWS S3
저장 고려사항
[Tensorflow Certificate] 준비 및 후기 (13) | 2020.12.28 |
---|---|
빅데이터 분석기사 필기 - 빅데이터 분석 기획 #2 (0) | 2020.11.19 |
빅데이터 분석기사 필기 - 빅데이터 분석 기획 #1 (0) | 2020.11.12 |