반응형
Hadoop이 지금에서야 Spark, Hive와 같이 다양한 오픈소스 프로젝트가 결합되서 쓰이지만, 초창기의 시스템 뼈대는 HDFS와 MapReduce로부터 시작되었습니다. 얼마 안가 Hadoop이 v2.0으로 버전업 되면서 MapReduce의 역할 일부가 YARN이라는 구성 요소로 떨어져 나와, 마침내 HDFS, MapReduce, YARN의 3진 체계가 이루어졌습니다. 3가지 각각의 요소의 기능은 다음과 같습니다. HDFS: 거대한 데이터를 여러 컴퓨팅 노드에 나눠 저장하는 분산 스토리지 시스템 MapReduce: 다량의 데이터를 집계하기 위한 분산 데이터 처리 엔진 YARN: Hadoop 클러스터 전체에서 수행되는 작업과 필요한 리소스를 관리하는 모듈 1. HDFS 빅 데이터라고 하면 "데이터가 개..
빅데이터(Big Data), 문자 그대로 데이터가 정말 많다는 것을 표현합니다. ‘하둡(Hadoop)’은 그 빅데이터를 처리하기 위한 대표적인 시스템이구요. 그러나 단순히 속 뜻대로 데이터 양이 많은 정도라면, 빅데이터는 왜 별개의 기술 분야처럼 구분되어 일부 서버 개발자나 데이터 사이언티스트들의 기본적인 테크 코스가 되었을까요? 좀 더 구체화해보면, 1) 빅데이터는 어떤 시스템 요구 사항을 충족해야하며, 2) 하둡은 어떤 의미에서 빅데이터에 어울리는 시스템 아키텍쳐인지 알아볼 필요가 있습니다. 1. 분산 저장/처리 시스템이 필요한 이유 빅 데이터는 어느 정도를 빅 데이터라고 부를까요? GB 정도의 단위는 어림도 없고, 최소한 TB 단위부터 시작해야 할 것입니다. 그것도 매일 그 정도의 새로운 데이터가 ..