'빅데이터' 카테고리의 글 목록

HDFS 명령어 및 데이터 삽입 가이드

1. 먼저 알아둬야 할 것중요한 사실 하나는, Hadoop 파일 시스템은 Linux OS 자체의 파일 시스템과는 별도로 운영된다는 점입니다. 즉, HDFS에 올라간 파일들은 ls 같은 명령어로 확인할 수 없고, 파일 경로도 일반적인 파일들과는 다릅니다. HDFS 내의 파일을 조회/생성/삭제하거나 HDFS의 상태를 확인하기 위해선 모든 명령어 앞에 hdfs 를 붙여야 하는데요. 구체적으로 어떤 명령어가 존재하고, 또 어떻게 데이터를 HDFS에 추가하는지를 정리하였습니다. 2. HDFS 명령어의 종류2-1. dfs파일 시스템을 관리하기 위한 명령어입니다. 일반적인 리눅스 명령어 앞에 hdfs dfs -(또는 hadoop fs -) 붙임으로써 사용 가능하고, HDFS 내의 파일 및 디렉토리를 조회하거나 생성/..

format_list_bulleted 빅데이터
· 2024. 5. 26.
textsms

Hortonworks Data Platform 설치 방법 3 (Docker)

해당 포스트는 “하둡 테스트베드(Hortonworks Data Platform, HDP) 설치”로부터 넘어왔습니다. Hortonworks Data Platform (HDP)을 Docker 컨테이너 기반으로 구축하는 가이드입니다. Docker 설치 repository 설치 sudo apt-get update sudo apt-get install ca-certificates curl gnupg lsb-release curl -fsSL https://download.docker.com/linux/debian/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg echo \ "deb [arch=$(dpkg --print-archit..

format_list_bulleted 빅데이터
· 2024. 4. 6.
textsms

Hortonworks Data Platform 설치 방법 2 (VMware/VirtualBox)

해당 포스트는 “하둡 테스트베드(Hortonworks Data Platform, HDP) 설치”로부터 넘어왔습니다. Hortonworks Data Platform (HDP)을 가상머신 소프트웨어(Vmware/VirtualBox)를 통해 구축하는 가이드입니다. HDP용 가상머신(VM) 이미지 준비 각 소프트웨어에 맞춰 아래와 같이 사전에 빌드된 가상머신 이미지 파일을 구할 수 있습니다. # VirtualBox 용 wget https://archive.cloudera.com/hwx-sandbox/hdp/hdp-3.0.1/HDP_3.0.1_virtualbox_181205.ova # Vmware 용 wget https://archive.cloudera.com/hwx-sandbox/hdp/hdp-3.0.1/HDP..

format_list_bulleted 빅데이터
· 2024. 4. 6.
textsms

Hortonworks Data Platform 설치 방법 1 (Google Cloud Platform)

해당 포스트는 “하둡 테스트베드(Hortonworks Data Platform, HDP) 설치”로부터 넘어왔습니다. Hortonworks Data Platform (HDP)을 클라우드 서비스 플랫폼에 설치하는 가이드라인입니다. 알려진 서비스 중, 무료로 클라우드를 제공하는 기간이 가장 긴 Google Cloud Platform에서 구축을 수행하였습니다. Google Cloud Platform (GCP) 무료 계정 생성 아래 주소로 들어가 우측 상단 무료로 시작하기 버튼을 클릭합니다. 인적 사항과 신용 카드 정보를 쭉 입력하면 무료 계정을 생성할 수 있습니다. https://cloud.google.com/gcp https://cloud.google.com/gcp cloud.google.com GCP 계정을..

format_list_bulleted 빅데이터
· 2024. 4. 6.
textsms

하둡 테스트베드 (Hortonworks Data Platform, HDP) 설치

하둡(Hadoop)으로 빅데이터 프레임워크를 체험해보려고 하니, 하둡 주변에 딸린 소프트웨어가 한두 가지가 아닌 것을 쉽게 알 수 있습니다. 이들을 하나하나 설치하고 연동하려면 복잡한 작업과 많은 노동이 요구될 것입니다. 다행히도, Hortonworks라는 곳에서 하둡 입문자를 위해 실습용 가상 테스트베드 솔루션을 제공하고 있습니다. 이른바 HDP(Hortonworks Data Platform)라는 프로젝트를 말이죠. HDP를 이용해서 하둡 에코시스템의 기본 구성 요소인 HDFS, MapReduce, YARN은 물론 Hive, Spark, Zookeeper, Zeppelin 등등 다양한 프레임워크를 쉽게 경험해볼 수 있습니다. HDP 설치HDP는 가상머신(VM) 소프트웨어용 이미지 또는 Docker 이..

format_list_bulleted 빅데이터
· 2024. 4. 6.
textsms

Hadoop의 3요소 (HDFS, MapReduce, Yarn)

Hadoop이 지금에서야 Spark, Hive와 같이 다양한 오픈소스 프로젝트가 결합되서 쓰이지만, 초창기의 시스템 뼈대는 HDFS와 MapReduce로부터 시작되었습니다. 얼마 안가 Hadoop이 v2.0으로 버전업 되면서 MapReduce의 역할 일부가 YARN이라는 구성 요소로 떨어져 나와, 마침내 HDFS, MapReduce, YARN의 3진 체계가 이루어졌습니다. 3가지 각각의 요소의 기능은 다음과 같습니다. HDFS: 거대한 데이터를 여러 컴퓨팅 노드에 나눠 저장하는 분산 스토리지 시스템 MapReduce: 다량의 데이터를 집계하기 위한 분산 데이터 처리 엔진 YARN: Hadoop 클러스터 전체에서 수행되는 작업과 필요한 리소스를 관리하는 모듈 1. HDFS 빅 데이터라고 하면 "데이터가 개..

format_list_bulleted 빅데이터
· 2023. 12. 24.
textsms