Programming

하둡(Hadoop)이란?

주재현

30 Dec 2023 • 7 min read

MSA나 빅데이터, 등등 분산 처리, 비동기 처리 같은 내용을 찾아보다 보면
하둡이라는 말이 자주 등장하는 것을 볼 수 있다

아무튼 하둡이란 간단히 말하면

안정적이고 확장 가능한 분산 컴퓨팅을 위한 오픈 소스 소프트웨어이다

하둡 ?.?

더그 커팅이 '넛치'라는 검색엔진을 개발하는 과정에서 대용량의 비정형 데이터를 기존의 RDB 기술로는 처리가 힘들다는 것을 깨닫고
새로운 기술을 찾는 중 구글에서 발표한 GFS와 MapReduce 관련 논문을 참고하여 개발되었다
이후 아파치 재단의 오픈 소스로 공개되었다

논문이 궁금한 사람은 GFS, MapReduce를 확인해보자
좀 많이 많이 어려움..ㅎ..

결국 분산처리 시스템인 구글 파일 시스템(GFS)을 대체할 수 있는 하둡 분산 파일 시스템(HDFS)
그리고 데이터를 분산시켜 처리한 뒤 하나로 합치는 기술인 MapReduce를 구현한 오픈소스 프레임워크이다

여러 컴퓨터로 구성된 클러스터를 이용하여 방대한 양의 데이터를 처리할 수 있도록 도와주는 프레임워크이다

원래는 하둡파일시스템(HDFS)과 맵리듀스(MapReduce) 프레임워크로 시작되었으나
이제는 하둡 생태계 (Hadoop Ecosystem) 전반을 포함하는 의미가 되었다

하둡 코어 프로젝트

HDFS(분산 데이터 저장)
MapReduce(분산 처리)

하둡 분산형 파일 시스템 (HDFS)

하둡 네트워크에 연결된 기기에 데이터를 저장하는 분산형 파일 시스템

하둡 분산 파일 시스템은 하둡 프레임워크를 위해 자바 언어로 작성된 분산 확장 파일 시스템이다
HDFS는 여러 기계에 대용량 파일을 나눠서 저장해 데이터 안정성을 확보한다

HDFS는 데이터를 저장하면 다수의 노드에 복제 데이터도 함께 저장해 데이터 유실을 방지한다
HDFS에 파일을 저장하거나, 저장된 파일을 조회하려면 스트리밍 방식으로 데이터에 접근해야한다
- 랜덤 방식의 데이터 접근을 고려하고 있지 않음
한번 저장한 데이터는 수정할 수 없고, 읽기만 가능해서 데이터 무결성을 유지한다
데이터 수정은 불가능, 파일 이동, 삭제, 복사할 수 있는 인터페이스를 제공한다