빅데이터 처리용 오픈 소스 프레임워크
빅데이터에 대해 알게 되면 하둡이란 단어가 무조건 따라오게 됩니다. 간단히 말해, 하둡은 빅데이터 처리를 위한 기본적으로 누구나 무료로 사용하거나 수정할 수 있는 오픈 소스 프로그램이라고 생각할 수 있습니다. 하둡은 모듈로 구성되어 있으며, 각 모듈은 빅데이터 분석을 위해 설계된 컴퓨터 시스템에 필수적인 작업을 수행합니다.
하둡은 오픈 소스 소프트웨어를 생산하는 비영리 단체인 아파치 소프트웨어 재단에 의해 2005년에 출시되었습니다. Hadoop의 개발은 하나의 물리적 스토리지 장치에 저장 및 액세스할 수 있는 것보다 훨씬 큰 데이터셋을 저장하고 분석할 수 있는 것이 중요해지면서 시작되었습니다.
물리적 스토리지 디바이스가 커질수록 디스크에서 데이터를 읽는 구성 요소가 지정된 세그먼트로 이동하는 데 시간이 더 오래 걸립니다. 하지만 병렬로 작동하는 소형 장치가 여러대가 되면 하나의 대형 장치보다 효율적이게 됩니다.
하둡의 4가지 기능 및 특징
1. 분산 파일 시스템: 다수의 연결된 스토리지 장치에 쉽게 액세스할 수 있는 형식으로 데이터를 저장할 수 있습니다. 파일 시스템(file system)은 데이터를 저장하기 위해 컴퓨터에서 사용하는 방법이므로 찾아서 사용할 수 있습니다. 일반적으로 컴퓨터의 운영 체제에 의해 결정되지만 Hadoop 시스템은 호스트 컴퓨터의 파일 시스템 위에 "위" 있는 자체 파일 시스템을 사용합니다. 즉, 지원되는 OS를 실행하는 모든 컴퓨터를 사용하여 액세스할 수 있습니다.
2. 맵리듀스: MapReduce는 이 모듈이 수행하는 두 가지 기본 연산, 즉 데이터베이스로부터 데이터를 읽고, 분석에 적합한 형식으로 저장 및 수학적 연산 수행을 합니다
3. 하둡 Common: 사용자의 컴퓨터 시스템(Windows, Unix 등)이 Hadoop 파일 시스템에 저장된 데이터를 읽는 데 필요한 도구를 제공합니다.
4. YARN: 이 모듈은 데이터를 저장하고 분석을 실행하는 시스템의 리소스를 관리합니다.
Hadoop의 적용법
이 시스템은 일반 하드웨어 전반에 걸쳐 데이터 저장 및 처리를 제공하는 데 가장 널리 사용되는 시스템입니다. 즉, 해당 작업에 맞게 맞춤 제작된 값비싼 맞춤형 시스템과 달리 비교적 저렴하고 기성품 시스템이 서로 연결되어 있습니다. 실제로 포춘 500대 기업의 절반 이상이 이를 이용하고 있다고 주장합니다.
거의 대부분의 기업들은 자신들만의 빅데이터를 처리해야할 필요가 있기 때문에, 자신의 목적을 위해 그것을 자유롭게 변경하고 있습니다. 예를 들어, 아마존과 구글 같은 전문 엔지니어들에 의해 만들어진 소프트웨어 수정은 개발 커뮤니티에 다시 공급됩니다. 이러한 형태의 개인 및 기업의 개발자들과 상용 사용자 간의 협업 개발은 오픈 소스 소프트웨어의 핵심 기능입니다.
원시 상태에서 Apache가 "http://hadoop.apache.org/"에서 제공하는 기본 모듈을 사용하면 IT 전문가에게도 매우 복잡할 수 있습니다. 따라서 Cloudera와 같은 다양한 상용 버전이 개발되어 하둡 시스템 설치 및 실행 작업을 간소화하고 교육 및 지원 서비스를 제공하고 있습니다.
시스템의 유연한 특성 덕분에 기업은 비즈니스 확장에 따라 데이터 분석 작업을 확장하고 조정할 수 있습니다. 그리고 그 배경은 오픈 소스 커뮤니티의 지원이 빅데이터 분석을 모든 사람이 보다 쉽게 이용할 수 있도록 하는 데 큰 진전을 이루었습니다.
'Tech' 카테고리의 다른 글
스트레스를 감지하는 웨어러블 센서 칩의 원리 (0) | 2021.02.18 |
---|---|
자연어 처리(NLP)의 간단한 이해와 적용 사례들 (0) | 2021.02.16 |
빅데이터 처리 프레임워크, 아파치 스파크의 간단한 개념과 원리 이해 (0) | 2021.02.11 |
인공지능 언어 모델 GPT-3의 간단한 이해와 원리 (1) | 2021.02.10 |
카프카(Kafka)의 간단한 개념과 원리 (0) | 2021.02.10 |
댓글