본문 바로가기
Tech

빅데이터 처리 프레임워크, 아파치 스파크의 간단한 개념과 원리 이해

by 별별 리뷰어 2021. 2. 11.
반응형

스파크의 간단한 소개

기본적으로 스파크는 빅데이터 프로젝트를 위한 여러 개의 상호 연결된 플랫폼, 시스템 및 표준을 제공하는 프레임워크입니다. 스파크도 하둡과 마찬가지로 오픈 소스이며 Apache Software Foundation의 산하에 있습니다. 본질적으로, 오픈 소스란 누구나 자유롭게 사용할 수 있다는 것을 의미합니다.

 

그 외에도, 특정 문제 또는 산업을 목표로 하는 맞춤형 버전을 생산하기 위해 누구나 변경할 수 있습니다. 사용자 지정 버전을 생산하는 회사뿐만 아니라 개인 개발자도들도 핵심 소프트웨어를 지속적으로 개선 및 업데이트하여 더 많은 기능과 효율성을 제공합니다. 스파크는 아파치에서 가장 활발한 프로젝트 중 하나였습니다. 또한 200개 이상의 조직에서 500명 이상의 기여자를 보유하고 있는 모든 오픈 소스 빅데이터 애플리케이션 중 가장 활발한 애플리케이션이기도 했습니다.

 

아파치 스파크

스파크의 특징 및 장점

스파크는 개발자들에 의해 Hadoop보다 더 향상된 프레임워크로 인식되고 있습니다. 스파크는 "메모리" 청크로 데이터를 처리하여 작동하도록 설계되었습니다. 즉, 물리적 자기 하드 디스크의 데이터를 훨씬 더 빠르게 처리할 수 있는 전자 메모리로 전송하여 일부 작업에서는 최대 100배 더 빠르게 처리할 수 있습니다.

 

실제로도 스파크는 매우 대중적이며, 많은 대기업에서도 수백만 페타바이트의 대용량 데이터 스토리지 및 분석에 사용되고 있습니다. 가장 큰 이유는 스파크가 가진 속도 때문입니다. 작년에 스파크는 100 테라바이트의 데이터를 23분 내에 정렬하는 벤치마크 테스트를 완료함으로써 세계 기록을 세웠습니다. 이는 Hadoop이 보유하고 있던 71분이라는 시간보다 훨씬 빠른 시간입니다.

 

Hadoop과 달리 Spark는 자체 파일 시스템을 제공하지 않습니다. 대신 Hadoop의 HDFS, MongoDB, Amazon의 S3 시스템을 비롯한 많은 파일 시스템과 통합할 수 있습니다.

 

스파크는 클러스터 컴퓨팅을 스토리지뿐만 아니라 계산과 분석 성능에도 사용합니다. 즉, 분석을 위해 함께 연결된 여러 컴퓨터 프로세서의 리소스를 사용할 수 있습니다. 분산 스토리지를 사용하면 빅 데이터 분석을 위해 수집된 대규모 데이터 세트를 여러 개의 작은 개별 하드 디스크에 저장할 수 있습니다. 이렇게 하면 디스크에서 정보를 읽는 "헤드"가 디스크 표면 위를 이동하는 물리적 거리가 줄어들기 때문에 읽기/쓰기 작업 속도가 빨라집니다. 처리 능력과 마찬가지로 필요할 때 스토리지를 추가할 수 있으며, 일반적으로 사용할 수 있는 범용 하드웨어를 사용하므로 인프라 비용이 절감됩니다.

 

빅데이터 처리

스파크 응용 분야

또한 Spark는 머신 러닝 애플리케이션에 매우 적합한 것으로 입증되었습니다. 머신 러닝은 컴퓨터 과학 분야에서 가장 빠르게 성장하고 가장 흥미로운 분야 중 하나로, 데이터의 패턴을 발견하고 그들이 수행하려고 하는 모든 작업의 자동 모델링과 분석을 바탕으로 그들의 행동을 조정하도록 교육받고 있습니다.

 

스파크의 또 다른 특징으로는 스파크 스트리밍 기술이 있습니다. 스파크 스트리밍은 비디오 또는 소셜 미디어 데이터를 자동으로 즉시 분석하는 등 스트리밍 실시간 데이터에 대한 분석을 실시간으로 수행할 수 있는 애플리케이션입니다. 마케팅과 같이 빠르게 변화하는 산업에서는 실시간 분석이 큰 이점을 가지고 있기 때문에 스파크 스트리밍 기술을 많이 사용한다고 합니다.

반응형

댓글