스파크란 무엇인가

스파크

하둡의 단점을 개선하기 위해 나온 소프트웨어로

Hadoop과는 다른 독립된 프로젝트, Hadoop이 아닌 MapReduce를 대체하는 것

우선 하둡의 구조를 보자. 왜냐면 스파크는 하둡의 단점을 개선하기 위해 나온 것이기 때문.

하둡이란?

여러 컴퓨터를 사용하여 빅데이터를 분산저장, 분산처리할 수 있게 만든 시스템

즉, 빅데이터를 처리하는 시스템

하둡이라는 에코시스템은 단일 솔루션을 제공하는 게아닌 수집, 저장, 분석, 자원관리를 위한 솔루션 등이 포함되어있는 거대한 생태계.

이 생태계는 공통적으로 Hadoop 에서 제공하는 파일시스템(HDFS), 자원관리매니저(YARN), 맵리듀스(MapReduce) 를 사용한다.

하둡의 아키텍쳐를 보면

저장 - HDFS 에 저장하고,

분석작업 - 맵리듀스를 통해 수행

이러한 작업들이 사용하는 자원의 관리는 YARN 이 맡는다.

MapReduce란?

하둡의 맴리듀스는 매핑(mapping)함수, 리듀싱(reducing) 함수로 프로세스된다.

1. 매핑(mapping) 함수: 검색해야할 데이터를 여러 서버에 분배해주는 역할

2. 리듀싱(reducing)함수: 각 서버에서 처리한 데이터(매핑하여 검색한 데이터)를 취합하는 역할

즉 , 하둡은 맵리듀스를 통해 분석 데이터를 처리하는데 맵리듀스를 디스크(disk) 에서 데이터를 처리하기 때문에 속도가 느리다.

하지만 스파크는 데이터 처리를 메모리(memory) 에서 하므로 하둡의 100배 정도 속도가 빠르다.

1. 스파크만 단독 사용 가능

2. 하둡의 맵리듀스의 데이터를 불러와서 스칼라 퀄리로 검색도 가능

(하둡의 HIVE처럼 하둡 분산 파일 시스템의 데이터를 불러올 수 있는데 HIVE 보다는 빠르게 데이터를 불러올 수 있다.)

스파크 SQL 기본 코드 예제 (group by, rank) (0)	2022.09.20
스파크로 하이브(hive) SQL 사용하기(예제:emp 테이블) (1)	2022.09.20
스파크에서 작업이 안되고 계속 에러가 날 때 조치 방법 (0)	2022.09.20
스파크(SPARK) 접속하여 HIVE SQL 사용하기(시작 단계) (0)	2022.09.20
스파크 설치하기 (1)	2022.09.20

Block_Data_eun