본문 바로가기

전체 글

(108)

몽고디비 출력결과 csv 파일로 내리기

하둡에 있는 파일 몽고디비(mongo db) 로 올리기

오라클에 있는 파일 몽고디비(mongo db) 로 올리기

몽고디비(mongo db) 전체 건수 구하기 db.emp.count()

몽고디비(mongo db) 중복을 제거하는 키워드

리눅스에 있는 데이터로 하이브에서 파티션 테이블 생성하기 파티션 테이블이란 파티션 테이블이란 하나의 서랍장에 모든 데이털르 넣는 게 아니라 각각 서랍별로 보관하는 테이블이다. 그렇기 때문에 특정 조건에 있는 테이블을 스캔할 때, 특정 파티션만 빠르게 스캔할 수 있다. 그래서 회사에서 하둡은 파티션 테이블로 사용하여 데이터를 검색한다. 이번 예제는 하둡이 아닌 리눅스에 있는 파일로 하이브에서 파티션 테이블로 검색해본다. 그럼 파티션 테이블로 검색하는 과정을 알아보자 emp 테이블을 deptno 를 기준으로 한 파티션 테이블을 만들어서 활용할 것이다. 1. 우선 하이브에 파티션 테이블을 생성한다. (deptno2 로 생성) hive> create table emp_partition ( empno int, ename string, job string, mgr int..

스파크 출력 결과 csv 파일 저장하기 스파크 SQL 로 출력한 결과를 csv 파일에 저장하는 기본 코드 scala> sql(""" 출력 코드""").coalesce(1).write.option("header","true").option("sep",",").mode("overwrite").csv("/home/oracle/ff") 설명 coalesce(1) : 하나의 파일에 모두 담아라 괄호에 숫자 2를 쓰면 2개의 파일에 나눠 담아라는 뜻이다. write.option("header","true") : 컬럼명(header) 이 나오게 해라 option("sep",",') : 콤마(,) 로 구분하는 csv 파일 형태로 저장해라 mode("overwrite").csv("/home/oracle/ff"): /home/oracle/ff 라는 폴더를 만들..

스파크로 WHERE 절 서브쿼리 문제 풀기 스파크에서도 SQL 서브쿼리 및 조인이 가능하다! 스파크 접속 (base) [oracle@centos ~]$ spark-shell 스파크 종료 scala> exit 혹은 scala> :quit 스파크에 접속하자 WHERE 절 서브쿼리 문제 1. ALLEN 보다 늦게 입사한 사원들의 이름, 입사일을 출력해보자 scala> sql(""" select ename, hiredate from emp where hiredate > ( select hiredate from emp where ename='ALLEN') """).show() +------+----------+ | ename| hiredate| +------+----------+ | KING|1981-11-17| | BLAKE|1981-05-01| | C..

이전 1 ··· 8 9 10 11 12 13 14 다음

티스토리툴바