[Hive] 기본 개념 정리

Data Engineering/Hive

keyhong-DE 2023. 7. 1. 12:51

update, insert, delete 등의 트랜잭션이 기록되지 않는다. 내부적으로는 실제 데이터베이스가 없기 때문이다.
단지 매퍼와 리듀서를 통과하는 거대한 텍스트 파일만 존재
HiveQL은 SQL의 변형이다.
- 일반적인 DB의 구체화뷰(Materialized View)와는 다르다.
- Hive에서의 view는 논리 구조이며 데이터를 실제로 저장하지는 않는다.
- 어떤 쿼리의 결과를 View에 저장하고, 그 View를 다음 쿼리의 테이블로 이용하는 등 연계해서 사용 가능하다. 하지만 너무 복잡한 쿼리를 해야 한다면 Pig나 Spark가 좀 더 적합하다.
- HiveQL은 데이터를 구조화하고 파티션을 나누어 저장하는 여러가지 옵션이 있어 데이터를 다양한 곳에서 사용 가능하다.

Hive CLI는 Input Command 를 받아들이고 파싱한다.

adhoc 쿼리 (상황에 맞춰 동적으로 생성하여 사용하는 쿼리)를 수행하는 일반적인 방법
Metastore에 대한 연결을 포함하여 Hive Client 또는 드라이버 애플리케이션이 로컬 시스템에 배포될 때 사용
Beeline은 경량 CLI
- HiveServer2 라는 여러 Client를 위한 대규모 다중 세션 드라이버 응용 프로그램에 사용
- Beeline은 시각화 도구 등 외부 Client에서 사용할 수 있는 JDBC 인터페이스를 제공

HiveQL parsing, 쿼리 실행 계획, 쿼리 작업을 Hadoop 에 제출, 쿼리 실행 진행률 모니터링 작업을 수행

Hive 는 HDFS의 Hive Object에 대한 Table 형식 추상화를 구현하여, 디렉토리와 파일 자체 모델의 Table로 표시

관계형 DB에서와 마찬가지로 Table에서는 DDL을 사용하여 생성된 지정 데이터 유형으로 미리 정의된 열이 존재
HDFS의 데이터는 다른 DBMS와 마찬가지로 DML을 통해 액세스 가능
Hive Object는 Database와 Table로 구성
Hive Database : 조직, 권한 부여 및 네임스페이스 관리에 사용
Hive Table : Hive Database에 존재
- RDBMS 와 Hive의 가장 큰 차이 : HDFS는 변경할 수 없는 파일 시스템으로 append, insert만 가능, update는 지원되지 않음 (Hadoop3부터는 update 지원)

Hive 메타데이터 중앙 저장소

기본 Database는 내장된 Derby DB를 사용
MySQL 또는 PostgreSQL 과 같은 다른 DBMS를 로컬 DB 또는 원격 DB 설정 가능
대부분 경우 개발자와 다른 사람들이 Object 정의를 공유할 수 있도록 하는 공유 DB (Except) Input/Output Format 및 SerDes
Hive는 InputFormat 및 SerDe를 사용하여 Input 파일을 읽고 처리를 위해 레코드를 추출하는 방법을 결정

Partitioning과 Bucketing은 쿼리 성능을 향상시키는 Hive 쿼리 최적화 기술

데이터는 특정 조건을 충족하는 하위 디렉토리인 파티션으로 나눔

Partition 또는 Table에서 각 버킷에 대한 별도의 데이터 파일을 생성