본문 바로가기

전체 글35

[Hive] 기본 개념 정리 Hive 페이스북에서 개발한 Hadoop 기반의 데이터 웨어하우징 프레임워크 자바 프로그래밍은 부족하지만 강력한 SQL 기술을 가진 분석가를 위해 개발 복잡한 머신러닝 알고리즘을 구현하기에는 적합하지 않음 MySQL에 사용하는 것처럼 HDFS 클러스터 전체에 걸쳐 저장된 데이터에 표준 SQL 쿼리를 실행 SQL을 MapReduce나 TEZ 명령어로 번역하여 동작. 이 둘은 YARN 클러스터 관리자 위에서 실행 Hive는 SQL 쿼리를 매퍼와 맵리듀스로 분해. 클러스터 전체에 걸쳐 어떻게 실행할지 알아냄 사용자 관점에서는 데이터 웨어하우스를 사용하는 것처럼 SQL 데이터베이스에 쿼리하는 것과 동일 이미 SQL에 익숙하고 데이터베이스나 데이터 웨어하우스에 경험이 있다면 아주 강력한 도구 Why Hive? H.. 2023. 7. 1.
[Linux] 크론탭 설정 현재 설정된 크론탭 보기 crontab -l 크론탭 작성하기 crontab -e 2023. 6. 26.
[Python] Jupyter 서버 원격 연결 설정하기 Jupyter Config 파일 생성하기 jupyter server --generate-config 해당 커맨드를 치면, 홈디렉토리(cd ~)에 .jupyter 폴더 안에 config 파일이 생성 cd ~/.jupyter vim jupyter_server_config.py 해당 파일을 vim을 편집하여 아래 설정 값으로 변경 # 외부 접속 허용 c.ServerApp.allow_origin = '*' # 외부 모든 IP에서 접근가능하도록 허용 c.ServerApp.ip = '0.0.0.0' # jupyter 프로세스를 개방할 포트 c.ServerApp.port = 8888 # jupyter 명령시 자동으로 browser 오픈 끄기 c.ServerApp.open_browser = False 그러면 본의 Lo.. 2023. 6. 26.
[Airflow] SubDAG로 반복 패턴 최소화하기 subDAG Use Case SubDAG Description task를 그룹핑하여 airflow Web UI에서 시각적으로 보여주게 만드는 task collection tasks들을 포함한 상자를 굵은 테두리는 식별 가능 실제로는 아무것도 변경되지 않고, DAG의 종속성은 여전히 유지되며 Web UI에서 시각적인 변화만 제공 DAG Object를 생성하기 위해서 DAG 객체를 반환하는 factory method를 코딩 이 SubDag를 기본 DAG에 연결하기 위해 SubDagOperator를 인스턴스화 SubDag는 여전히 기본 DAG에서 관리하므로 유지해야 함 (예기치 않은 동작 발생 가능성이 있기 때문) SubDagOperator의 상태와 작업 자체는 독립적(성공으로 표시된 SubDagOperato.. 2023. 6. 26.