본문 바로가기

Data Engineering14

[Flink] Flink 도커로 설치하고 Job 제출하기 Flink v1.18.0 Download 아카이브 파일 수동 설치 Flink 1.18.0 버전은 Java 11 버전, Scala 2.12 버전과 호환된다. 공식적인 파일을 다운받고 싶다며 https://www.apache.org/dyn/closer.lua/flink/flink-1.18.0/flink-1.18.0-bin-scala_2.12.tgz/ 사이트로 가서 HTTP 부분의 링크를 눌러 다운 받거나 Linux/Mac OS에서는 wget을 사용하여 설치 할 수 있다. wget https://dlcdn.apache.org/flink/flink-1.18.0/flink-1.18.0-bin-scala_2.12.tgz 플링크를 시작하려면 bin 폴더에 있는 start-cluster.sh를 시작해줘야 한다. bin.. 2023. 11. 18.

[Airflow] docker Compose로 Celery Executor 시작하기 필요 서비스 redis Worker Node가 실행할 작업을 인메모리로 가져오는 Dictionary(key-value) 구조의 DBMS 비밀번호를 redispass로 설정 postgres Airflow의 메타데이터 DMBS 데이터를 유지하고 싶다면 volumn과 관련된 코드를 environment를 추가해주어야 함 PGDATA : container 내부에서 데이터를 저장하는 디렉터리 ./mnt/postgres : 현재 폴더(.)의 mnt/postgres 디렉토리와 PGDATA를 바인드 마운트하여 로컬 파일시스템에 저장 될 수 있도록 저장 - PGDATA=/var/lib/postgresql/data/pgdata - ./mnt/postgres:/var/lib/postgresql/data/pgdata webs.. 2023. 11. 11.

[Spark] Local Mode Executor에 대한 고찰 spark를 local mode로 테스트해보면서 잠깐 혼돈되는 지식이 있어 정리하고자 한다. 우선 내 스파크 세션의 설정은 다음과 같다. 처음에 master에 "local[*]" 로 설정했다가, 이후 web ui를 보았다. 이상한 점을 발견하게 되었다. 분명 스파크 세션을 만들 때, master로 "local[*]" 을 줬고, 내 컴퓨터의 cpu 개수는 아래와 같이 16 코어이다. 그런데 왜 Executor Reqs의 cores가 1로 나오는 지 궁금했다. local[*]은 분명 로컬 컴퓨터의 모든 CPU 자원을 이용하는 것으로 들었는 데, 이것만으로 실제 executor에서 모든 자원을 사용하지 않는 걸까? 또한 excutor와 task에 대한 개념을 조금 더 세밀하게 알아야 더 최적화를 시킬 수 있겠.. 2023. 7. 17.

[Spark] 분산 파일 시스템에서의 데이터 지역성 다양한 환경에서 실행가능한 스파크 스파크는 다양한 저장소에 붙여서 분산 처리가 가능한 프레임 워크이다. 하지만, Spark는 처음 개발된 환경은 Hadoop에서 사용하는 HDFS라는 분산 파일 시스템이며 해당 환경에서 In-Memory 기반으로 최적의 분산 처리를 수행하는 데 최적화가 되어있다. 때문에 오늘은 Spark를 분산 파일시스템에서 운영 할 때의 이점을 소개하고자 한다. 결론부터 말하자면 분산 파일시스템에서 Spark를 이용하면 데이터 지역성의 이점을 누릴 수 있다. 대표적인 분산 파일 시스템인 Hadoop에서의 데이터 지역성을 이해하기 전에 최적화에 대한 나의 기본 관점을 공유하고자 한다. 최적화의 기본 프로그램을 최적화 시킬 때, 두 가지 I/O를 줄이는 것이 정말 중요하다고 생각한다. 첫 .. 2023. 7. 5.

이전 1 2 3 4 다음

티스토리툴바