Data Engineering14 [Airflow] SubDAG로 반복 패턴 최소화하기 subDAG Use Case SubDAG Description task를 그룹핑하여 airflow Web UI에서 시각적으로 보여주게 만드는 task collection tasks들을 포함한 상자를 굵은 테두리는 식별 가능 실제로는 아무것도 변경되지 않고, DAG의 종속성은 여전히 유지되며 Web UI에서 시각적인 변화만 제공 DAG Object를 생성하기 위해서 DAG 객체를 반환하는 factory method를 코딩 이 SubDag를 기본 DAG에 연결하기 위해 SubDagOperator를 인스턴스화 SubDag는 여전히 기본 DAG에서 관리하므로 유지해야 함 (예기치 않은 동작 발생 가능성이 있기 때문) SubDagOperator의 상태와 작업 자체는 독립적(성공으로 표시된 SubDagOperato.. 2023. 6. 26. [PySpark] Dataset PySpark에서 Dataset을 지원하지 않는 이유 우선, PySpark에서는 DataSet 자료형을 지원하지 않는다. Java나 Scala에서만 지원을 한다. 그 이유느 DataSet은 런타임이 아닌 컴파일 타임에 타입을 체킹하기 때문이다. 파이썬이라는 언어는 변수를 정의할 때 타입을 정의하지 않는다. 값을 할당하면서 타입이 정해진다. 그 예시로 아래 코드를 보자. a = 10 a = "만들어진 변수 a에 문자열 값을 새로 할당합니다" 이 코드가 문제가 생기지 않는 것은 파이썬 런타임에 값을 할당하면서 변수의 타입을 새롭게 쓸 수 있기 때문이다. 프로그래밍의 자유도가 높지만 반대로 자바나 스칼라처럼 컴파일 타임에 데이터 타입을 체킹하기 어려운 점이 있다. 파이스파크에서 Dataset을 지원하지 못하는.. 2023. 6. 24. 이전 1 2 3 4 다음