반응형

Data Engineering/AirFlow 4

[Airflow] 다른 시스템과 연결하기

1. 다른 시스템과 연결하기 Airflow 는 태스크 간 데이터를 전달하는 방법으로 두가지가 있음 Airflow 메타스토어를 사용하여 태스크 간 결과를 쓰고 읽는다. 이 방법을 xcom 을 사용하여 데이터를 옮긴다고 한다. 자세한 내용을 아래 링크 참고. xcom 을 사용하여 다른 테스크 간에 데이터 공유 가능 Airflow Xcom 사용하기 영구적인 위치(디스크 또는 데이터베이스)에 태스크 결과 기록 Airflow 태스크는 설정에 따라 물리적으로 서로 다른 컴퓨터에서 독립적으로 실행되므로 메모리에서 데이터를 공유할 수 없음 태스크 간의 데이터는 태스크가 완료된 후 다른 태스크에서 읽을 수 있는 다른 위치에 유지되어야 함. Airflow 는 XCom이라는 기본 메커니즘을 제공, Airflow 메타스토어에..

[Airflow] 1-2. Apache Airflow 살펴보기

2. Airflow 소개 2.1 파이썬 코드로 유연한 파이프라인 정의 파이프라인(워크플로, 태스크)를 방향성 비순환 그래프(DAG) 로 정의 가능 파이썬 스크립트로 DAG 의 구조를 설명하고 구성 각 DAG 파일은 주어진 DAG 에 대한 태스크 집합과 태스크 간의 의존성을 기술하고, Airflow 는 DAG 구조를 식별하기 위해 코드를 파싱 프로그래밍(파이썬) 접근 방식이 DAG를 구성하는데 많은 유연성 제공 외부 DB, 오픈소스 및 클라우드 서비스에서 태스크를 실행할 수 있도록 확장 기능이 계속 개발중 여러 시스템 간에 결합/연결이 가능한 복잡한 데이터 파이프라인을 구축 가능 2.2 파이프라인 스케줄링 및 실행 파이프라인을 언제 실행할 것인지 각각의 DAG 실행주기 정의 가능 이를 통해 Airflow ..

[Airflow] 1-1. Apache Airflow 살펴보기

airflow은 유연한 파이썬 프레임워크를 사용해 쉽게 데이터 파이프라인을 구축가능 최신 기술 환경에서 접하게 되는 서로 다른 기술들을 연결할 수 있는 다양한 빌딩 블록을 제공하는 것 에어플로우는 거미줄의 거미와 같이 데이터 프로세스 과정에서 중요한 역할을 하며 다양한 시스템에서 발생하는 작업을 조율 직접적으로 데이터 처리 작업을 수행하지 않지만, 데이터 처리를 위한 다양한 구성 요소들을 조정 1. 데이터 파이프라인 소개 데이터 파이프라인은 원하는 결과를 얻기 위해 실행되는 여러 태스크 또는 동작으로 구성 1.1 데이터 파이프라인 그래프 태스크 간의 의존성을 명확하게 확인하는 방법 중 하나는, 데이터 파이프라인을 그래프로 표현하는 것 태스크는 노드로 표시되고 태스크 간의 의존성은 태스크 노드간의 방향으로..

반응형