간단하게 Delta Live Table을 생성 및 실행해보는 작업을 통해서 Databricks에서 말하는 DLT가 실질적으로 어떤 프로세스로 이루어지는 것인지 이해해보고자 한다.
* Databricks 리소스 생성 시, Premium 으로 생성한다.
1. Notebook 다운로드
DTL에 관한 다양한 샘플 코드가 존재한다. 원하는 구성의 Notebook을 다운로드하여 준비한다.
2. Import Notebook
Repository or Workspace , 원하는 위치에 Import 한다.
3. Create Pipeline
- Workflows > Delta Live Tables > Create pipeline
- Source Code 에서 위에서 Import한 Notebook 경로를 찾아서 선택해준다.
- Destination > Storage location : 테이블 및 기타 메타데이터가 저장될 DBFS 또는 클라우드 스토리지의 경로
- Destination > Target schema : 테이블을 메타스토어에 게시하려면, 대상 데이터베이스를 지정해주는 것이 좋다.
- Cluster policy : 클러스터 생성 중에 사용할 수 있는 속성에 대한 제한을 정의.
- Cluster mode > Enhanced autosclaing : 파이프라인의 데이터 처리 대기 시간에 미치는 영향을 최소화하면서 워크로드 볼륨에 따라 클러스터 리소스를 자동으로 할당하여 클러스 사용률을 최적화해준다.
4. 저장 후 해당 pipeline 실행
pipeline 실행 시 에러가 발생한다면, 할당량 부분을 체크해서 증가 신청 후 재실행한다.
✔ Select tables for refresh 기능
- 파이프라인 내 특정 테이블에 대해서만 다시 처리할 수 있다.
예를 들어, 개발 중에 단일 테이블만 변경하고 테스트 시간을 줄이고자 하거나, 파이프라인 업데이트 실패해서 실패한 테이블만 새로 고치려고 하는 경우에 사용한다.
- [Select tables for refresh] 클릭하면 아래와 같이 특정 테이블 선택할 수 있는 창이 뜬다. 단일 혹은 다수의 테이블을 선택할 수 있다.
- [Refresh selection] 클릭하면 해당 테이블 업데이트 처리가 시작된다.
5. pipeline 목록
6. 생성된 Table 확인
파이프라인 생성 시, Target schema를 지정해준 경우 Data Explorer에서 확인 가능하다.
Storage location, Target schema를 지정해주진 않은 경우, 직접 파일 위치를 써서 쿼리할 수 있다.
7. Databricks SQL - Dashboard 생성
- SQL Warehouse 생성
- Visualization 활용할 Query 작성
'Azure > Databricks' 카테고리의 다른 글
Azure Databricks, 데이터 수집 및 읽기(JDBC 드라이버 사용하여 SQL Server 쿼리 , Secret Scope 이용하여 Key 값 암호화하기) (0) | 2023.05.15 |
---|---|
Databricks, 작업 예약 시 매개변수 사용하는 방법(Parameters) (0) | 2023.02.21 |
Databricks SQL, 컬럼 별칭(Alias) 한글로 설정하고 싶을 때 주의할 점 (1) | 2023.02.20 |
Azure Databricks, 데이터 수집하기(파일 업로드, 자동 로더, DBFS..) (1) | 2022.12.28 |
Databricks, Delta Table 생성 및 데이터 삽입/수정/삭제, 테이블 삭제 (0) | 2022.12.23 |