'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

멱등성 2

Airflow) 'Task 분리' 실무 적용하기 _k8s/spark

2022.05~07, 3달동안 진행한 airflow 스터디를 끝내고 실무에 적용한 내용 일부를 정리햇어요 airflow를 운영하면서 가장 불편했던 부분은 'Task가 분리되지 않은 것' 이었어요 어디서 문제가 생겼는지 추적할 수도 없는게 불편했어요 데이터 흐름이 어떻게 되있는지 알 수 없었어요 멱등성, 원자성도 지켜지지 않았어요 예상 독자는 아래와 같아요 airflow 도입을 고민하는 분 airflow를 이제 막 사용하시는 분 airflow 관리가 어려운 운영 담당자 요약 문제: airflow에서 spark job이 간헐적으로 실패함 분석: task의 분리가 필요함 적용: task를 분리함 결과: 문제 발생 시점을 알 수 있고, 불필요한 작업을 줄일 수 있게됨 설명 1. 문제 airflow에서 spark..

Data/Airflow 2022.07.04

Slipp) Airflow2.0 스터디_2주차(3장) Airflow의 스케줄링

링크 : https://www.slipp.net/wiki/pages/viewpage.action?pageId=3276808650825 2주차 - (3장)airflow의 스케줄링 - SLS - SLiPP::위키 페이지 … Home 22차 SLiPP 스터디 Airflow 2.0 배너의 맨 끝으로 배너의 맨 처음으로 2주차 - (3장)airflow의 스케줄링 메타 데이터의 끝으로 건너뛰기 김학건님이 작성, 2022년 04월 26일에 최종 변경 메타 www.slipp.net 2번째 스터디가 시작했는데, 발표자 분이 피피티를 준비해오셨어요. 3장은 간단하지만 중요한 멱등성, 원자성의 개념이 있었고 각자 회사에서 이 원칙이 잘 지켜지는지 이야기하는 시간을 가졌습니다. 요약 1. 3장 발표 2. 3장 내용 관련 썰 ..

Data/Airflow 2022.04.28