'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

airflow 30

udemy)Airflow Operators Guide_3,4장 :: mightytedkim

SECTION 3: The most Common Operator | 1hr 12min 32. Introduction to Providers provider package - 제3자가 제공하는 것을 바로 적용할 수 있음 - 장점 : airflow의 업데이트를 기다릴 필요없음 s3의 경우 amz provider를 설치하면됨 - pip install apache-airflow-providers-amazon 설명은 operator 가이드에 들어가서 보면됨 astronomer의 홈페이지 - https://registry.astronomer.io/ 에서 검색 Provider 설치 예시 - requiremnets.txt airflow-provider-great-expectations==0.0.6 x-airflow-c..

Data/Airflow 2022.02.22

udemy)Airflow Operators Guide_1,2장 :: mightytedkim

https://www.udemy.com/course/apache-airflow-the-operators-guide/learn/lecture/21553710?start=0#overview kubernetes Pod Operator 공부할 때 참고했던 사람의 강의였기 때문에 신뢰가 감 ETL파이프 라인을 실무에서 세팅하는 방법을 급하게 알아야하기 때문에 좋음 심지어 버전도 2.x임, 회사에서 2.1.4사용하고 있어서 너무 좋음 총 7시간이고 해당 포스트는 1,2 섹션 메모용 Section 1: Introduction 5/5 10min 1. Important Prerequisites 2min specific operator에 대해서 배우는 강의 airflow 기본에 대해서 알고 있어야함 2. Install D..

Data/Airflow 2022.01.13

글또) 6기 후기(2021.11 ~ 2022.02)_k8s

글또 5,6기를 하니까 2021년이 지나갔어요. 올해 회고글을 글또를 중심으로 풀어볼까해요. 2021년 회고 올 한해는 참 재미있었어요. 하고 싶었던 것 마음껏 했거든요. 전반기에는 회사 제품에 검색엔진을 적용했고, 후반기에는 쿠버네티스를 서버 렉 설치부터 경험해봤어요. 글또 5기를 시작했던 2020년 11월에는 Elasticsearch를 처음 접했어요. 마침 제가 담당하던 제품도 데이터 포털 이어서, 검색엔진을 적용하고 싶었고 생각을 정리하는 연습을 하기 위해 글또5기를 시작했어요. 제품에 검색엔진을 넣으려고 사내 스터디 만들면서 여기저기 기웃거렸는데 8월부터는 아예 오픈소스 팀에 들어갔어요. K8S 밑바닥 부터 내부망에 세팅하는 일을 했어요 그래서 이 포스팅의 제목도 오픈소스로 시작해서, 오픈소스로 ..

커뮤니티/글또 2021.12.28

Kubernetes) Forbidden User 보는 방법_role,sa

Forbidden 에러, clusterrole과 serviceaccount로 해결 clusterrole과 serviceaccount 확인하기 spark 테스트하는 도중 권한 관련 로그를 접했어요 #kubernetes.client.rest.ApiException: (403) #Reason: Forbidden #HTTP response headers: HTTPHeaderDict({'Cache-Control': 'no-cache, private', 'Content-Type': 'application/json', 'X-Content-Type-Options': 'nosniff', 'Date': 'Fri, 19 Nov 2021 06:50:38 GMT', 'Content-Length': '417'}) #HTTP re..

기타/K8S 2021.11.23

Airflow) K8S Pod 만들기_k8sPodOperator, helm

airflow 1.10 부터 적용되고, airflow 2.0에서 본격적으로 사용되는 KPO 자료가 없어서 2주간의 삽질기 ㅎㅎ 아 진짜 쫄깃 쫄깃하고, 안되서 도중에 argo를 파야하나 생각하고 휴.. 요약 airflow는 airbnb에서 만든 파이프라인 관리 어플리케이션입니다. 현재 라인, 쏘카 등에서 사용하고 있습니다. 저는 네이티브 환경의 kubernetes에서 airflow를 사용했어요. kuberentesPodOperator 설정 KubeneresPodOperator : DAG LOGGING : minIO, connection GIT-SYNC : secret, ssh Helm : values.yaml KubeneresPodOperator GIT-SYNC : secret, ssh LOGGING 작..

Data/Airflow 2021.11.12

Airflow) log를 minio에 저장_connection,yaml

하고 나면 너무 간단한데생각보다 인터넷에 관련된 정보가 명확히 나와잇지 않음 똑같은데 그럼 endpoint는 어디다가 입력하는데ㅜㅜ 성공하고 나서 문서를 보면 당연하지만, 작업 중에는 너무나 막막했던 내용 설정 방법 1. minio 실제 url에서는 이런식으로 http://1**.**.**.**:9000/object-browser/airflow-logs bucket 만들기 airflow-logs http://1**.**.**.**:9000 참고 pyspark 테스트하던 코드는 여기 https://mightytedkim.tistory.com/28 from pyspark import SparkContext from pyspark.sql import SparkSession from time import sle..

Data/Airflow 2021.11.12

Airflow) Kubernetes에 올리기(yaml)

kubernetes에 airflow를 올렸어요 K8s로 airflow 올리기 native에서 테스트할 때는 아래처럼 2개로 테스트했는데 vm1 : scheduler,webserver celery worker1, celery flower vm2 celery worker2 k8s에서 세팅하니까, 이렇게 각각 pod로 생성되더라고요 NAME READY STATUS RESTARTS AGE pod/airflow-flower-6c6b7f5d68-lx4j8 1/1 Running 1 2d16h pod/airflow-postgresql-0 1/1 Running 2 2d16h pod/airflow-redis-0 1/1 Running 0 2d1h pod/airflow-scheduler-884ddd5f6-g2vxt 2/2 R..

Data/Airflow 2021.10.28

Airflow) celery worker 환경 구성하기

airflow는 airbnb에서 만든 workflow 관리 플랫폼이에요 - 배치 파일을 순차적으로 돌릴 수도 있어요 - 이쁜 젠킨스 최근에 공부를 하게되면서 알게된 구조와 centos7에서 테스트한 예시를 메모하려고해요 airflow hello-world하면서 느낀점은 여기에 정리했어요 :) Airflow) 공부 및 적용기(메모) 최근에 airflow를 공부하고 있어요. 원래는 kubernertes의 설정 파일을 던지는 친구로 알고 보고 있엇는데, 배치파일 돌리는 작업으로 세팅 중이에요 이제 며칠봐서 틀릴 수도 있지만 제가 공부한 내 mightytedkim.tistory.com 구성 airflow webserver - airflow UI - workflow 상태 표시하고 실행, 재시작, 수동 조작, 로그..

Data/Airflow 2021.10.12

Airflow) Hello world와 시행착오_celery worker,버그

최근에 airflow를 공부하고 있어요ㅎ 대표사진 삭제 사진 편집 작게작게문서 너비문서 너비옆트임옆트임 삭제삭제 사진 설명을 입력하세요. 그냥 "배치 돌리는 어플리케이션" 으로만 알고 있던 제가 하나씩 알아가며 메모를 하는 포스팅입니다 :) Airflow '워크플로우 관리 플랫폼' 으로 최근에 핫하게 사용되고 있어요. airbnb 에서 2016년에 만들어졌어요. 2020년에 2.0이 나오면서 더 강력해졌어요(이뻐짐) 장점 1. python : 가장 큰 장점, python으로 쉽게 접근이 가능 (데이터 분석가, 현업) 2. hello world 쉬움 : 한시간이면 만들 수 있어요 3. UI : 이쁘고 직관적이에요. 2.0으로 넘어오면서 엄청 이뻐졋어요 4. cloud 벤더 : cloud에서 운영하는 서비스..

Data/Airflow 2021.10.09