'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

Data 55

Airflow) log를 minio에 저장_connection,yaml

하고 나면 너무 간단한데생각보다 인터넷에 관련된 정보가 명확히 나와잇지 않음 똑같은데 그럼 endpoint는 어디다가 입력하는데ㅜㅜ 성공하고 나서 문서를 보면 당연하지만, 작업 중에는 너무나 막막했던 내용 설정 방법 1. minio 실제 url에서는 이런식으로 http://1**.**.**.**:9000/object-browser/airflow-logs bucket 만들기 airflow-logs http://1**.**.**.**:9000 참고 pyspark 테스트하던 코드는 여기 https://mightytedkim.tistory.com/28 from pyspark import SparkContext from pyspark.sql import SparkSession from time import sle..

Data/Airflow 2021.11.12

Spark) Spark Base Image Docker Build(VM, 내부망)

spark image를 만드는 법과 VM,내부망안에서 제가 겪은 경험을 공유하려 해요 별거 아니지만 처음에 할 때는 너무 막막했었어요 ㅎ 글을 구조는 아래와 같아요 1. 상황 spark image를 만들기 VM, 내부망에서 build 실패 2. 해결 spark-3.1.2-bin-hadoop3.2/kubernetes/Dockerfile Sources.list 주석 HTTP_PROXY, HTTPS_PROXY 설정 kubernetes/dockerfiles/spark/bindings/python/Dockerfile pypi.org를 신뢰할 수 있는 host HTTP_PROXY, HTTPS_PROXY 설정 1. 상황 spark image를 만들기 spark를 실행하는 base image를 만들 때 인프라 상황이 ..

Data/Spark 2021.11.11

Airflow) Kubernetes에 올리기(yaml)

kubernetes에 airflow를 올렸어요 K8s로 airflow 올리기 native에서 테스트할 때는 아래처럼 2개로 테스트했는데 vm1 : scheduler,webserver celery worker1, celery flower vm2 celery worker2 k8s에서 세팅하니까, 이렇게 각각 pod로 생성되더라고요 NAME READY STATUS RESTARTS AGE pod/airflow-flower-6c6b7f5d68-lx4j8 1/1 Running 1 2d16h pod/airflow-postgresql-0 1/1 Running 2 2d16h pod/airflow-redis-0 1/1 Running 0 2d1h pod/airflow-scheduler-884ddd5f6-g2vxt 2/2 R..

Data/Airflow 2021.10.28

Airflow) celery worker 환경 구성하기

airflow는 airbnb에서 만든 workflow 관리 플랫폼이에요 - 배치 파일을 순차적으로 돌릴 수도 있어요 - 이쁜 젠킨스 최근에 공부를 하게되면서 알게된 구조와 centos7에서 테스트한 예시를 메모하려고해요 airflow hello-world하면서 느낀점은 여기에 정리했어요 :) Airflow) 공부 및 적용기(메모) 최근에 airflow를 공부하고 있어요. 원래는 kubernertes의 설정 파일을 던지는 친구로 알고 보고 있엇는데, 배치파일 돌리는 작업으로 세팅 중이에요 이제 며칠봐서 틀릴 수도 있지만 제가 공부한 내 mightytedkim.tistory.com 구성 airflow webserver - airflow UI - workflow 상태 표시하고 실행, 재시작, 수동 조작, 로그..

Data/Airflow 2021.10.12

Airflow) Hello world와 시행착오_celery worker,버그

최근에 airflow를 공부하고 있어요ㅎ 대표사진 삭제 사진 편집 작게작게문서 너비문서 너비옆트임옆트임 삭제삭제 사진 설명을 입력하세요. 그냥 "배치 돌리는 어플리케이션" 으로만 알고 있던 제가 하나씩 알아가며 메모를 하는 포스팅입니다 :) Airflow '워크플로우 관리 플랫폼' 으로 최근에 핫하게 사용되고 있어요. airbnb 에서 2016년에 만들어졌어요. 2020년에 2.0이 나오면서 더 강력해졌어요(이뻐짐) 장점 1. python : 가장 큰 장점, python으로 쉽게 접근이 가능 (데이터 분석가, 현업) 2. hello world 쉬움 : 한시간이면 만들 수 있어요 3. UI : 이쁘고 직관적이에요. 2.0으로 넘어오면서 엄청 이뻐졋어요 4. cloud 벤더 : cloud에서 운영하는 서비스..

Data/Airflow 2021.10.09