'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

Data 55

Slipp) Airflow2.0 스터디_2주차(3장) Airflow의 스케줄링

링크 : https://www.slipp.net/wiki/pages/viewpage.action?pageId=3276808650825 2주차 - (3장)airflow의 스케줄링 - SLS - SLiPP::위키 페이지 … Home 22차 SLiPP 스터디 Airflow 2.0 배너의 맨 끝으로 배너의 맨 처음으로 2주차 - (3장)airflow의 스케줄링 메타 데이터의 끝으로 건너뛰기 김학건님이 작성, 2022년 04월 26일에 최종 변경 메타 www.slipp.net 2번째 스터디가 시작했는데, 발표자 분이 피피티를 준비해오셨어요. 3장은 간단하지만 중요한 멱등성, 원자성의 개념이 있었고 각자 회사에서 이 원칙이 잘 지켜지는지 이야기하는 시간을 가졌습니다. 요약 1. 3장 발표 2. 3장 내용 관련 썰 ..

Data/Airflow 2022.04.28

Slipp) Airflow2.0 스터디_1주차(사용 경험썰풀기)

airflow2.0을 살펴보는 스터디 시작 2달간 책의 필요한 부분을 빠르게 훑어보는 것이 목표! 스터디명 : 'Airflow 2.0 익숙해지고 상황별 사례 공유하기' 책 :Apcache Airflow 기반의 데이터 파이프라인 (에어플로 중심의 워크폴로 구축에서 커스텀 텀포넌트 개발 및 배포,관리까지) 목표: 책 완독하기! 얼마전 한글 번역본이 나와서 책을 구매했는데 내용이 괜찮았어요 그런제 혼자서는 끝까지 보지 않을 것 같아서 스터디원들을 모았어요. 마침 slipp도 스터디 주제 제안 기간이고, 우아한 스터디와 콜라보도 진행하길래 질렀죠.ㅎㅎ https://puffy-stick-fa1.notion.site/SLiPP-X-Airflow-2-0-c86f6713faff446da4d30bd420dc02fe M..

Data/Airflow 2022.04.19

Airflow) Ec2에 docker-compose 로 올리기

airflow 스터디 환경 구현 최소 4g ram 필요해서 8g t2.large로 ec2 생성 docker, docker-compose 설치 docker install 4 sudo yum -y upgrade 5 sudo yum -y install docker 7 sudo service docker start 9 sudo usermod -aG docker ec2-user 22 exit docker-compose install 26 sudo curl -L https://github.com/docker/compose/releases/download/1.25.0-rc2/docker-compose-`uname -s`-`uname -m` -o /usr/local/bin/docker-compose 27 sudo ch..

Data/Airflow 2022.04.16

Jupyterhub) notebook이미지 설정하기_profileList

1. notebook image 설정 이제 notebook image를 수정해줌 $ config.yaml # singleuser relates to the configuration of KubeSpawner which runs in the hub # pod, and its spawning of user pods such as jupyter-myusername. singleuser: image: name: private-repo.***/library/jupyter/pyspark-notebook tag: latest #name: private-repo.***/library/jupyterhub/k8s-singleuser-sample #tag: "1.2.0-20211123" pullPolicy: Always p..

Data/Jupyterhub 2022.03.29

Jupyterhub) Helm 설치_hub-db-dir 에러 해결

한줄 요약: helm으로 따라했는데 버그였음. 그런데 다시해보니 재현이 안됨 요약 k8s에 jupyterhub를 설치함 hub 컨테이너 pvc 매핑 문제 발생 설명 1. k8s에 jupyterhub를 설치함 공식문서에 나온대로 따라하면 됨 helm repo add jupyterhub https://jupyterhub.github.io/helm-chart/ helm repo update helm upgrade --cleanup-on-fail \ --install jupyterhub private-reop/jupyterhub \ --namespace jhub \ --create-namespace \ --version=1.20 \ --values config.yaml hub, user-scheduler 실행이..

Data/Jupyterhub 2022.03.29

udemy)초심자용 kafka 인강 :: mightytedkim

당장 kafka 코드를 짤일은 없어서, 빠르게 kafka인강을 들었어요 지금 몰라도 될 것 같은 부분은 빠르게 스킵했습니다. --- Kafka 인강) Apache Kafka Series - Learn Apache Kafka for Beginners v2_udemy https://www.udemy.com/course/apache-kafka/learn/lecture/11566808#overview 강사는 Stephane Maearek. 프랑스 출신인 것 같고, kafka, aws에 엄청 핫한 강사에요. 수강평이 2.2만개 ㅋㅋㅋㅋㅋ 역시 믿음의 유데미 가격도 할인해서 1.4만원 뿐이 안했어요 ​ 7시간 32분인데, 보통 3배 정도 더 걸리더라고요. 요즘 바쁜 시기니까 1달 정도 잡을라고요 ​ 19 secti..

Data/Kafka 2022.03.26

Spark) k8s,jupyterhub에서 sparkUI 사용하기

spark ui를 jupyterhub에서 접근이 안되서 골머리를 썩는중 검색하다가 겨우 방법을 찾음 jupyterhub 접속 경로: http://10.***.29.***:30011/user/manager spark_session = SparkSession \ .builder.appName(APP_NAME) \ .master("k8s://https://172.17.***.**:6443") \ .config('spark.ui.proxyBase', '/user/manager/proxy/4040') \ jupyterhub spark UI 접속 경로: http://10.***.29.***:30011/user/manager/proxy/4040/environment/ 성공! 물론 pip install로 proxy 관..

Data/Spark 2022.03.24

Spark) spark_submit시 spark.app.id warning_ jupyterhub

jupyterhub에서 spark_submit을 하는데 warning이 뜬다. 예외처리해주면되는데, 궁금해서 알아봄 spark.app.id는 뭘까 import os, posixpath, socket import pyspark from pyspark.sql import SparkSession ​ spark = ( SparkSession.builder.appName("hgkim-spark") .config("spark.kryoserializer.buffer.max", "1024m") .config("spark.sql.sources.partitionOverwriteMode", "dynamic") .master("k8s://https://172.17.***.56:6443") .config("spark.kuber..

Data/Spark 2022.03.24

Spark) spark volume data spill 이슈_spark-local-dir

한줄요약: spark-local-dir 로 실행안하는 사용자들 어칼까.. 이러다 다 죽음 ㅜㅜ 요약 spark-submit의 대량 read 작업시 spark job이 죽음 대량 작업이라 data spill 관련 문제로 추정 spark-local-dir 을 이용해 해결 설명 1. spark-submit의 대량 read 작업시 spark job이 죽음 2. 대량 작업이라 data spill 관련 문제로 추정 예전에 airflow로 잡돌릴 때, pvc 를 생성해서 해결해줬던 것으로 기억 (이름을 spark-loca-dir로 만들어주면 되는 것) https://mightytedkim.tistory.com/43 (Kubernetes) k8s와 Airflow 이용한 spark작업_SparkKubernetesOper..

Data/Spark 2022.03.21

Airflow) Pool 활용해서 dag 겹침 이슈 해결

평화로운 어느날 sparkKubernetesOperator가 미쳐 날뛰기 시작했다. 분명 10분정도면 끝나는 spark job인데, 30분이 넘게 걸려서 뒤의 작업과 겹쳐버렸다. (내 잘못ㅜ) grafana 보니까, spark-driver가 여러개 띄어져 있고 executor는 더 난리. 혹시 몰라 grafana에 대시보드 spark 용으로 만들어둬서 다행 spark thrift server ui를 보니까, 0.1초면 끝나는 작업이 hang 걸려있고 난리도 난리가 아니었다. schedule_interval="0 4 * * * " -> 10분이면 끝나는 작업 schedule_interval="30 4 * * * " -> 30분 넘게 걸려서 다른 작업과 겹침 줄줄이 비엔나로 겹침 쨋든 문제는 발견해서 다행 ..

Data/Airflow 2022.03.15