'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

Data 50

udemy)초심자용 kafka 인강 :: mightytedkim

당장 kafka 코드를 짤일은 없어서, 빠르게 kafka인강을 들었어요 지금 몰라도 될 것 같은 부분은 빠르게 스킵했습니다. --- Kafka 인강) Apache Kafka Series - Learn Apache Kafka for Beginners v2_udemy https://www.udemy.com/course/apache-kafka/learn/lecture/11566808#overview 강사는 Stephane Maearek. 프랑스 출신인 것 같고, kafka, aws에 엄청 핫한 강사에요. 수강평이 2.2만개 ㅋㅋㅋㅋㅋ 역시 믿음의 유데미 가격도 할인해서 1.4만원 뿐이 안했어요 ​ 7시간 32분인데, 보통 3배 정도 더 걸리더라고요. 요즘 바쁜 시기니까 1달 정도 잡을라고요 ​ 19 secti..

Data/Kafka 2022.03.26

Spark) k8s,jupyterhub에서 sparkUI 사용하기

spark ui를 jupyterhub에서 접근이 안되서 골머리를 썩는중 검색하다가 겨우 방법을 찾음 jupyterhub 접속 경로: http://10.***.29.***:30011/user/manager spark_session = SparkSession \ .builder.appName(APP_NAME) \ .master("k8s://https://172.17.***.**:6443") \ .config('spark.ui.proxyBase', '/user/manager/proxy/4040') \ jupyterhub spark UI 접속 경로: http://10.***.29.***:30011/user/manager/proxy/4040/environment/ 성공! 물론 pip install로 proxy 관..

Data/Spark 2022.03.24

Spark) spark_submit시 spark.app.id warning_ jupyterhub

jupyterhub에서 spark_submit을 하는데 warning이 뜬다. 예외처리해주면되는데, 궁금해서 알아봄 spark.app.id는 뭘까 import os, posixpath, socket import pyspark from pyspark.sql import SparkSession ​ spark = ( SparkSession.builder.appName("hgkim-spark") .config("spark.kryoserializer.buffer.max", "1024m") .config("spark.sql.sources.partitionOverwriteMode", "dynamic") .master("k8s://https://172.17.***.56:6443") .config("spark.kuber..

Data/Spark 2022.03.24

Spark) spark volume data spill 이슈_spark-local-dir

한줄요약: spark-local-dir 로 실행안하는 사용자들 어칼까.. 이러다 다 죽음 ㅜㅜ 요약 spark-submit의 대량 read 작업시 spark job이 죽음 대량 작업이라 data spill 관련 문제로 추정 spark-local-dir 을 이용해 해결 설명 1. spark-submit의 대량 read 작업시 spark job이 죽음 2. 대량 작업이라 data spill 관련 문제로 추정 예전에 airflow로 잡돌릴 때, pvc 를 생성해서 해결해줬던 것으로 기억 (이름을 spark-loca-dir로 만들어주면 되는 것) https://mightytedkim.tistory.com/43 (Kubernetes) k8s와 Airflow 이용한 spark작업_SparkKubernetesOper..

Data/Spark 2022.03.21

Airflow) Pool 활용해서 dag 겹침 이슈 해결

평화로운 어느날 sparkKubernetesOperator가 미쳐 날뛰기 시작했다. 분명 10분정도면 끝나는 spark job인데, 30분이 넘게 걸려서 뒤의 작업과 겹쳐버렸다. (내 잘못ㅜ) grafana 보니까, spark-driver가 여러개 띄어져 있고 executor는 더 난리. 혹시 몰라 grafana에 대시보드 spark 용으로 만들어둬서 다행 spark thrift server ui를 보니까, 0.1초면 끝나는 작업이 hang 걸려있고 난리도 난리가 아니었다. schedule_interval="0 4 * * * " -> 10분이면 끝나는 작업 schedule_interval="30 4 * * * " -> 30분 넘게 걸려서 다른 작업과 겹침 줄줄이 비엔나로 겹침 쨋든 문제는 발견해서 다행 ..

Data/Airflow 2022.03.15

udemy)Airflow Operators Guide_5,6,7장 :: mightytedkim

3/1절 연휴동안 다 들을라했는데, 웹툰보고 놀다가 못함 ㅜㅜ 이번주 평일에 시간을 내야겠음 Section 5: DAG dependencies | 1hr 7min 45. Introduction 1min 1. 파트너A/B/C에게서 데이터를 받는데, 각 파트너마다 dag가 있다고 치자 2. 다 완료되면, 특정 공통된 task를 실행한다. 46. SubDagOperator 11min 복잡한 dag가 있는데, 특정 로직을 공유한다고 치자. 이 때 그룹핑할 수 있고, 시각적으로 명확하게 하는 역할을 한다. 장단점이 있음. 1. 시각화하려고 새로운 dag를 만들어야함 2. 새로운 dag를 또 후출해야하는 불편함이 있음 default_args는 똑같아야함. 부모/자식 간의 설정 dag_id도 명확하게 규정되야함. w..

Data/Airflow 2022.03.01

Kubernetes)Trino설치_yaml

spark thrift server는 관리하기 힘들어서, Trino 공부 thrift 세팅하신 분들은 metastore, mysql 그대로 사용하면 되니까 금방 hello world 할 수 있을거에요 https://github.com/joshuarobinson/trino-on-k8s https://joshua-robinson.medium.com/presto-powered-s3-data-warehouse-on-kubernetes-aea89d2f40e8 결과 $ k get all -n trino NAME READY STATUS RESTARTS AGE pod/trino-cli 1/1 Running 0 35d pod/trino-coordinator-574c748c86-j56pt 1/1 Running 0 35d ..

Data/Trino 2022.02.25

udemy)Airflow Operators Guide_3,4장 :: mightytedkim

SECTION 3: The most Common Operator | 1hr 12min 32. Introduction to Providers provider package - 제3자가 제공하는 것을 바로 적용할 수 있음 - 장점 : airflow의 업데이트를 기다릴 필요없음 s3의 경우 amz provider를 설치하면됨 - pip install apache-airflow-providers-amazon 설명은 operator 가이드에 들어가서 보면됨 astronomer의 홈페이지 - https://registry.astronomer.io/ 에서 검색 Provider 설치 예시 - requiremnets.txt airflow-provider-great-expectations==0.0.6 x-airflow-c..

Data/Airflow 2022.02.22

udemy)Airflow Operators Guide_1,2장 :: mightytedkim

https://www.udemy.com/course/apache-airflow-the-operators-guide/learn/lecture/21553710?start=0#overview kubernetes Pod Operator 공부할 때 참고했던 사람의 강의였기 때문에 신뢰가 감 ETL파이프 라인을 실무에서 세팅하는 방법을 급하게 알아야하기 때문에 좋음 심지어 버전도 2.x임, 회사에서 2.1.4사용하고 있어서 너무 좋음 총 7시간이고 해당 포스트는 1,2 섹션 메모용 Section 1: Introduction 5/5 10min 1. Important Prerequisites 2min specific operator에 대해서 배우는 강의 airflow 기본에 대해서 알고 있어야함 2. Install D..

Data/Airflow 2022.01.13