'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

data 3

Spark) spark volume data spill 이슈_spark-local-dir

한줄요약: spark-local-dir 로 실행안하는 사용자들 어칼까.. 이러다 다 죽음 ㅜㅜ 요약 spark-submit의 대량 read 작업시 spark job이 죽음 대량 작업이라 data spill 관련 문제로 추정 spark-local-dir 을 이용해 해결 설명 1. spark-submit의 대량 read 작업시 spark job이 죽음 2. 대량 작업이라 data spill 관련 문제로 추정 예전에 airflow로 잡돌릴 때, pvc 를 생성해서 해결해줬던 것으로 기억 (이름을 spark-loca-dir로 만들어주면 되는 것) https://mightytedkim.tistory.com/43 (Kubernetes) k8s와 Airflow 이용한 spark작업_SparkKubernetesOper..

Data/Spark 2022.03.21

youtube)카일 스쿨 데이터 엔지니어 직군 소개

글또장이신 카일님의 카일 스쿨 유투브 보고 메모 최근하고 있는 고민들을 너무 잘 정리해주셔서 재미있게 앉은 자리에서 3개를 다 봤어요, [카일데이] 요즘 데이터 분석가의 현실, 데이터 분석 직군의 세분화 트렌드 https://www.youtube.com/watch?v=mzOWMax9Sxc 경계가 명확하지 않은 직군들에 대한 카일님의 생각을 알 수 있었고, 그림과 함께라서 이해하기 더 좋았음 1. 직군의 구체화 - 데이터 조직이 생기기 시작함 - 데이터 리터러시 중요성 대두 2. 진입 장벽 낮아짐 - cloud -> hadoop, spark의 러닝커브를 낮춤 3. 직군 - 제품(앱,웹) -> product analyst - 예측 모델 -> data scientist - 데이터 분석가, 데이터 엔지니어 --..

기타 2022.02.21

Airflow) celery worker 환경 구성하기

airflow는 airbnb에서 만든 workflow 관리 플랫폼이에요 - 배치 파일을 순차적으로 돌릴 수도 있어요 - 이쁜 젠킨스 최근에 공부를 하게되면서 알게된 구조와 centos7에서 테스트한 예시를 메모하려고해요 airflow hello-world하면서 느낀점은 여기에 정리했어요 :) Airflow) 공부 및 적용기(메모) 최근에 airflow를 공부하고 있어요. 원래는 kubernertes의 설정 파일을 던지는 친구로 알고 보고 있엇는데, 배치파일 돌리는 작업으로 세팅 중이에요 이제 며칠봐서 틀릴 수도 있지만 제가 공부한 내 mightytedkim.tistory.com 구성 airflow webserver - airflow UI - workflow 상태 표시하고 실행, 재시작, 수동 조작, 로그..

Data/Airflow 2021.10.12