'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

Data 55

Supserset) 슈퍼셋 들어보셧나요? 사용 후기 듣고 가세요! (filter 조건 위치 변경해서 full scan 방지)

요즘 '빅데이터 지탱하는 기술' 보고 있는데, superset이 나와서 정리해봣어요예상 독자는 아래와 같아요 - superset 사용하시려는 분 - 기본 구조를 아시고 싶으신 분 - filter를 where절 안에서 사용하고 싶으신분 저는 k8s helm을 이용해서 구현했어요 사용 방법은 kibana와 비슷해서 편했고, 저는 trino를 데이터 소스로 사용했어요superset이란?- airbnb(2016)에서 만든 BI 툴 - 사용자 친화적인 UI데모 페이지 들어가면 볼 수 있어요 https://superset.demo.datahubproject.io/superset/welcome/Supersetsuperset.demo.datahubproject.io느낀 장/단점장점 - 공짜 - 연결할 데이터 소스가 많..

Data/Superset 2023.03.26

Trino) session timeout 설정_hive.s3.socket-timeout

trino를 도입하려고 알아보는데, 여기는 특정 파티션을 찍어서 파티션 업데이트하는게 없고 전체를 선택해야하더라고요. 그러다보니 초기 세팅시에 데이터가 너무 많아 socket timeout exception이 발생했어요 복사를 하지 않아 비슷한 로그를 복사해왔습니다. com.facebook.presto.spi.PrestoException: hive-metastore-server:9083: java.net.SocketTimeoutException: Read timed out 아래 명령어를 실행해서 그런건데요 CALL system.sync_partition_metadata('test', 'hgkim', 'add', true); 그래서 socket timqeout을 늘려줫어요 kind: ConfigMap ap..

Data/Trino 2023.03.15

Trino) Deview 2023에 나왔던 JMX 모니터링 따라해보기

최근에 Deview 2023에서 Trino 관련 내용 중에서 JMX 모니터링을 따라해보려고 해요 비록 현장 참여는 못했지만, 너무 정리잘된 pdf를 참고했습니다. 예상 독자는 아래와 같습니다. Trino 적용을 검토하는 분 s3, hdfs의 파일을 Ansi SQL로 읽고 싶으신 분 Impala, SparkSql 대체를 고려하시는 분 다룰 내용은 아래와 같습니다 JMX로 모니터링하기 https://deview.kr/data/deview/session/attach/[133]CQuery%20-%20%EC%9A%B0%EB%8B%B9%ED%83%95%ED%83%95%20Trino%EC%99%80%20%EC%8D%B8%ED%83%80%EA%B8%B0.pdf S Trino란? Trino는 2007년 Facebook에..

Data/Trino 2023.03.12

airflow) dag clear 하지 않고 특정 시점부터 재시작하기

airflow 돌리다보면 다시 dag를 실행해야할 때가 있어요 dag clear가 멱등성 원칙을 지켜진다면 최고지만 그렇지 않거나, history를 남겨야할 때는 어떡할가요 cli에서 dag clear와 dag backfill 명령어로 실행할 수 잇어요 airflow tasks clear test-d-del-log-dag --start-date 2023-02-24 --end-date 2023-02-26 airflow dags backfill test-batch-d-del-log-dag --start-date 2023-02-24 --end-date 2023-02-26 첫번째 tasks clear는 해당 날짜 범위사이를 clear 해줘요. ui 상에서는 하얀색으로 변하게 되겠죠 그럼 그 날짜를 토대로 bac..

Data/Airflow 2023.02.27

kafka) kafka_exporter 설정 (prometheus,helm)

kafka_exporter를 이용하면 prometheus에서 metric을 조회할 수 있어요 예상 독자는 아래와 같아요 kafka cluster를 모니터링하고 싶은 분 prometheus helm을 사용하시는 분 미래의 나 요약 kafka exporter 실행 prometheus 설정 grafana 대시보드 설명 1. kafka_exporter 실행 다운로드 wget https://github.com/danielqsj/kafka_exporter/releases https://github.com/danielqsj/kafka_exporter/releases/download/v1.2.0/kafka_exporter-1.2.0.linux-amd64.tar.gz 실행 tar -zxvf kafka_exporter-1..

Data/Kafka 2022.08.05

Airflow) 'Custom Operator' 실무 적용하기_s3,hook

스터디를 통해 배운 내용을 실무에 정리한 글이에요 책의 8장 내용 custom operator를 참고했습니다. airflow를 운영하면서 가장 불안했던 부분은 '관리가 힘든 것' 이었어요 Python을 사용해서 개발자/분석가 접근성이 높은 것은 좋은데, 자유도가 너무 높아서 산으로 가더라고요. 예상 독자는 아래와 같아요 airflow 도입을 고민하는 분 dag 관리가 산으로 가는 분 확산을 해야 하는 분 요약 문제: PythonOperator는 관리가 되지 않고, 높은 자유도가 오히려 독이 되고 있음, 분석: 재사용 가능한 모듈을 적용해야하고, 모듈은 커밋 전 코드 리뷰가 필요 적용: Custom Operator를 적용함 결과: 문제 발생 부분이 일원화되고, 반복 코드가 감소함 설명 1. 문제 Pytho..

Data/Airflow 2022.08.01

Slipp) Airflow 2.0 스터디 후기_22기

airflow 스터디가 끝나서 후기를 작성해보려고 해요 (MBTI 극J인 조장을 만나서 고생하신 팀원들께 다시 감사합니다) 3개월 동안 진행했던 'Airflow 2.0' 을 통해 얻은 것을 정리했어요 스터디를 통해 저희가 무엇을 배웠는지를 이야기해보려 해요 이 포스팅의 독자는 아래와 같아요 airflow 스터디가 어떻게 진행되는지 궁금하신 분 책 내용이 궁금하지만 직접 보기는 망설여지시는 분들 구성 스터디 소개 스터디 회고 실무 적용 마무리 1. 스터디 소개 'slipp X 우아한 스터디'를 통해 스터디원을 모집했고, 어마어마한 선배님들이 신청을 해주셨어요. 주제: Airflow 2.0에 익숙해지고 상황별 사례 공유하기 목표: 배워서 실무에 적용해보기 산출물: 챕터별 스터디 내용 + Q&A 모음 자료: ..

Data/Airflow 2022.07.29

kafka) cmak 설치 (kafka manager)

kafka cluster를 설정하기 위해서, 이전 포스팅에서 zk와 kafka를 실행했어요 이제 관리를 위해 yahoo에서 만든 kafka manager를 설치해보려합니다. 예상 독자 kafka manager를 설치하려고 하는 분 미래의 나 요약 cmak binary 다운로드 설정 변경 시작/중지 설명 1. cmak binary 다운로드 wget https://github.com/yahoo/CMAK/releases/download/3.0.0.6/cmak-3.0.0.6.zip unzip cmak-3.0.0.6.zip 2. 설정 변경 # conf/application.conf 수정 kafka-manager.zkhosts="kafka1:2181,kafka2:2181,kafka3:2181" cmak.zkhost..

Data/Kafka 2022.07.28

kafka) kafka cluster 설정

이전 포스팅에서 zookeeper cluster 생성했고 kafka) zookeeper cluster 설정하기 kafka cluster를 만들기 위해서는 zookeeper cluster 생성이 필요해요 zookeeper를 걷어낸다고는 하지만 아직 한참 남은 것 같아요 예상 독자 zookeeper cluster 설정하려고 하는 분 미래의 나 요약 zookeepr 다운.. mightytedkim.tistory.com 이제 kafka cluster 세팅해야해요 예상 독자 kafka cluster 설정하려고 하는 분 미래의 나 요약 kafka다운로드 설정 변경 실행/중지 설명 1. Kafka 다운로드 다운로드 받아서 압축 풀기: https://archive.apache.org/dist/kafka/3.1.1/ka..

Data/Kafka 2022.07.28

kafka) zookeeper cluster 설정하기

kafka cluster를 만들기 위해서는 zookeeper cluster 생성이 필요해요 zookeeper를 걷어낸다고는 하지만 아직 한참 남은 것 같아요 예상 독자 zookeeper cluster 설정하려고 하는 분 미래의 나 요약 zookeepr 다운로드 설정 변경 실행/중지 설명 1. zookeepr 다운로드 다운로드 받아서 압축 풀기: https://zookeeper.apache.org/releases.html bin conf 폴더 안의 파일을 수정하고 zookeeper_data는 자동 생성 $ wget https://dlcdn.apache.org/zookeeper/zookeeper-3.6.3/apache-zookeeper-3.6.3-bin.tar.gz $ ls /home/manager/apac..

Data/Kafka 2022.07.28