'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

trino 4

trino) mysql insert 에러 발생, 방화벽 실수_could not create connection

K8S에 Trino를 올리고, 오픈 전 테스트 진행을 하고 있었어요. 요약trino이용해서 mysql insert하는데 `could not create connection`나옴.알고보니, k8s worker 중 1개 방화벽 설정을실수함문제최근에, Spark Thrift Server를 이용해 진행하던 data pipeline 작업을 Trino로 이전하고 있습니다. (hive metatstore로 s3의 parquet를 읽고, mysql에 insert하는 작업) 빠른 테스트를 위해서 trino-worker를 3개로 설정했었고, 문제 없다는 것도 확인했죠. 그런데 trino-worker 9개로 늘리고 퇴근을 했더니 Airflow에서 에러를 마구 뱉습니다. Select는 되는데, Insert할 때만 에러를 뱉더..

Data/Trino 2023.05.21

superset) trino 연결해서 그래프 그리기

superset에서는 pip install만 하면 db connection을 만들 수 있어요. 그런데 어떻게 추가하는지 처음에는 당황스러울 수 있어요 예상 독자는 아래와 같아요. superset에 connection 맺으려고, dockefile 예시 찾는 분 Superset 이 무엇인지 설명하는 이전 글은 아래 링크에 있어요 https://mightytedkim.tistory.com/191 Supserset) 슈퍼셋 들어보셧나요? 사용 후기 듣고 가세요! (filter 조건 위치 변경해서 full scan 방지) 요즘 '빅데이터 지탱하는 기술' 보고 있는데, superset이 나와서 정리해봣어요예상 독자는 아래와 같아요 - superset 사용하시려는 분 - 기본 구조를 아시고 싶으신 분 - filter..

Data/Superset 2023.04.23

Trino) Deview 2023에 나왔던 JMX 모니터링 따라해보기

최근에 Deview 2023에서 Trino 관련 내용 중에서 JMX 모니터링을 따라해보려고 해요 비록 현장 참여는 못했지만, 너무 정리잘된 pdf를 참고했습니다. 예상 독자는 아래와 같습니다. Trino 적용을 검토하는 분 s3, hdfs의 파일을 Ansi SQL로 읽고 싶으신 분 Impala, SparkSql 대체를 고려하시는 분 다룰 내용은 아래와 같습니다 JMX로 모니터링하기 https://deview.kr/data/deview/session/attach/[133]CQuery%20-%20%EC%9A%B0%EB%8B%B9%ED%83%95%ED%83%95%20Trino%EC%99%80%20%EC%8D%B8%ED%83%80%EA%B8%B0.pdf S Trino란? Trino는 2007년 Facebook에..

Data/Trino 2023.03.12

Kubernetes)Trino설치_yaml

spark thrift server는 관리하기 힘들어서, Trino 공부 thrift 세팅하신 분들은 metastore, mysql 그대로 사용하면 되니까 금방 hello world 할 수 있을거에요 https://github.com/joshuarobinson/trino-on-k8s https://joshua-robinson.medium.com/presto-powered-s3-data-warehouse-on-kubernetes-aea89d2f40e8 결과 $ k get all -n trino NAME READY STATUS RESTARTS AGE pod/trino-cli 1/1 Running 0 35d pod/trino-coordinator-574c748c86-j56pt 1/1 Running 0 35d ..

Data/Trino 2022.02.25