'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

Data/Trino 4

trino) mysql insert 에러 발생, 방화벽 실수_could not create connection

K8S에 Trino를 올리고, 오픈 전 테스트 진행을 하고 있었어요. 요약trino이용해서 mysql insert하는데 `could not create connection`나옴.알고보니, k8s worker 중 1개 방화벽 설정을실수함문제최근에, Spark Thrift Server를 이용해 진행하던 data pipeline 작업을 Trino로 이전하고 있습니다. (hive metatstore로 s3의 parquet를 읽고, mysql에 insert하는 작업) 빠른 테스트를 위해서 trino-worker를 3개로 설정했었고, 문제 없다는 것도 확인했죠. 그런데 trino-worker 9개로 늘리고 퇴근을 했더니 Airflow에서 에러를 마구 뱉습니다. Select는 되는데, Insert할 때만 에러를 뱉더..

Data/Trino 2023.05.21

Trino) session timeout 설정_hive.s3.socket-timeout

trino를 도입하려고 알아보는데, 여기는 특정 파티션을 찍어서 파티션 업데이트하는게 없고 전체를 선택해야하더라고요. 그러다보니 초기 세팅시에 데이터가 너무 많아 socket timeout exception이 발생했어요 복사를 하지 않아 비슷한 로그를 복사해왔습니다. com.facebook.presto.spi.PrestoException: hive-metastore-server:9083: java.net.SocketTimeoutException: Read timed out 아래 명령어를 실행해서 그런건데요 CALL system.sync_partition_metadata('test', 'hgkim', 'add', true); 그래서 socket timqeout을 늘려줫어요 kind: ConfigMap ap..

Data/Trino 2023.03.15

Trino) Deview 2023에 나왔던 JMX 모니터링 따라해보기

최근에 Deview 2023에서 Trino 관련 내용 중에서 JMX 모니터링을 따라해보려고 해요 비록 현장 참여는 못했지만, 너무 정리잘된 pdf를 참고했습니다. 예상 독자는 아래와 같습니다. Trino 적용을 검토하는 분 s3, hdfs의 파일을 Ansi SQL로 읽고 싶으신 분 Impala, SparkSql 대체를 고려하시는 분 다룰 내용은 아래와 같습니다 JMX로 모니터링하기 https://deview.kr/data/deview/session/attach/[133]CQuery%20-%20%EC%9A%B0%EB%8B%B9%ED%83%95%ED%83%95%20Trino%EC%99%80%20%EC%8D%B8%ED%83%80%EA%B8%B0.pdf S Trino란? Trino는 2007년 Facebook에..

Data/Trino 2023.03.12

Kubernetes)Trino설치_yaml

spark thrift server는 관리하기 힘들어서, Trino 공부 thrift 세팅하신 분들은 metastore, mysql 그대로 사용하면 되니까 금방 hello world 할 수 있을거에요 https://github.com/joshuarobinson/trino-on-k8s https://joshua-robinson.medium.com/presto-powered-s3-data-warehouse-on-kubernetes-aea89d2f40e8 결과 $ k get all -n trino NAME READY STATUS RESTARTS AGE pod/trino-cli 1/1 Running 0 35d pod/trino-coordinator-574c748c86-j56pt 1/1 Running 0 35d ..

Data/Trino 2022.02.25