'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

HIVE 3

Kubernetes)Trino설치_yaml

spark thrift server는 관리하기 힘들어서, Trino 공부 thrift 세팅하신 분들은 metastore, mysql 그대로 사용하면 되니까 금방 hello world 할 수 있을거에요 https://github.com/joshuarobinson/trino-on-k8s https://joshua-robinson.medium.com/presto-powered-s3-data-warehouse-on-kubernetes-aea89d2f40e8 결과 $ k get all -n trino NAME READY STATUS RESTARTS AGE pod/trino-cli 1/1 Running 0 35d pod/trino-coordinator-574c748c86-j56pt 1/1 Running 0 35d ..

Data/Trino 2022.02.25

Spark) Thrift serverHive-Metastore OOM 해결_메모리 추가할당

갑자기 월요일 아침에 확인해보니 airflow job들이 일부 죽어잇음, 일단 request/limit 수정함 상황 - 왜그런가하고 봣는데, Thrift Server 사용하는 job들만 죽음 - 에러 로그는 err_msg = java.sql.SQLException: Error running query: org.apache.thrift.transport.TTransportException - hive meta store Pod를 보니까 pool, OOM Exception in thread "pool-7-thread-921" java.lang.OutOfMemoryError: GC overhead limit exceeded 문제 hivemetastore 메모리 부족 해결 metastore.yaml을 수정함, ..

Data/Spark 2022.01.10

Spark) Spark Thrift Server 클러스터에서 올리기

한줄요약: cluster로 thrift 를 올리는 정식 방벙은 아직 안나와서, 추후에 trino로 옮겨야할 것 같다. 개요 주제: Spark thrift server를 K8S cluster에 구현해함 문제: Cluster로 Thrift Server를 실행하는 방법이 없음 해결: 'mykidong' 블로그를 통해 예시를 찾음 이 포스팅은 mkidong님의 예시를 각색해서, 오프라인 온프렘 k8s cluster에 적용한 내용이에요 먼저, Spark Thrift Server 가 무엇인지 간단히 설명하고 예제와 함께, 참고한 블로그와 다른점을 기술하도록 할게요 ㅎ thrift server란? spark 에 sql을 날릴 수 있는 Thrift Server 라는게 있어요 daemon 처럼 jdbc 를 날릴 수 있는..

Data/Spark 2021.12.19