728x90
반응형
갑자기 월요일 아침에 확인해보니 airflow job들이 일부 죽어잇음, 일단 request/limit 수정함
상황
- 왜그런가하고 봣는데, Thrift Server 사용하는 job들만 죽음
- 에러 로그는
err_msg = java.sql.SQLException: Error running query: org.apache.thrift.transport.TTransportException
- hive meta store Pod를 보니까 pool, OOM
Exception in thread "pool-7-thread-921" java.lang.OutOfMemoryError: GC overhead limit exceeded
문제
hivemetastore 메모리 부족
해결
metastore.yaml을 수정함, 메모리를 늘려줌, 아래 메모리는 예시
resources: requests: memory: "20G" #"2G" cpu: 2 imagePullPolicy: Always |
확인
- pod 상태
NAME DESIRED CURRENT READY AGE replicaset.apps/metastore-84549b479 1 1 1 18m --> 수정: memory 20G replicaset.apps/metastore-b84879c9c 0 0 0 37d --> 기존: memory 2G |
- airflow job 정상 작동 확인
+ 2022-03-25
오늘 또 동일한 문제가 발생했다.
메모리 request를 늘리고, limits도 설정해줬다.
전에 해결된것은 pod 재기동해서 그렇지
설정값을 수정했기 때문은 아닌 것으로 보임
또 내려가는지 확인 후 다시 돌아올 예정
728x90
반응형
'Data > Spark' 카테고리의 다른 글
Spark) k8s,jupyterhub에서 sparkUI 사용하기 (0) | 2022.03.24 |
---|---|
Spark) spark_submit시 spark.app.id warning_ jupyterhub (0) | 2022.03.24 |
Spark) spark volume data spill 이슈_spark-local-dir (0) | 2022.03.21 |
Spark) Spark Thrift Server 클러스터에서 올리기 (0) | 2021.12.19 |
Spark) Spark Base Image Docker Build(VM, 내부망) (0) | 2021.11.11 |