'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

Memory 4

Ceph)osd resource limit 설정_계산공식

limit 1Gib 직전으로 메모리 사용률이 조절된다. OSD당 최소 4Gib 할당, 메모리 사용량은 공식 사용 요약 1. ceph osd 메모리가 tera 단위로 올라감 2. cluster.yaml에서 resource limit 수정함 설명 1. ceph osd 메모리가 tera 단위로 올라감 > 결론부터 말하면 어떻게 얼마를 적용해라라는 기준이 아직 없음. 권고만 있음 관련 글을 하나씩 보기로하자. 나와 비슷한 고민을 한 사람이 있음 참고: https://github.com/rook/rook/issues/5821 1-1. 공식 문서 참고 : https://github.com/rook/rook/blob/master/design/ceph/resource-constraints.md GitHub - rook..

Storage/Ceph 2022.04.04

xen) vg not available 해결_reboot,vgchange -ay,k8s

한줄 요약: 서버 리붓하고 osd가 Init:CrashLoopBackOff 나서 내 마음도 함께 박살남 요약 1. vm 으로 구성되어 있는 cluster에 memory 를 늘리는 과정서 node들을 재시작함 2. 6개 클러스터를 한번에 재시작함 3. osd가 다시 살아나지 않음 4. vgchange -ay로 logical volume을 활성화시킴 설명 1. vm 으로 구성되어 있는 cluster에 memory 를 늘리는 과정서 node들을 재시작함 jupyterhub 설치하고 notebook 이미지 변경하다가, insufficient 메모리 에러가 나옴 vm cluster 메모리 할당을 늘림 2. 6개 클러스터를 한번에 재시작함 여기까지는 평화로웠음 3. osd가 다시 살아나지 않음 망함. osd 올라가..

기타/Xen 2022.03.29

Spark) spark volume data spill 이슈_spark-local-dir

한줄요약: spark-local-dir 로 실행안하는 사용자들 어칼까.. 이러다 다 죽음 ㅜㅜ 요약 spark-submit의 대량 read 작업시 spark job이 죽음 대량 작업이라 data spill 관련 문제로 추정 spark-local-dir 을 이용해 해결 설명 1. spark-submit의 대량 read 작업시 spark job이 죽음 2. 대량 작업이라 data spill 관련 문제로 추정 예전에 airflow로 잡돌릴 때, pvc 를 생성해서 해결해줬던 것으로 기억 (이름을 spark-loca-dir로 만들어주면 되는 것) https://mightytedkim.tistory.com/43 (Kubernetes) k8s와 Airflow 이용한 spark작업_SparkKubernetesOper..

Data/Spark 2022.03.21

Airflow) Pool 활용해서 dag 겹침 이슈 해결

평화로운 어느날 sparkKubernetesOperator가 미쳐 날뛰기 시작했다. 분명 10분정도면 끝나는 spark job인데, 30분이 넘게 걸려서 뒤의 작업과 겹쳐버렸다. (내 잘못ㅜ) grafana 보니까, spark-driver가 여러개 띄어져 있고 executor는 더 난리. 혹시 몰라 grafana에 대시보드 spark 용으로 만들어둬서 다행 spark thrift server ui를 보니까, 0.1초면 끝나는 작업이 hang 걸려있고 난리도 난리가 아니었다. schedule_interval="0 4 * * * " -> 10분이면 끝나는 작업 schedule_interval="30 4 * * * " -> 30분 넘게 걸려서 다른 작업과 겹침 줄줄이 비엔나로 겹침 쨋든 문제는 발견해서 다행 ..

Data/Airflow 2022.03.15