'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

kubernetes 33

Ceph)osd resource limit 설정_계산공식

limit 1Gib 직전으로 메모리 사용률이 조절된다. OSD당 최소 4Gib 할당, 메모리 사용량은 공식 사용 요약 1. ceph osd 메모리가 tera 단위로 올라감 2. cluster.yaml에서 resource limit 수정함 설명 1. ceph osd 메모리가 tera 단위로 올라감 > 결론부터 말하면 어떻게 얼마를 적용해라라는 기준이 아직 없음. 권고만 있음 관련 글을 하나씩 보기로하자. 나와 비슷한 고민을 한 사람이 있음 참고: https://github.com/rook/rook/issues/5821 1-1. 공식 문서 참고 : https://github.com/rook/rook/blob/master/design/ceph/resource-constraints.md GitHub - rook..

Storage/Ceph 2022.04.04

xen) vg not available 해결_reboot,vgchange -ay,k8s

한줄 요약: 서버 리붓하고 osd가 Init:CrashLoopBackOff 나서 내 마음도 함께 박살남 요약 1. vm 으로 구성되어 있는 cluster에 memory 를 늘리는 과정서 node들을 재시작함 2. 6개 클러스터를 한번에 재시작함 3. osd가 다시 살아나지 않음 4. vgchange -ay로 logical volume을 활성화시킴 설명 1. vm 으로 구성되어 있는 cluster에 memory 를 늘리는 과정서 node들을 재시작함 jupyterhub 설치하고 notebook 이미지 변경하다가, insufficient 메모리 에러가 나옴 vm cluster 메모리 할당을 늘림 2. 6개 클러스터를 한번에 재시작함 여기까지는 평화로웠음 3. osd가 다시 살아나지 않음 망함. osd 올라가..

기타/Xen 2022.03.29

udemy)CKA 강의 듣고 따라하기_4장_Logging,Monitoring:: mightytedkim

CKA 강의 듣고 따라하기_4장_Logging,Monitoring + 후기 수강기간: 20220329 (1일) 그라파나로 온갖 노가다로 만든 대시보드가 기억난다. 13분이면 정말 기본만 다룰 것 같아서 약간 아쉽다 역시 metrics-sever부분만 살짝 다룬다. log도 단순 명령어를 보여줌. 굳이 챕터를 나눴어야했나 싶음 79. Logging and Monitoring Section Introduction 1min > 개요 설명 80. Download Presentation Deck 1min > 문서 공유 81. Monitor Cluster Components 4min > metrics-server 는 따로 설치해야된다고 알려줌 상태를 확인해야하기 위해서는 cpu, memory 를 확인할 솔루션이 필..

기타/K8S 2022.03.29

udemy)CKA 강의 듣고 따라하기_2장_핵심개념 :: mightytedkim

+ 후기 기간 : 20220322 ~ 20220326 (5일) 이번 챕터는 문제만 풀고 넘어가도 괜찮았을 것 같다. 특별히 모르는 개념은 없었지만, 그래도 복습한다는 기분이 느껴져서 좋았다 ㅎ 10 ~ 18 - master, worker, control_plane, scheudler, etcd, kube-apiserver 등을 하나씩 알려줘서 좋음 - 설치할 대 따라하기만 했는데, 개념을 알고 다시 보니까 이해도가 높아졌다. 20 ~ 46 - 복습한다는 느낌으로 봤는데, 명령어들에 익숙한 사람들이면 스킵해도 될 것 같다. 나는 아래 정보들을 얻어서 좋았다. - label selector matchlabel - replicacontroller vs replicaset -> replicaset이 최신 - s..

기타/K8S 2022.03.26

Spark) k8s,jupyterhub에서 sparkUI 사용하기

spark ui를 jupyterhub에서 접근이 안되서 골머리를 썩는중 검색하다가 겨우 방법을 찾음 jupyterhub 접속 경로: http://10.***.29.***:30011/user/manager spark_session = SparkSession \ .builder.appName(APP_NAME) \ .master("k8s://https://172.17.***.**:6443") \ .config('spark.ui.proxyBase', '/user/manager/proxy/4040') \ jupyterhub spark UI 접속 경로: http://10.***.29.***:30011/user/manager/proxy/4040/environment/ 성공! 물론 pip install로 proxy 관..

Data/Spark 2022.03.24

Spark) spark_submit시 spark.app.id warning_ jupyterhub

jupyterhub에서 spark_submit을 하는데 warning이 뜬다. 예외처리해주면되는데, 궁금해서 알아봄 spark.app.id는 뭘까 import os, posixpath, socket import pyspark from pyspark.sql import SparkSession ​ spark = ( SparkSession.builder.appName("hgkim-spark") .config("spark.kryoserializer.buffer.max", "1024m") .config("spark.sql.sources.partitionOverwriteMode", "dynamic") .master("k8s://https://172.17.***.56:6443") .config("spark.kuber..

Data/Spark 2022.03.24

udemy)CKA 강의 듣고 따라하기_1장 :: mightytedkim

+ 후기 수강기간: 20220322 40분 구조 설명 부분이 기똥차다. 컨테이너 선박에 비유하면서 이야기해주는데 이정도 정성의 강의면 들을 가치가 충분하다고 생각한다. introduction은 어떻게 진행될건지 설명만 하고 있어서, 가볍게 들었다ㅎ Introduction 7 lectures • 20min 1. Course Introduction Preview 09:50 강의 소개 > 전체적인 개요를 설명해줌. 엄청 많음..= 1. core concepts - cluster architecture: 구성 - api primitives: pod, replicaset, ns 같은 것 복습 - services & other network primitives: 나머지 MASTER: manage, plan, sch..

기타/K8S 2022.03.22

Spark) spark volume data spill 이슈_spark-local-dir

한줄요약: spark-local-dir 로 실행안하는 사용자들 어칼까.. 이러다 다 죽음 ㅜㅜ 요약 spark-submit의 대량 read 작업시 spark job이 죽음 대량 작업이라 data spill 관련 문제로 추정 spark-local-dir 을 이용해 해결 설명 1. spark-submit의 대량 read 작업시 spark job이 죽음 2. 대량 작업이라 data spill 관련 문제로 추정 예전에 airflow로 잡돌릴 때, pvc 를 생성해서 해결해줬던 것으로 기억 (이름을 spark-loca-dir로 만들어주면 되는 것) https://mightytedkim.tistory.com/43 (Kubernetes) k8s와 Airflow 이용한 spark작업_SparkKubernetesOper..

Data/Spark 2022.03.21

Kubernetes) Prometheus emptydir disk full_초기화

개발 서버가 storage가 너무 부족하다 필요없는 파일을 마구 지워도 부족하다. 무엇이 문제일까. 며칠뒤에 다시 와보니 또 부족하다. $ df -h /var/lib/ 100% 보니까 /var/lib/kubelet이 대부분을 먹고 있다. $ du -h --max-deph=1 /var/lib 자세히 들어가보니, 하나의 폴더가 192G다. 대충 empty-dir 안잡고 pod 돌린 거라고 추정 $ du -h --max-deph=1 /var/lib/kubelet/pods/ /var/lib/kubelet/pods/e2164860-fe59-4520-a79e-de7ca32f302f/volumes/kubernetes.io~empty-dir/prometheus-storage-volume: 더 들어가본다. prometh..

기타/K8S 2022.03.16

Airflow) Pool 활용해서 dag 겹침 이슈 해결

평화로운 어느날 sparkKubernetesOperator가 미쳐 날뛰기 시작했다. 분명 10분정도면 끝나는 spark job인데, 30분이 넘게 걸려서 뒤의 작업과 겹쳐버렸다. (내 잘못ㅜ) grafana 보니까, spark-driver가 여러개 띄어져 있고 executor는 더 난리. 혹시 몰라 grafana에 대시보드 spark 용으로 만들어둬서 다행 spark thrift server ui를 보니까, 0.1초면 끝나는 작업이 hang 걸려있고 난리도 난리가 아니었다. schedule_interval="0 4 * * * " -> 10분이면 끝나는 작업 schedule_interval="30 4 * * * " -> 30분 넘게 걸려서 다른 작업과 겹침 줄줄이 비엔나로 겹침 쨋든 문제는 발견해서 다행 ..

Data/Airflow 2022.03.15