'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

Storage 6

mc)mc cp와 mc mirror 차이

최근에 대용량 object stroage 파일 수십만개를 복사할 일이 생겼는데 그 때 mc cp와 mc mirror를 들여다 봤어요 + aws cli도 좋지만, mc(minio client)는 설치가 필요없이 압축만 풀면되는 agent 파일이어서 좋아요. (서버에 영향을 최소한으로 줄 수 있어서) 예상 독자 - mc(minio client)가 궁금한 분 - mc cp와 mc mirror의 차이가 궁금한 분 목차 1. mc cp는 뭐지 2. mc mirror는 뭐지 3. 두개의 차이점은 뭐지 4. 무엇을 적용했는지 1. mc cp는 뭐지 aws cli의 cp와 동일한 친구에요 단순히 복사하는 명령어로, 속도가 빠르고 단순하다는 장점이 있어요 하지만 boto3보다 안정적이라는거지, 수만개의 object를 이..

기타/K8S 2023.01.09

xen) xcp_ng disk full 해결(orphan disk)

snapshot 마구 찍다가 storage 가 꽉차서, orphan disk를 xoa(UI)에서 삭제해줌 요약 상황 원인 조치 설정 상황 snapshot 마구 찍다가 storage repo가 꽉참 revert to snapshot 했는데 disk를 잡지 못해서 booting이 안됨 원인 k8s cluster 세팅하다가 뭔일 있을 때마다 snapshot 떠서 그런듯 기본적으로 VDI는 snapshot에 포함되는데 아래와 같음 - snapshot 뜨기 전에 base copy를 찍는데 이게 문제가 되는듯, metadata는 별로 안될테니까 Active VDI – As the name suggest it is the VDI which holds the current writes. This VDI is set t..

기타/Xen 2022.06.02

mariadb) pvc 부족으로 인한 fail -> binary 파일이 원인

구글링할 때 이런 에러로 검색하니 나옴, pvc 할당을 늘려줌 -> binary 파일을 삭제하지 않아서 그런거였음 + 추가 갑자기 pvc가 늘어난 원인을 찾았음 실시간 대용량 log 데이터를 바로 mariadb로 insert하고 있었음 그것도 1 connection, 1 insert kafka, redis 같은 큐 사용 왜하지 않았냐고 물으니까. 이렇게 많을 줄 몰랐다고.. 말인지 방구인지 문제 오픈했는데, 일단 이렇게 진행하자는 대답이 들어옴... 믿을 수 없음. 책임만 있고 권한은 없는 관리자가 나임 요약 문제발생 원인분석 조치 설명 1. 문제 발생 HQ mariadb 접속 안되는 문제 발생 2. 원인 분석 kubernetes pod CrashLoopBackOff, 재시작이 안되는 문제 -> pvc를..

Storage/mariadb 2022.04.15

xen) vg not available 해결_reboot,vgchange -ay,k8s

한줄 요약: 서버 리붓하고 osd가 Init:CrashLoopBackOff 나서 내 마음도 함께 박살남 요약 1. vm 으로 구성되어 있는 cluster에 memory 를 늘리는 과정서 node들을 재시작함 2. 6개 클러스터를 한번에 재시작함 3. osd가 다시 살아나지 않음 4. vgchange -ay로 logical volume을 활성화시킴 설명 1. vm 으로 구성되어 있는 cluster에 memory 를 늘리는 과정서 node들을 재시작함 jupyterhub 설치하고 notebook 이미지 변경하다가, insufficient 메모리 에러가 나옴 vm cluster 메모리 할당을 늘림 2. 6개 클러스터를 한번에 재시작함 여기까지는 평화로웠음 3. osd가 다시 살아나지 않음 망함. osd 올라가..

기타/Xen 2022.03.29

Spark) spark volume data spill 이슈_spark-local-dir

한줄요약: spark-local-dir 로 실행안하는 사용자들 어칼까.. 이러다 다 죽음 ㅜㅜ 요약 spark-submit의 대량 read 작업시 spark job이 죽음 대량 작업이라 data spill 관련 문제로 추정 spark-local-dir 을 이용해 해결 설명 1. spark-submit의 대량 read 작업시 spark job이 죽음 2. 대량 작업이라 data spill 관련 문제로 추정 예전에 airflow로 잡돌릴 때, pvc 를 생성해서 해결해줬던 것으로 기억 (이름을 spark-loca-dir로 만들어주면 되는 것) https://mightytedkim.tistory.com/43 (Kubernetes) k8s와 Airflow 이용한 spark작업_SparkKubernetesOper..

Data/Spark 2022.03.21

Kubernetes) Prometheus emptydir disk full_초기화

개발 서버가 storage가 너무 부족하다 필요없는 파일을 마구 지워도 부족하다. 무엇이 문제일까. 며칠뒤에 다시 와보니 또 부족하다. $ df -h /var/lib/ 100% 보니까 /var/lib/kubelet이 대부분을 먹고 있다. $ du -h --max-deph=1 /var/lib 자세히 들어가보니, 하나의 폴더가 192G다. 대충 empty-dir 안잡고 pod 돌린 거라고 추정 $ du -h --max-deph=1 /var/lib/kubelet/pods/ /var/lib/kubelet/pods/e2164860-fe59-4520-a79e-de7ca32f302f/volumes/kubernetes.io~empty-dir/prometheus-storage-volume: 더 들어가본다. prometh..

기타/K8S 2022.03.16