'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

MINIO 7

mc)mc cp와 mc mirror 차이

최근에 대용량 object stroage 파일 수십만개를 복사할 일이 생겼는데 그 때 mc cp와 mc mirror를 들여다 봤어요 + aws cli도 좋지만, mc(minio client)는 설치가 필요없이 압축만 풀면되는 agent 파일이어서 좋아요. (서버에 영향을 최소한으로 줄 수 있어서) 예상 독자 - mc(minio client)가 궁금한 분 - mc cp와 mc mirror의 차이가 궁금한 분 목차 1. mc cp는 뭐지 2. mc mirror는 뭐지 3. 두개의 차이점은 뭐지 4. 무엇을 적용했는지 1. mc cp는 뭐지 aws cli의 cp와 동일한 친구에요 단순히 복사하는 명령어로, 속도가 빠르고 단순하다는 장점이 있어요 하지만 boto3보다 안정적이라는거지, 수만개의 object를 이..

기타/K8S 2023.01.09

mc) mc cp 사용시 인증서 오류날 때_s3v2,s3v4

mc를 통해서 object storage의 데이터를 A cluster에서 B cluster로 옮기려고 했어요 참고로 저는 온프렘 k8s rook-ceph를 사용하고 있어요 alias 등록하고 목록 조회는 되는데, 다른 작업이 안되더라고요 $ mc alias ls ceph-test URL : http://192.16.172.56:30071 AccessKey : access-key SecretKey : secret-key API : S3v4 Path : dns ceph-vm URL : http://172.17.172.11:30071 AccessKey : access-key SecretKey : secret-key API : s3v4 Path : auto $ mc ls ceph-test/ [2022-10-12..

기타/K8S 2022.12.23

Ceph) readonly 계정 만들기_radosgw,subuser,s3 policy

분석계에서 데이터 당겨서 갈때, readonly로 주고 싶었음 secondary 만들어서 주는게 정석이지만, 과한 것 같아 radosgw + subuser + s3 policy로 구현함 요약 1. 상황 - readonly 계정이 필요함 - multi-site로 설정하기에는 너무 과함 2. 적용 - radosgw + subuser + s3 policy로 구현함 설명 1. 상황 - readonly 계정이 필요함 - multi-site로 설정하기에는 너무 과함 If the secondary zone needs to be a read-only configuration, update the secondary zone. # radosgw-admin zone modify --rgw-zone={zone-name} --..

Storage/Ceph 2022.04.25

Airflow) log를 minio에 저장_connection,yaml

하고 나면 너무 간단한데생각보다 인터넷에 관련된 정보가 명확히 나와잇지 않음 똑같은데 그럼 endpoint는 어디다가 입력하는데ㅜㅜ 성공하고 나서 문서를 보면 당연하지만, 작업 중에는 너무나 막막했던 내용 설정 방법 1. minio 실제 url에서는 이런식으로 http://1**.**.**.**:9000/object-browser/airflow-logs bucket 만들기 airflow-logs http://1**.**.**.**:9000 참고 pyspark 테스트하던 코드는 여기 https://mightytedkim.tistory.com/28 from pyspark import SparkContext from pyspark.sql import SparkSession from time import sle..

Data/Airflow 2021.11.12

youtube) k8s+spark+minio 실습 따라하기_2 :: mightytedkim

이전 게시물에서는 kuberenetes 없이 python으로 minio의 결과를 확인해봤어요 Kubernetes) How to run Spark with Minio in Kubernetes_1 회사에서 minio, spark, kuberenetes를 사용하게 되면서 유투브에서 좋은 자료를 찾아 따라했어요 유투브는 크게 2가지로 나누어지는데 이 게시물에서는 1번만 따라했어요. 1. minio > pyenv > spark-submit 로 mightytedkim.tistory.com 이 포스팅에서는 kubernetes pod 안에서 minio의 결과를 호출하는지 확인해봤어요 유투브는 크게 2가지로 나누어지는데 이 게시물에서는 sparkoperator를 따라했어요. 1. minio on spark: minio ..

기타/K8S 2021.09.21

youtube) k8s+spark+minio 실습 따라하기_1 :: mightytedkim

회사에서 minio, spark, kuberenetes를 사용하게 되면서 유투브에서 좋은 자료를 찾아 따라했어요 유투브는 크게 2가지로 나누어지는데 이 게시물에서는 1번만 따라했어요. 1. minio on spark: minio > pyenv > spark-submit 로 결과 출력 2. kubernetes: sparkoperator를 이용해 kubernetes pod로 결과 출력 쉽게 따라할 수 잇었던 부분도 있고, 방화벽이나 네트워크 관련 문제 때문에 다른 방법을 사용하기도 했습니다. 1. minio 실행 후 pyspark로 결과 출력 minio: helm으로로 minio 실행 python: pyenv, pyenv-virtualenv 세팅 spark: spark-submit main.py Minio ..

기타/K8S 2021.09.21

Harbor) minio 연결하기 실수

Harbor 연결이 안되서 여러 삽질을 했는데, 까먹기 전에 기록 1. docker push [harbor_domain] 을 입력했는데 오류가 남 retrying .. 2. Harbor 로그 찾아야함 /var/log/harbor가 default, 하지만 없음 $vi /root/harbor/docker-compose.yml 로그 경로 /data/harbor/ 확인 3. 로그 파일 중 뭘 봐야하는지 결정해야함 여러개 있는데, $ tail -f registry.log 4. 에러 로그 확인 err msg = s3 storage, minio에 '{' 가 있어서 안됨, regionendpoint에 cluster 설정 위해 {1~4} 입력했던게 에러가 났음 s3: accesskey: {MY_MINIO_ACCESSKE..

기타/Docker 2021.09.09