'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

pyspark 3

Jupyterhub) Helm 설치_hub-db-dir 에러 해결

한줄 요약: helm으로 따라했는데 버그였음. 그런데 다시해보니 재현이 안됨 요약 k8s에 jupyterhub를 설치함 hub 컨테이너 pvc 매핑 문제 발생 설명 1. k8s에 jupyterhub를 설치함 공식문서에 나온대로 따라하면 됨 helm repo add jupyterhub https://jupyterhub.github.io/helm-chart/ helm repo update helm upgrade --cleanup-on-fail \ --install jupyterhub private-reop/jupyterhub \ --namespace jhub \ --create-namespace \ --version=1.20 \ --values config.yaml hub, user-scheduler 실행이..

Data/Jupyterhub 2022.03.29

Python) pyspark dataframe overwrite

pandas dataframe만 사용하다가, overwrite가 필요해서 pyspark dataframe을 활용함 내가 필요한건 upsert인데, delta table도 살펴봐야겠음 import json from pyspark import SparkContext, SQLContext from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType,IntegerType import os #java_home os.environ['JAVA_HOME'] = '/home/java/jdk1.8.0_301' columns = ['amount', 'id'] spark = SparkSession.bui..

기타/Python 2021.10.12

youtube) k8s+spark+minio 실습 따라하기_1 :: mightytedkim

회사에서 minio, spark, kuberenetes를 사용하게 되면서 유투브에서 좋은 자료를 찾아 따라했어요 유투브는 크게 2가지로 나누어지는데 이 게시물에서는 1번만 따라했어요. 1. minio on spark: minio > pyenv > spark-submit 로 결과 출력 2. kubernetes: sparkoperator를 이용해 kubernetes pod로 결과 출력 쉽게 따라할 수 잇었던 부분도 있고, 방화벽이나 네트워크 관련 문제 때문에 다른 방법을 사용하기도 했습니다. 1. minio 실행 후 pyspark로 결과 출력 minio: helm으로로 minio 실행 python: pyenv, pyenv-virtualenv 세팅 spark: spark-submit main.py Minio ..

기타/K8S 2021.09.21