'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

기타 63

udemy) CKA강의 듣고 따라하기_sample :: migthytedkim

+ 후기 회사에서 Kubernetes 구축을 진행했는데, 이 좋은 경험을 내가 다 흡수하지 못한 것 같아 k8s에 대해서 공부해보려고 해요. 가장 유명한 udemy 강의를 선택했고, 결재 전에 sample 강의들을 들어봤고 만족스럽다네여. 이제 구매하고 시작하려고 합니다 ㅎ https://www.udemy.com/course/certified-kubernetes-administrator-with-practice-tests/ 강의 목적: install, configure 강의 방식: 데모로 먼저 익숙해지고, 마지막에 최종 설치 예정 후기: 4.7점, 후기 34,548개, 수강 147,813개 속도: 굳이 빠른 배속 필요 없을 듯 느낀점: 그림으로 엄청 쉽게 k8s의 개념을 설명해줌, 이정도 표현력이면 괜춘..

기타/K8S 2022.01.03

Kubernetes) Forbidden User 보는 방법_role,sa

Forbidden 에러, clusterrole과 serviceaccount로 해결 clusterrole과 serviceaccount 확인하기 spark 테스트하는 도중 권한 관련 로그를 접했어요 #kubernetes.client.rest.ApiException: (403) #Reason: Forbidden #HTTP response headers: HTTPHeaderDict({'Cache-Control': 'no-cache, private', 'Content-Type': 'application/json', 'X-Content-Type-Options': 'nosniff', 'Date': 'Fri, 19 Nov 2021 06:50:38 GMT', 'Content-Length': '417'}) #HTTP re..

기타/K8S 2021.11.23

Docker) run할 때 git pull하기

spark-base 이미지 안에서 run 할 때 git pull 을 할 일이 생겼다. (build할 때 git pull 은 사실 git action이나 gitlab runner를 사용할 부분인 것 같다.) spark-base 이미지는 java가 base인 debian이다. 나는 base 이미지에다가 필요한 패키지를 설치햇다. Dockerfile FROM spark-3.1.2-base/spark-py:1.0.0 USER root # vm에서 프록시 설정(생략 가능) ENV DEBIAN_FRONTEND=noninteractive \ TZ=Asia/Seoul \ https_proxy=http://1**.2**.**.**2:**80 \ http_proxy=http://1**.2**.**.**2:**80 #lab..

기타/Docker 2021.11.12

Python) parquet upsert with delta table

https://docs.delta.io/latest/quick-start.html Quickstart — Delta Lake Documentation This guide helps you quickly explore the main features of Delta Lake. It provides code snippets that show how to read from and write to Delta tables from interactive, batch, and streaming queries. To create a Delta table, write a DataFrame out in the delta docs.delta.io parquet를 upsert하는 방식이 있다고 해서 따라해봄요 pip down..

기타/Python 2021.10.19

Python) pyspark dataframe append

월별로 들어오는 데이터를 적재하는 방법에서 APPEND 사용 데이터 양이 크지않아서 coalesce(1) 을 줌 import json from pyspark import SparkContext, SQLContext from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType,IntegerType import os #java_home os.environ['JAVA_HOME'] = '/home/java/jdk1.8.0_301' columns = ['amount', 'id'] spark = SparkSession.builder.getOrCreate() vals = [(111, 1), (2..

기타/Python 2021.10.13

Python) pyspark dataframe overwrite

pandas dataframe만 사용하다가, overwrite가 필요해서 pyspark dataframe을 활용함 내가 필요한건 upsert인데, delta table도 살펴봐야겠음 import json from pyspark import SparkContext, SQLContext from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType,IntegerType import os #java_home os.environ['JAVA_HOME'] = '/home/java/jdk1.8.0_301' columns = ['amount', 'id'] spark = SparkSession.bui..

기타/Python 2021.10.12

youtube) k8s+spark+minio 실습 따라하기_2 :: mightytedkim

이전 게시물에서는 kuberenetes 없이 python으로 minio의 결과를 확인해봤어요 Kubernetes) How to run Spark with Minio in Kubernetes_1 회사에서 minio, spark, kuberenetes를 사용하게 되면서 유투브에서 좋은 자료를 찾아 따라했어요 유투브는 크게 2가지로 나누어지는데 이 게시물에서는 1번만 따라했어요. 1. minio > pyenv > spark-submit 로 mightytedkim.tistory.com 이 포스팅에서는 kubernetes pod 안에서 minio의 결과를 호출하는지 확인해봤어요 유투브는 크게 2가지로 나누어지는데 이 게시물에서는 sparkoperator를 따라했어요. 1. minio on spark: minio ..

기타/K8S 2021.09.21