'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

기타/Python 4

Python) code 내에서 변수 초기화

proxy 설정 때문에 python에서 requests 코드가 돌아가지 않는 상황 발생 ~/.bashrc나 /etc/environment에서 http_proxy, https_proxy를 주석해주면 되지만 나는 코드 내에서 초기화를 하고 싶었어요 방법은 아래와 같아요. 간단하지만 당황하면 생각이 안나서 메모! os.environ['http_proxy'] = "" os.environ['https_proxy'] = "" https://stackoverflow.com/questions/48862492/how-to-reset-system-proxy-in-centos-using-python-code

기타/Python 2022.11.22

Python) parquet upsert with delta table

https://docs.delta.io/latest/quick-start.html Quickstart — Delta Lake Documentation This guide helps you quickly explore the main features of Delta Lake. It provides code snippets that show how to read from and write to Delta tables from interactive, batch, and streaming queries. To create a Delta table, write a DataFrame out in the delta docs.delta.io parquet를 upsert하는 방식이 있다고 해서 따라해봄요 pip down..

기타/Python 2021.10.19

Python) pyspark dataframe append

월별로 들어오는 데이터를 적재하는 방법에서 APPEND 사용 데이터 양이 크지않아서 coalesce(1) 을 줌 import json from pyspark import SparkContext, SQLContext from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType,IntegerType import os #java_home os.environ['JAVA_HOME'] = '/home/java/jdk1.8.0_301' columns = ['amount', 'id'] spark = SparkSession.builder.getOrCreate() vals = [(111, 1), (2..

기타/Python 2021.10.13

Python) pyspark dataframe overwrite

pandas dataframe만 사용하다가, overwrite가 필요해서 pyspark dataframe을 활용함 내가 필요한건 upsert인데, delta table도 살펴봐야겠음 import json from pyspark import SparkContext, SQLContext from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType,IntegerType import os #java_home os.environ['JAVA_HOME'] = '/home/java/jdk1.8.0_301' columns = ['amount', 'id'] spark = SparkSession.bui..

기타/Python 2021.10.12