'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

분류 전체보기 184

회고)23년 상반기_스타트업 합류 + 커뮤니티

마음대로 생각나느대로 적는 의식의 흐름 회고입니다. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 저는 작년 말에 스타트업에 합류했어요 살면서 가장 다이나믹했던 시기를 정리해보려고 해요 스타트업 합류_데이터 엔지니어 HW 기반 스타트업의 AI플랫폼팀 빌딩 멤버로 시작 `반지형` 웨어러블 마우스를 만드는 회사에 합류했어요. 3차원 공간을 통제하겠다는 목표로 소형 컨트롤러를 만드는 회사인데. 더 정밀한 통제를 위해 SW팀을 빌딩 중이더라고요 https://www.youtube.com/watch?v=uHEO3xxgYrk 모든 스타트업들이 그러하겠지만, 격동의 시기에 합류했더라고요. 이전 회사에서는 당연했던 것들이 당연하지 않았거든요. - 채용 공고는 인사팀에 요청하면 되는 거였고, - 코드와 자료는 기존 시스템에 맞게 정..

커뮤니티/글또 2023.07.16

Slipp)사이드프로젝트_스마트폰 센서 실시간 저장_2(기능 추가,버그 수정)

요약 '스마트폰 센서 실시간 저장/시각화' 토이 프로젝트를 하고 있어요. 지난 포스팅에서는 외국 블로그를 참고해서, k8s에 서비스를 올리는 것까지 진행했어요' 이번에는 몇가지 기능을 추가하고 버그를 수정하려고 합니다.ㅎ https://mightytedkim.tistory.com/196 Slipp)사이드프로젝트_센서 실시간 저장_1(strimzi,questdb,fastapi) '토이프로젝트 만들기' 스터디를 신청해서 진행 중입니다. 1차 목표인, 휴대폰 데이터 스트리밍은 성공했고 그 후기를 정리했습니다 스터디 시작 - 아주 작은 사이드 프로젝트(아작사) 스터디를 mightytedkim.tistory.com 예상 독자 이 친구가 뭘 수정했나 궁금하신 분 스마트폰의 센서 데이터를 수집하시려는 분 아래 블로그..

커뮤니티/slipp 2023.06.18

Jupyterhub) k8s 1.27에서 helm 에러 수정_bug

쿠버 버전을 업그레이드했다가, 에러가 발생했어요. 공식 github에서도 2일전에 bug라는 issue가 등록되었더라고요 요약 1. k8s 1.27에서 pod spawning이 안됨 2. 공식 인정 버그였음 3. image를 변경하고, deprecated된 api를 수정함 환경 - helm chart 3.0.0 - k8s v1.27.0 (기존에는 1.24) 에러 v1beta1.CSIStorageCapacity 관련 에러 - Failed to watch *v1beta1.CSIStorageCapacity: failed to list *v1beta1.CSIStorageCapacity: W0530 17:41:37.219051 1 reflector.go:324] k8s.io/client-go/informers/f..

Data/Jupyterhub 2023.06.11

trino) mysql insert 에러 발생, 방화벽 실수_could not create connection

K8S에 Trino를 올리고, 오픈 전 테스트 진행을 하고 있었어요. 요약trino이용해서 mysql insert하는데 `could not create connection`나옴.알고보니, k8s worker 중 1개 방화벽 설정을실수함문제최근에, Spark Thrift Server를 이용해 진행하던 data pipeline 작업을 Trino로 이전하고 있습니다. (hive metatstore로 s3의 parquet를 읽고, mysql에 insert하는 작업) 빠른 테스트를 위해서 trino-worker를 3개로 설정했었고, 문제 없다는 것도 확인했죠. 그런데 trino-worker 9개로 늘리고 퇴근을 했더니 Airflow에서 에러를 마구 뱉습니다. Select는 되는데, Insert할 때만 에러를 뱉더..

Data/Trino 2023.05.21

Slipp)사이드프로젝트_센서 실시간 저장_1(strimzi,questdb,fastapi)

요약 '토이프로젝트 만들기' 스터디를 신청해서 진행 중입니다. 1차 목표인, 휴대폰 데이터 스트리밍은 성공했고 그 후기를 정리했습니다 예상 독자 이 친구가 뭘 수정했나 궁금하신 분 스마트폰의 센서 데이터를 수집하시려는 분 아래 블로그 포스팅을 고도화하고 싶으신 분 https://towardsdatascience.com/a-real-time-streaming-project-with-smartphone-data-7e838a1b009d 결과물 [주제 구상] - 무엇을 주제로 선택할까 휴대폰의 센서 데이터 수집 업무가 주로 실시간 데이터 파이프라인을 구축임데, 보내는 쪽의 데이터를 선택할 수 없는게 좀 아쉽더라고요. (공장에서 보내는 것을 그냥 받아야하니까ㅜ) 그래서 제가 선택할 수 있는 데이터는 무엇이 있을까..

커뮤니티/slipp 2023.05.21

superset) trino 연결해서 그래프 그리기

superset에서는 pip install만 하면 db connection을 만들 수 있어요.그런데 어떻게 추가하는지 처음에는 당황스러울 수 있어요 예상 독자는 아래와 같아요.superset에 connection 맺으려고, dockefile 예시 찾는 분Superset 이 무엇인지 설명하는 이전 글은 아래 링크에 있어요https://mightytedkim.tistory.com/191 Supserset) 슈퍼셋 들어보셧나요? 사용 후기 듣고 가세요! (filter 조건 위치 변경해서 full scan 방지)요즘 '빅데이터 지탱하는 기술' 보고 있는데, superset이 나와서 정리해봣어요예상 독자는 아래와 같아요 - superset 사용하시려는 분 - 기본 구조를 아시고 싶으신 분 - filter를 whe..

Data/Superset 2023.04.23

kubernetes) k8s dashboard limited acess 설정하기_readonly

k8s dashboard를 제공하기는 해야하는데, 읽기 권한만 부여하고 싶을 때가 있어요. 예를 들어, spark on k8s 환경의 경우 분석가 분들이 pod의 memory/cpu 사용량을 봐야할 때가 있겠네요. 사용량이나 로그를 봐야지 executor와 memory를 늘릴지 말지 판단할 수 있기 때문이에요. 제가 참고한 코드는 fabianlee의 블로그에요 https://fabianlee.org/2022/08/05/kubernetes-accessing-the-kubernetes-dashboard-with-least-privilege/ Kubernetes: accessing the Kubernetes Dashboard with least privilege | Fabian Lee : Software En..

기타/K8S 2023.04.23

Airflow) Base image에 라이브러리 추가하기

Airflow에 여러 operator들이 있는데,python Operator에서도 특정 라이브러리들이 필요할 때가 있어요 예상 독자는 다음과 같아요.1. K8S Airflow에서 추가 패키지들을 어떻게 관리하는지 궁금한 분2. dependency 최소로 db connection을 맺고 싶으신 분저 같은 경우, 3가지를 추가해요1. 디버깅을 위한 apt install - 디버깅의 경우 pod 안에서 curl, vim, tcpdump 등이 필요해서 root로 설치를 해줫어요 2. jdbc connection을 위한 jar- dependency 관리 측면에서 득이되기 때문에, 추가해주고 있어요. 3. pip install- 마지막으로는 jdbc 사용에 필요한 jaydebeapi, pymysql - s3fs, ..

Data/Airflow 2023.04.23

Spark) createOrReplaceTempView

빅지기 책 233쪽에 보면 `SparkSql을 사용하면, 데이터프레임을 SQL로 집계할 수 있다.` 라고 말하며 createOrReplaceTempView를 이야기해준다. 항상 df으로 작업하던 나에게 꿀같은 소식. 난 SQL이 더 편한다. df.createOrReplaceTempView('test') spark.sql("select * from test").show(3) +-------+---------+ | col1| col2| +-------+---------+ | a| 1| | b| 2| | c| 3| +-------+---------+ only showing top 3 rows하지 않는 한, 쿼리를 실행할 때마다 항상 최신의 데이터가 들ㅇ쳐진다. spark thrift server에서 thrif..

Data/Spark 2023.03.27

Supserset) 슈퍼셋 들어보셧나요? 사용 후기 듣고 가세요! (filter 조건 위치 변경해서 full scan 방지)

요즘 '빅데이터 지탱하는 기술' 보고 있는데, superset이 나와서 정리해봣어요예상 독자는 아래와 같아요 - superset 사용하시려는 분 - 기본 구조를 아시고 싶으신 분 - filter를 where절 안에서 사용하고 싶으신분 저는 k8s helm을 이용해서 구현했어요 사용 방법은 kibana와 비슷해서 편했고, 저는 trino를 데이터 소스로 사용했어요superset이란?- airbnb(2016)에서 만든 BI 툴 - 사용자 친화적인 UI데모 페이지 들어가면 볼 수 있어요 https://superset.demo.datahubproject.io/superset/welcome/Supersetsuperset.demo.datahubproject.io느낀 장/단점장점 - 공짜 - 연결할 데이터 소스가 많..

Data/Superset 2023.03.26