'데이터 엔지니어'로 성장하기

정리하는 걸 좋아하고, 남이 읽으면 더 좋아함

분류 전체보기 169

데이터 잡부의 MLOps도전기 (2) - 라벨링 툴로 CVAT을 선택한 이유 #VISION

라벨링 툴로 왜 CVAT을 선택했는지 정리했습니다 :) 글의 구조는 아래와 같습니다.CVAT이 뭐에요?선택한 이유는 뭐에요?아쉬운 점은 뭐에요?. 글의 타깃 독자는 아래와 같습니다.Labeling 툴 도입을 고민하시는 분CVAT을 사용하시는 분CVAT 도입을 고민하시는 분. 지난 포스팅에서는 Vision MLOps 프로젝트에 투입된 배경에 대해서 정리했어요 https://mightytedkim.tistory.com/205 데이터 잡부의 도전기 #Vision#CVAT#Nuclio23년 하반기는 힘들었지만 재미있었어요. 새로운 분야를 접했거든요 '데이터 잡부'의 도전에 대해 정리하려 합니다 :) 글의 구조는 아래와 같습니다. 원래 하던 업무 (pipeline) 제안받은 업무 (MLops)mightytedki..

AI/MLOps 2024.01.21

데이터 잡부의 MLOps도전기 (1) #이미지 불량탐지

23년 하반기는 힘들었지만 재미있었어요. 새로운 분야를 접했거든요 '데이터 잡부'의 도전에 대해 정리하려 합니다 :) 글의 구조는 아래와 같습니다. 원래 하던 업무 (pipeline) 제안받은 업무 (MLops) 수락하게 된 이유 . 글의 타깃 독자는 아래와 같습니다. MLops/AI 분야 병아리를 구경 온 선배님들 이제 MLops/AI 분야를 들어오려는 동지들 폐쇄망에서 어찌 진행했는지 궁금한 엔지니어들 . 자 이제 들어갑니다. 1. 원래 하던 업무 (pipeline) 폐쇄망에서, 해외 공장들의 data를 실시간으로 수집하는 pipeline 구축 #kafka, nifi, airflow, K8s, Ceph 기존에는 파이프라인 구축 업무를 했어요 처음 2년은 재미있었는데, 시간이 지나면서 매너리즘에 빠졌어..

AI/MLOps 2024.01.07

글또 9기 스타트 - "여러분 커피 마셔요"

안녕하세요! 난쏘공입니다. 3년 전부터 글쓰기 모임에 참여하고 있는데 기수마다 `목표`와 `글감`을 정리하며 시작하고 있어요,[5기, 20.11 ~ 21.05] - 글쓰는 습관 만들자! (ELK, mongodb, docker)[6기, 21.11 ~ 22.05] - 개발자 인맥 만들자! (kubernetes, Airflow, Spark)[7기, 22.05 ~ 22.11] - 글또콘에서 발표 해보자! (superset, trino, k8s)[8기, 23.02 ~ 23.08] - 사이드 프로젝트 해보자! (k8s, strimzi, questdb, argocd)이번 기수에서는 커피챗으로 글또 분들을 많이 만나고, vision 플랫폼을 만들며 사용한 오픈소스들에 대해 포스팅 할 예정입니다.[9기, 23.12 ~ ..

커뮤니티/글또 2023.11.27

Kubernetes) Container안에서, Image 빌드 가능한가요? (Part 2: Kaniko)

지난 포스팅에서는 Docker in Docker를 이용해서 image를 빌드했어요. 그런데 굳이 Image 빌드만 하면되는데 docker를 사용해야할까요? 예상 독자는 아래와 같습니다. Image 빌드에 굳이 Docker를 쓰고 싶지 않으신 분 보안에 취약한 Docker in Docker를 사용하고 싶지 않으신 분 Kaniko가 궁금하신 분 목차 내용 1. Kaniko란? 홈페이지: https://github.com/GoogleContainerTools/kaniko 한줄 요약: kaniko is a tool to build container images from a Dockerfile, inside a container or Kubernetes cluster. image: gcr.io/kaniko-pro..

기타/K8S 2023.09.30

Kubernetes) Container안에서, Image 빌드 가능한가요? (Part 1: docker in docker)

항상 Docker build는 Jenkins나 Git Action을 사용해왔어요. 그런데 권한 이슈 때문에 이걸 사용하지 못하는 상황을 마주쳤습니다. Docker In Docker로 이 상황을 어떻게 우회했는지 정리해보았습니다 예상 독자는 아래와 같습니다. Docker In Docker 가 궁금하신 분 Docker Out of Docker를 사용 못하시는 분 K8S 엔진으로 cri-o를 사용하시는 분 목차 상황 설명 문제 해결 참고 내용 상황 설명 Server의 Docker 사용이 안됨 (보안상의 이유로) Docker out of Docker는 docker.sock 권한 이슈로 사용 못함 Image는 Build하고 repository에 Push 해야함 Nuclio의 nuctl의 경우 default가 do..

기타/K8S 2023.09.23

회고)23년 상반기_스타트업 합류 + 커뮤니티

마음대로 생각나느대로 적는 의식의 흐름 회고입니다. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 저는 작년 말에 스타트업에 합류했어요 살면서 가장 다이나믹했던 시기를 정리해보려고 해요 스타트업 합류_데이터 엔지니어 HW 기반 스타트업의 AI플랫폼팀 빌딩 멤버로 시작 `반지형` 웨어러블 마우스를 만드는 회사에 합류했어요. 3차원 공간을 통제하겠다는 목표로 소형 컨트롤러를 만드는 회사인데. 더 정밀한 통제를 위해 SW팀을 빌딩 중이더라고요 https://www.youtube.com/watch?v=uHEO3xxgYrk 모든 스타트업들이 그러하겠지만, 격동의 시기에 합류했더라고요. 이전 회사에서는 당연했던 것들이 당연하지 않았거든요. - 채용 공고는 인사팀에 요청하면 되는 거였고, - 코드와 자료는 기존 시스템에 맞게 정..

커뮤니티/글또 2023.07.16

Slipp)사이드프로젝트_스마트폰 센서 실시간 저장_2(기능 추가,버그 수정)

요약 '스마트폰 센서 실시간 저장/시각화' 토이 프로젝트를 하고 있어요. 지난 포스팅에서는 외국 블로그를 참고해서, k8s에 서비스를 올리는 것까지 진행했어요' 이번에는 몇가지 기능을 추가하고 버그를 수정하려고 합니다.ㅎ https://mightytedkim.tistory.com/196 Slipp)사이드프로젝트_센서 실시간 저장_1(strimzi,questdb,fastapi) '토이프로젝트 만들기' 스터디를 신청해서 진행 중입니다. 1차 목표인, 휴대폰 데이터 스트리밍은 성공했고 그 후기를 정리했습니다 스터디 시작 - 아주 작은 사이드 프로젝트(아작사) 스터디를 mightytedkim.tistory.com 예상 독자 이 친구가 뭘 수정했나 궁금하신 분 스마트폰의 센서 데이터를 수집하시려는 분 아래 블로그..

커뮤니티/slipp 2023.06.18

Jupyterhub) k8s 1.27에서 helm 에러 수정_bug

쿠버 버전을 업그레이드했다가, 에러가 발생했어요. 공식 github에서도 2일전에 bug라는 issue가 등록되었더라고요 요약 1. k8s 1.27에서 pod spawning이 안됨 2. 공식 인정 버그였음 3. image를 변경하고, deprecated된 api를 수정함 환경 - helm chart 3.0.0 - k8s v1.27.0 (기존에는 1.24) 에러 v1beta1.CSIStorageCapacity 관련 에러 - Failed to watch *v1beta1.CSIStorageCapacity: failed to list *v1beta1.CSIStorageCapacity: W0530 17:41:37.219051 1 reflector.go:324] k8s.io/client-go/informers/f..

Data/Jupyterhub 2023.06.11

trino) mysql insert 에러 발생, 방화벽 실수_could not create connection

K8S에 Trino를 올리고, 오픈 전 테스트 진행을 하고 있었어요. 요약trino이용해서 mysql insert하는데 `could not create connection`나옴.알고보니, k8s worker 중 1개 방화벽 설정을실수함문제최근에, Spark Thrift Server를 이용해 진행하던 data pipeline 작업을 Trino로 이전하고 있습니다. (hive metatstore로 s3의 parquet를 읽고, mysql에 insert하는 작업) 빠른 테스트를 위해서 trino-worker를 3개로 설정했었고, 문제 없다는 것도 확인했죠. 그런데 trino-worker 9개로 늘리고 퇴근을 했더니 Airflow에서 에러를 마구 뱉습니다. Select는 되는데, Insert할 때만 에러를 뱉더..

Data/Trino 2023.05.21

Slipp)사이드프로젝트_센서 실시간 저장_1(strimzi,questdb,fastapi)

요약 '토이프로젝트 만들기' 스터디를 신청해서 진행 중입니다. 1차 목표인, 휴대폰 데이터 스트리밍은 성공했고 그 후기를 정리했습니다 예상 독자 이 친구가 뭘 수정했나 궁금하신 분 스마트폰의 센서 데이터를 수집하시려는 분 아래 블로그 포스팅을 고도화하고 싶으신 분 https://towardsdatascience.com/a-real-time-streaming-project-with-smartphone-data-7e838a1b009d 결과물 [주제 구상] - 무엇을 주제로 선택할까 휴대폰의 센서 데이터 수집 업무가 주로 실시간 데이터 파이프라인을 구축임데, 보내는 쪽의 데이터를 선택할 수 없는게 좀 아쉽더라고요. (공장에서 보내는 것을 그냥 받아야하니까ㅜ) 그래서 제가 선택할 수 있는 데이터는 무엇이 있을까..

커뮤니티/slipp 2023.05.21