• GPU 추론 서버 설계 — Async + Thread + Process 3계층 아키텍처

    GPU 모델을 서빙하는 서버를 짤 때 가장 자주 하는 실수가 하나 있다. 바로.. 메인 프로세스에서 torch 모델을 로드하는 것. FastAPI 앱을 띄우고, startup 이벤트에서 model = load_model() 하고, endpoint에서 바로 model(input) 부르는 구조. 작은 규모에서는 돌아가지만, 문제가 쌓인다.
  • uv — No more pip

  • 첫눈에 반함

    누군가를 보자마자 심장이 빨라지는 경험. 첫눈에 반한다는 건 참 낭만적인 표현인데, 진화심리학의 렌즈로 들여다보면 그 안에 꽤 흥미로운 이야기가 숨어 있다.