2023년을 되돌아보며
2023년은 학부 3학년 1학기와 첫 직장을 다닌 해로, 저번 해보다도 여러 일이 있었다.
- 대학교
- 드디어 전공으로서 조금이라도 깊이가 있는 학문을 배우는 3학년이 되었다. 물론 3, 4학년 과목 상관없이 예전부터 듣긴 했지만..
- 3학년 1학기에는 어쩌다보니 물리학실험1과 중급물리실험1을 동시수강하는 기행을 하게 됐다. 실변수, 3차원 컴퓨터비전 같은 과목도 들었는데 재밌었다.
- 이제 Microsoft에서 Onedrive 5TB 제공을 하지 않는다. 원드라이브 파일을 옮길 외장 ssd를 사게 되는 계기가 되었다.
- 직장
- 7월부터 하이퍼커넥트에서 머신러닝 엔지니어 인턴으로 재직중이다.
- 정말 많은 것을 배우고 해봤다. 회사 업무에 아주 strict하게 속한다고 볼 수 있는 작업을 많이 한 건 아닌데, 그 주변에서 도움될 만한 것들을 업무 외 시간에도 정말 많이 찾아보고 공부하고 직접 돌려보는 계기가 되었다.
- 실제 프로덕트에 들어갈 기능을 구현했는데, 문제를 풀기 위한 필요한 사전 연구 조사, 데이터셋 수집, 모델링, 학습, 서빙과 프로덕트에 맞춘 잡다한 기능 붙이는(그리고 튜닝하는) 작업을 모두 담당했고 매우 귀중한 경험이 되었다.
- 특히 엔지니어링 측면에서 많은 성장을 했다. 같은 팀에 보고 배울 똑똑한 분이 많았고 하이퍼커넥트 들어가기 전에는 써본 적도 없던 docker compose, k8s, k9s도 써보고 redis, kafka 등 다양한 마이크로서비스에 대한 공부도 하게 됐다. 다만, 이런 마이크로서비스들은 내가 직접 붙인 게 아니라 팀원분들이 붙여놓은 걸 돌리기만 했는데 그건 매우 아쉬웠다.
- Ops 지식도 많이 얻었다. 위에서 말한 것들 뿐만 아니라 libmamba나 poetry, ruff 같은 것들도 포함된다. 하지만 아직 모르는 게 정말 많고 이러한 것들을 더 잘 하고 싶다고 생각하고 있다.
- 백엔드 개발도 했다. 사실 이것도 그냥 fastapi로 틀을 팀원분들이 매우 잘 짜놓은 거에 내가 필요한 부분만 슉슉 바꾸는 거라 내가 한 게 없다. 이것도 아쉬운 부분이다.
- 물론 ML과 관련된 부분도 많은 성장을 했는데, 직무와 관련된 논문도 정말 많이 읽었고(학생 때는 논문 읽고 하나하나 블로그에 정리했었던 적도 있는데, 그럴 틈도 없더라..) Billion 단위 데이터셋와 모델을 다뤄보는 계기가 됐다. Triton inference server을 다룬 것도 좋은 경험이었으며 GPU architecture부터 그 위까지 알아야 하는 최적화 기법도 하나하나씩 알아가고 있다. 관련해서는 요새 하는 Deepest의 Parallel Computing study에서도 배우고 있다.
- factory니 registry니 같은 디자인 패턴에 대해 궁금해지기도 했는데 나중에 공부할 것 같다. 코드를 fancy하면서도 practical하며 읽고 쉽게 짜고 싶다.
- 크리스마스 연휴 뒤로 휴가를 쭉 붙이고, 2024년 1월이나 2월부터 산업기능요원으로 들어갈 회사를 요새 구직중이다. 좋은 회사에 갈 수 있었으면 좋겠다.
- 동아리
- Deepest에서 재밌게 활동중이다.
- pylixir라는, 로스트아크 미니게임을 강화학습으로 풀어내는 재밌는 프로젝트에 참가했었는데, 강화학습을 안 쓴 SoTA보다는 잘하게 만들긴 했지만 생각보다 잘 돌아가지 않았어서 아쉬움이 좀 있다. 프로젝트에 강화학습을 잘하는 분이 같이 있었으면 좋았을텐데..
- 요새는 parallel computing study, causal inference study, personalized voice generation project에 참가중인데 하나 정도는 중간에 접힐지도 모른다 ㅋㅋ. 저번 시즌에도 수능 데이터 수집 프로젝트 슈능이 있었는데 다른 팀(해례)에서 중간에 이미 해버려서 접혔다.
- 요새는 AttentionX라는 동아리에 새로 가입 신청을 넣었다.
- Deepest에서 재밌게 활동중이다.
- 논문작업
- 10~12월쯤, 지인들과 논문 작업을 같이 할 일이 있었다. 이미 틀이 다 잡혀있는 프로젝트라 나는 엔지니어링에만 기여했지만 재밌는 작업이었다.
- 대외활동
- 2023 QHack Coding Challenge에서 4등, 2023 양자정보경진대회에서 장관상을 수상했다.
- 내가 2023년 이전까지 참가한 대회와는 다르게 이 대회들은 팀으로 참가하는 대회여서, 똑똑한 친구들과 같이 참가한 것이 수상을 하고 여러가지를 배워가는데 큰 도움이 되었다. 내 경우에는 사실 양자를 잘한다기보다는 코딩과 관련된 모든 걸 할 수 있기 때문에 팀에 기여할 수 있었다.
- 데스크탑
- 14700, 4070 ti가 달린 데스크탑을 새로 장만했다.
- 블랙프라이데이때 990 pro 2TB와 t5 shield 4TB를 장만했는데 첫째로 2TB SSD가 2년 전에 비해 정말(절반?) 싸져서 놀랐고, 둘째로 외장 ssd가 생각보다 너무 쓸만해서 만족중이다.
- 잡담
- 올해는 LLM, MLLM이 크게 발전하는 해였고(원래 이런 거 공개 안 하는 애플조차 ferret이라는 모델을 공개했다..) , 슬금슬금 video에 대해서도 generation, recognition 모두 연구가 나오고 있다.
- 2023년 초반까지는 다들 잘 알지는 못했던 것 같은데, 슬슬 진짜 좋은 퀄리티의 출력물을 얻기 위해서는 데이터셋의 크기보다는 질이 중요하다는 사실을 다들 깨닫고 있는 것 같다. 관련해서 최근 본 정말 좋은 글이 있어 여기도 공유한다. https://www.facebook.com/share/tu8ZgWdP83a2VXqP/
- 위 글에서도 인용했는데, 이미지 생성에 대해서도 10월인가 9월인가에 Meta에서 Emu라는 모델을 공개한 적이 있다. 현실적인 이미지를 매우 보기 좋게 생성하는 좋은 모델인데 어떻게 학습했냐 했더니 기계가 이미지를 20만장까지 필터링하고, 20만장을 아마추어가 보고 2만장으로 줄이고, 2만장을 사진 전문가가 보고 2천장으로 줄인다는 경이적인(..) data curation을 진행했다.
- 분명 작년 ChatGPT(GPT-3.5-Turbo)가 처음 나왔을 때만 해도 와! 혁신이다! 했었는데, GPT-4만 쓰던 요즘 다시 gpt3.5를 쓰니 알잘딱 못해서 상당히 답답하다..
- 빨리 ruff가 메이저 버전 1로 올라왔으면 좋겠다. 사실 지금 메이저 버전 0이어도 굉장히 좋고 쓰는 데도 많지만 아무래도 메이저 버전이 0이면 경험에 기반한 걱정이 있다 ㅋㅋ..
- 연애
- 굳이 이런 글에 적기에 좀 부끄러운 감이 있어 맨 뒤로 뺐지만, 개인적으로, 인간적으로 크게 변하는 계기가 됐다.