인공지능의 미래에 대한 이야기 몇 단락: 1. 무엇이 병목인가?
이야기를 하기에 앞서:
일단, 기본적으로 이 글은 scaling law가 인공지능의 미래를 논함에 있어 하나이자 전부라는 전제에서 시작합니다. scaling law에 대해서는 2020년 OpenAI의 논문에서 잘 이야기하고 있는데, 모델의 학습에 사용되는 데이터, 연산량, 파라미터 등이 어느 정도 늘어났을 때 모델의 성능을 얼마나 늘어나더라, 또한 이것이 수식의 형태로 표현이 되더라는 것을 뜻합니다. 쉽게 비유하자면 데이터가 10배 늘어나면 성능이 2배 좋아지고, 먼 미래에 성능이 N배 늘어나기 위해 데이터가 얼마 더 필요한지 예측할 수 있더라 이런 말입니다.
이것이 의의가 있는 이유는 겨우 직선을 찾고 직선 위에 점을 찍어보는 걸로 많은 것을 할 수 있기 때문입니다.
- 어떤 무언가가 현재는 불가능하더라도, 미래에 가능하게 된다면 어떤 결과를 얻을 수 있을 지 예측할 수 있습니다.
- 미래에 무언가를 하고 싶다면 지금부터 미래까지 어떤 일을 해야 하는지 알 수 있습니다.
- 현재의 성장세를 유지하기 위해 지금부터 미래까지 무엇을 해야 하며, 무엇이 병목인지 알 수 있습니다.
- 유용하면서도 무서운 부분인데, 잘 세운 scaling law는 수년, 심지어 수십 년 후에도 틀리지 않고 잘 들어맞습니다. 게다가 이게 나중에 '틀리게 된다면', scaling law를 꺾는 그에 합당한 이유가 존재합니다. 그 원인을 파악할 수 있다면 더욱 유의미한 의사결정이 가능해지죠.
이러한 것들이 가능하기에 미래를 예상하고 그에 맞는 현재의 최적인 의사결정을 하는 데에 큰 도움을 줍니다. 앉은 자리에서 직선 위에 점 하나 찍어보는 걸로 미래를 알 수 있다는 점이 정말로 강력하고, 특히나 단체나 기업의 의사결정에는 이것이 굉장히 중요합니다.
이미 OpenAI는 이런 지표를 크게 참고하며 움직이고 있을 것으로 추측됩니다. 2020년부터 줄곧 scaling law 연구를 내왔던 건 말할 것도 없고요. 최근에도 그런 것으로 추측하는데, GPT-4o가 나오기 1년 전에, OpenAI가 아니라 FAIR 소속이었던 Alexis Conneau는 mixed-modal language model에 대한 scaling law 연구에 참가했었습니다. 하지만 GPT-4o 출시 시점에 그는 gpt4o contributors의 Audio Pre-Training Lead로 나와 있습니다. 모종의 논의들이 있지 않았을까요?
잡담으로, 물리학자들이 딥러닝 하러 와서 발견했다는 이야기를 여러번 들었는데 사실 여부까지 확인해본 적은 없습니다. 물리학에서는 원래의 항이 복잡하더라도 dominant한 항만 남겨 활용하는 경우가 많기에 낯선 개념은 아닙니다. 물론, "dominant force만 남겨 미래를 정확히 예측하며 또한 그에 맞춰 현재 최적의 의사결정을 한다"라는 개념 자체는 인공지능 이전에는 거의 없던(그나마 무어의 법칙 정도?), 새로운, 그러나 정말로 효과적인 방법으로 보입니다.
첫번째 이야기: 데이터가 병목이다.
일단, LLM(Large Language Model)이 무엇인지는 독자가 이미 알고 있다고 가정하겠습니다. GPT 구조 하에서 next token prediction으로 작동하는, 언어가 입력이며 동시에 언어가 출력인 모델이라고 간단히 말할 수 있겠습니다. 현재 LLM은 언어가 입출력인 임의의 태스크에 굉장히 잘 작동하고 있으며 아마 2024년을 살아가는 대부분의 사람들은 ChatGPT라는 형태로 이를 접해봤으리라 생각합니다.
하지만 LLM에는 암울한 미래가 기다리고 있습니다. 조금 있으면 인터넷에서 수집 가능한 LLM의 학습 데이터가 고갈되기 때문입니다.
이는 근거 없는 말이 아니고, 위 글에서는 scaling law를 통해 2026~2032년 또는 그 이전 인간의 생성한 공적인 텍스트를 모두 쓰게 될 것이라고 수치적으로 논증합니다. 비슷한 맥락의 기사를 몇개 첨부하겠습니다.
하지만 그래도 다른 방법으로 scaling이 가능합니다. 관련된 내용으로 OpenAI에서 눈여겨 보고 있는 것이 이제 소개할 inference scaling law와 superalignment입니다.
두번째 이야기: Inference scaling law
훈련 데이터를 많이 만들고 훈련을 많이 하는 대신, inference-time compute에 집중하는 방법이 있습니다. 즉 훈련에 자원을 더 투입하지 않고 추론에 더 자원을 투입하여 모델의 성능을 향상시키는 갈래입니다. 과거 Q*라는 루머에서 현재 o1이라는 이름으로 공개된 OpenAI의 모델이 대표적입니다. OpenAI의 o1이 공개되기 전에도 지속적으로 몇몇 사람들은 이러한 inference scaling law 관련된 내용에 관심을 가져왔습니다.
2023년 12월 글로, inference time에 scaling을 하는 것과 training time에 scaling에 하는 것에 trade-off가 있다, 다시 말해 inference time에 scaling을 하는 것만으로(post-training enhancement) 성능에 큰 향상을 누릴 수 있다는 글입니다.
2024년 4월 글이며, AI Agent 연구들의 추론 비용이 50배까지 널뛰는데도 이 '추론 비용'을 전혀 다른 연구과의 비교에서 고려하지 않았으며 또한 이 '추론 비용' 관점에서 아주 싼 해법이 훨씬 비싼 해법을 추월하기도 한다는 내용입니다.
2024년 9월 5일 글로, OpenAI의 o1이 공개되기 직전 o1의 프로젝트 이름로 추정되는 strawberry에 대한 글입니다.
OpenAI에서는 또한 superalignment, weak-to-strong generalization이라는 주제에 대해서도 관심이 많은 것으로 보입니다. (Weak-to-strong generalization, 2023.12)
David Silver(Alphago를 만든 사람)도 LLM에 있어 RL이 중요해질 것이라 언급하기도 했으나, 저는 저 강연을 보진 않아 완전한 맥락까지는 모릅니다.
연구 사이드에서도 스탠포드의 STaR 등 연관 연구가 있었다곤 들었으나, 읽어보진 않았습니다. 기존에 연구 사이드에서 시도했지만 성공하지 못했던 것을 o1에서 성공한 것이니 차차 그 디테일은 밝혀지리라 보고 있습니다.
세번째 이야기: 사실은 전력이 병목이다.
scaling에서의 병목은 데이터뿐만 아닙니다. 위 글에서는 electric power, chip manufacturing, data and latency에 대해 논했고, 유일하게 electric power가 2030에 기대되는 compute projection을 만족시키지 못합니다.
그래서 NVIDIA, OpenAI나 그 외에 X, Meta 등 더 scaling이 하고 싶은 회사는 핵 발전을 눈여겨보고 있을겁니다.
네번째 이야기: 데이터, 데이터, 데이터.
앞서는 scaling law 관점에서 이야기했으나, 모델이 좋은 사용자 경험을 주기 위해서도 데이터가 중요합니다. 특히 모델이 좋은 사용자 경험을 주기 위해서는 낮은 퀄리티의 많은 데이터보다 높은 퀄리티의 적은 데이터가 훨씬 중요한데, 높은 퀄리티의 데이터는 공짜로 얻기가 매우 힘들기에 현재 선두의 LLM 회사들은 높은 퀄리티의 데이터를 큰 비용을 지불해서라도 많이 얻으려고 하고 있습니다. 아래와 같은 기사가 나오기도 합니다.
저는 과거 디퓨전 모델 기반으로 이미지 퀄리티를 높여야 하는 업무를 할 때, Emu(FAIR, 2023)를 읽고 데이터의 중요성을 절감했었습니다. 이 논문에서는 현실적인 이미지를 매우 보기 좋게 생성하는 좋은 모델을 만들었습니다. 근데 어떻게 학습했냐 했더니 기계가 이미지를 20만장까지 필터링하고, 20만장을 아마추어가 보고 2만장으로 줄이고, 2만장을 사진 전문가가 보고 2천장으로 줄인다는 경이적인(..) data curation을 진행한 게 다 입니다. 제 2023년 회고 글에서도 간단히 언급되어 있습니다.
다섯번째 이야기: 주니어 ML 리서처들에게 당부하고 싶은 말, data-centric
네번째 이야기에서 데이터 이야기 한 김에 조금 더 덧붙이고 싶은 말이 있습니다.
제가 ML을 처음 배울 적에는 새롭고 창의적인 아키텍처와 다양한 테크닉들이 정말 재밌어 보였었습니다. 아마 제가 아니라 그 누구라도 그랬을겁니다. CNN을 배우니 무슨 다양한 아키텍처 변형을 해서 ImageNet 성능을 올리고 어쩌구 그러는 것부터 시작하는데 안 그러기도 힘들죠.
그랬던 제가 생각을 바꾸게 된 계기가 2022년 가을 Lunit의 유동근 박사님이 디피스트에서 해주셨던 강연입니다. 분명 우리(Lunit)는 데이터가 잘 주어져 있을 때 이것을 최대치로 활용하여 여러 테크닉과 아키텍처를 구상해 최대의 성능을 뽑아낼 수 있는 재능 있는 인원을 확보하고 있으나, 정작 그 전제, 즉 "데이터가 잘 주어져 있을때"가 틀리는 경우가 대다수라는 겁니다. 그 예시로 병원 A에서 데이터 모아서 아주 잘 훈련해서 기깔나게 성능 뽑고 병원 B에서 다른 세팅에 다른 기구로 측정해서 그걸 입력으로 넣었더니 아주 성능이 쓰레기더라, 이런 내용을 많이 말씀해주셨습니다.
사실 데이터가 중요하다는 사실을 신경 쓰는 사람이 없다면 그런 경우는 "대다수"가 아니라 "전부"입니다. 다시 말하지만 신경 쓰는 사람이 없으면 데이터는 항상 쓰레기입니다. 그리고, 데이터가 쓰레기면 여러분의 모델의 출력도 쓰레기입니다. garbage in, garbage out. 그게 데이터 기반 ML, Machine Learning의 본질입니다.
실제 업무를 진행해본 적이 없다면 간과하기 대단히 쉬운 사실이며 저도 간과했었습니다. 근데 현실에서 여러분이 아무 말도 안 했음에도 누군가가 알아서 공짜로 좋은 데이터를 만들어주거나 아니면 뭐 마법처럼 처음부터 데이터가 알아서 너무 좋은 경우는 절대 없습니다. 여러분이 하거나, 또는 데이터의 중요성을 아는 여러분보다 시니어인 누군가가 대신 해주는 겁니다. 그리고 어딜 가서 어떤 일을 하더라도 누군가가 그 일(좋은 데이터의 정의와 그러한 데이터를 얻을 수 있는 설계)을 대신 해주진 않을겁니다. 왜냐면 ML 엔지니어가 하는 일이 그거고 해야만 하는 일이 그거니까요. 그 일 하라고 그 자리에 앉혀놓는겁니다.
model-centric approach보다 data-centric approach이다, 이것만 기억하시면 좋겠습니다.
이 글의 초반부부터 말했던 scaling law도 같은 맥락입니다. 신기하고 이상한 테크닉과 강한 inductive bias가 섞인 아키텍처는 논문에만 반짝 쓰는거고 길게 안 쓰입니다. 결국 시대를 지배하는 건 아주 근본적이며 간단한 사실에서 파생되는 기술과 아키텍처이며, scaling이 잘 되고 inductive bias가 강하지 않은 아키텍처(e.g. Transformer)가 시대를 지배합니다. 물론, solid한 domain knowledge가 존재하며 또한 그것이 강력하게 작용하는 태스크를 풀 때는 inductive bias의 적용이 필요하기도 하고(AlphaFold 등), scaling을 위한 데이터와 자원 등이 충분하지 않을 때 약한 inductive bias는 초기 연구에 큰 도움을 줍니다. 나중에 걷어내야 하지만요. 다음의 영상을 보면 도움이 되리라 생각합니다.
마무리하며
대강 적어본 내용은 이정도입니다. 제가 적은 글이 ML을 처음 배울 적의 저 같은 누군가에게 도움이 되면 좋겠습니다.