인공지능의 미래에 대한 이야기 몇 단락

이야기를 하기에 앞서:

일단, 기본적으로 이 글은 scaling law가 인공지능의 미래를 논함에 있어 하나이자 전부라는 전제에서 시작합니다. scaling law에 대해서는 2020년 OpenAI의 논문에서 잘 이야기하고 있는데, 모델의 학습에 사용되는 데이터, 연산량, 파라미터 등이 어느 정도 늘어났을 때 모델의 성능을 얼마나 늘어나더라, 또한 이것이 수식의 형태로 표현이 되더라는 것을 뜻합니다. 쉽게 비유하자면 데이터가 10배 늘어나면 성능이 2배 좋아지고, 먼 미래에 성능이 N배 늘어나기 위해 데이터가 얼마 더 필요한지 예측할 수 있더라 이런 말입니다.

Scaling Laws for Neural Language Models
We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitude. Other architectural details such as netw…
https://arxiv.org/abs/2001.08361

이것이 의의가 있는 이유는 겨우 직선을 찾고 직선 위에 점을 찍어보는 걸로 많은 것을 할 수 있기 때문입니다.

  • 어떤 무언가가 현재는 불가능하더라도, 미래에 가능하게 된다면 어떤 결과를 얻을 수 있을 지 예측할 수 있습니다.
  • 미래에 무언가를 하고 싶다면 지금부터 미래까지 어떤 일을 해야 하는지 알 수 있습니다.
  • 현재의 성장세를 유지하기 위해 지금부터 미래까지 무엇을 해야 하며, 무엇이 병목인지 알 수 있습니다.
  • 유용하면서도 무서운 부분인데, 잘 세운 scaling law는 수년, 심지어 수십 년 후에도 틀리지 않고 잘 들어맞습니다. 게다가 이게 나중에 '틀리게 된다면', scaling law를 꺾는 그에 합당한 이유가 존재합니다. 그 원인을 파악할 수 있다면 더욱 유의미한 의사결정이 가능해지죠.

이러한 것들이 가능하기에 미래를 예상하고 그에 맞는 현재의 최적인 의사결정을 하는 데에 큰 도움을 줍니다. 앉은 자리에서 직선 위에 점 하나 찍어보는 걸로 미래를 알 수 있다는 점이 정말로 강력하고, 특히나 단체나 기업의 의사결정에는 이것이 굉장히 중요합니다.

이미 OpenAI는 이런 지표를 크게 참고하며 움직이고 있을 것으로 추측됩니다. 2020년부터 줄곧 scaling law 연구를 내왔던 건 말할 것도 없고요. 최근에도 그런 것으로 추측하는데, GPT-4o가 나오기 1년 전에, OpenAI가 아니라 FAIR 소속이었던 Alexis Conneaumixed-modal language model에 대한 scaling law 연구에 참가했었습니다. 하지만 GPT-4o 출시 시점에 그는 gpt4o contributors의 Audio Pre-Training Lead로 나와 있습니다. 모종의 논의들이 있지 않았을까요?

잡담으로, 물리학자들이 딥러닝 하러 와서 발견했다는 이야기를 여러번 들었는데 사실 여부까지 확인해본 적은 없습니다. 물리학에서는 원래의 항이 복잡하더라도 dominant한 항만 남겨 활용하는 경우가 많기에 낯선 개념은 아닙니다. 물론, "dominant force만 남겨 미래를 정확히 예측하며 또한 그에 맞춰 현재 최적의 의사결정을 한다"라는 개념 자체는 인공지능 이전에는 거의 없던(그나마 무어의 법칙 정도?), 새로운, 그러나 정말로 효과적인 방법으로 보입니다.

첫번째 이야기: 데이터가 병목이다.

일단, LLM(Large Language Model)이 무엇인지는 독자가 이미 알고 있다고 가정하겠습니다. GPT 구조 하에서 next token prediction으로 작동하는, 언어가 입력이며 동시에 언어가 출력인 모델이라고 간단히 말할 수 있겠습니다. 현재 LLM은 언어가 입출력인 임의의 태스크에 굉장히 잘 작동하고 있으며 아마 2024년을 살아가는 대부분의 사람들은 ChatGPT라는 형태로 이를 접해봤으리라 생각합니다.

하지만 LLM에는 암울한 미래가 기다리고 있습니다. 조금 있으면 인터넷에서 수집 가능한 LLM의 학습 데이터가 고갈되기 때문입니다.

Will We Run Out of Data? Limits of LLM Scaling Based on Human-Generated Data
We estimate the stock of human-generated public text at around 300 trillion tokens. If trends continue, language models will fully utilize this stock between 2026 and 2032, or even earlier if intensely overtrained.

이는 근거 없는 말이 아니고, 위 글에서는 scaling law를 통해 2026~2032년 또는 그 이전 인간의 생성한 공적인 텍스트를 모두 쓰게 될 것이라고 수치적으로 논증합니다. 비슷한 맥락의 기사를 몇개 첨부하겠습니다.

“2년 내 LLM 학습 데이터 고갈...데이터 문제로 AI 발전 중단될 것”
급속도로 성장하는 인공지능(AI) 모델이 데이터 부족 문제로 위협받고 있다는 지적이 나왔다. 현재 인터넷상에 존재하는 데이터만으로는 2년 내 AI 모델 성능을 높이는 데 한계를 맞을 것이라는 설명이다.월스트리트저널(WSJ)은 1일(현지시간) 오픈AI의 ‘GPT-4’나 구글의 ‘제미나이’와 같은 기술이 잠재적인 데이터 부족에 직면해 있다고 보도했다. 이에 따르면 대형언어모델(LLM)의 규모가 커지면서 업계에서는 전례 없는 데이터 수요가 발생하고 있다. AI 기업은 향후 2년 이내에 고품질 텍스트 데이터에 대한 수요가 공급을 초과, 잠
오픈AI·메타·구글 ”협상 대신 소송”...불법인 줄 알면서 인터넷 데이터 퍼가
생성 인공지능(AI) 개발 경쟁이 치열해지는 가운데 오픈AI, 구글, 메타 등 미국 빅테크 기업들이 AI 학습용 데이터를 불법인 줄 알면서도 마구잡이로 수집한 것으로 드러났다. AI 학습용 데이터가 고갈될 위기에 처하자, 빅테크들이 데이터 확보를 위해 소송도 불사하고 있다는 지적이다.뉴욕타임스(NYT)는 6일(현지시간) AI 개발을 선도하는 미국 빅테크 기업들이 AI 학습용 온라인 데이터를 확보하는 과정에서 기업 자체 정책이나 저작권법 등을 회피하는 방법까지 동원했다고 보도했다.이에 따르면 오픈AI는 ‘GPT-4’를 개발 중이던 2

하지만 그래도 다른 방법으로 scaling이 가능합니다. 관련된 내용으로 OpenAI에서 눈여겨 보고 있는 것이 이제 소개할 inference scaling law와 superalignment입니다.

두번째 이야기: Inference scaling law

훈련 데이터를 많이 만들고 훈련을 많이 하는 대신, inference-time compute에 집중하는 방법이 있습니다. 즉 훈련에 자원을 더 투입하지 않고 추론에 더 자원을 투입하여 모델의 성능을 향상시키는 갈래입니다. 과거 Q*라는 루머에서 현재 o1이라는 이름으로 공개된 OpenAI의 모델이 대표적입니다.  OpenAI의 o1이 공개되기 전에도 지속적으로 몇몇 사람들은 이러한 inference scaling law 관련된 내용에 관심을 가져왔습니다.

Trading Off Compute in Training and Inference
We explore several techniques that induce a tradeoff between spending more resources on training or on inference and characterize the properties of this tradeoff. We outline some implications for AI governance.

2023년 12월 글로, inference time에 scaling을 하는 것과 training time에 scaling에 하는 것에 trade-off가 있다, 다시 말해 inference time에 scaling을 하는 것만으로(post-training enhancement) 성능에 큰 향상을 누릴 수 있다는 글입니다.

AI leaderboards are no longer useful. It’s time to switch to Pareto curves.
What spending $2,000 can tell us about evaluating AI agents

2024년 4월 글이며, AI Agent 연구들의 추론 비용이 50배까지 널뛰는데도 이 '추론 비용'을 전혀 다른 연구과의 비교에서 고려하지 않았으며 또한 이 '추론 비용' 관점에서 아주 싼 해법이 훨씬 비싼 해법을 추월하기도 한다는 내용입니다.

OpenAI’s Strawberry and inference scaling laws
OpenAI’s Strawberry, LM self-talk, inference scaling laws, and spending more on inference. Coming waves in LLMs.

2024년 9월 5일 글로, OpenAI의 o1이 공개되기 직전 o1의 프로젝트 이름로 추정되는 strawberry에 대한 글입니다.

OpenAI에서는 또한 superalignment, weak-to-strong generalization이라는 주제에 대해서도 관심이 많은 것으로 보입니다. (Weak-to-strong generalization, 2023.12)

x.com

David Silver(Alphago를 만든 사람)도 LLM에 있어 RL이 중요해질 것이라 언급하기도 했으나, 저는 저 강연을 보진 않아 완전한 맥락까지는 모릅니다.

연구 사이드에서도 스탠포드의 STaR 등 연관 연구가 있었다곤 들었으나, 읽어보진 않았습니다. 기존에 연구 사이드에서 시도했지만 성공하지 못했던 것을 o1에서 성공한 것이니 차차 그 디테일은 밝혀지리라 보고 있습니다.

세번째 이야기: 사실은 전력이 병목이다.

Can AI Scaling Continue Through 2030?
We investigate the scalability of AI training runs. We identify electric power, chip manufacturing, data and latency as constraints. We conclude that 2e29 FLOP training runs will likely be feasible by 2030.

scaling에서의 병목은 데이터뿐만 아닙니다. 위 글에서는 electric power, chip manufacturing, data and latency에 대해 논했고, 유일하게 electric power가 2030에 기대되는 compute projection을 만족시키지 못합니다.

젠슨 황 “핵 에너지가 최선의 데이터센터 전력 공급원”
젠슨 황 엔비디아 CEO가 데이터센터 폭증에 따른 에너지원으로서 원자력 발전이 가장 적합하다고 밝혔다.블룸버그는 27일(현지시간) 젠슨 황 CEO가 ”원자력은 지속 가능한 에너지 원이라는 저멩서 매우 훌륭하다”며 “핵 에너지가 인공지능(AI) 수요를 충족하는 실행 가능한 옵션”이라고 말했다고 보도했다.그는 ”핵이 유일한 에너지원은 아니며, 모든 소스로부터 에너지를 얻어야 한다”라며 ”에너지의 가용성과 비용, 지속 가능성 등을 균형 있게 고려하면 핵이 가장 현실적인 방법”이라고 말했다.빅테크들이 AI 개발을 위한 컴퓨팅 인프라에 수천

그래서 NVIDIA, OpenAI나 그 외에 X, Meta 등 더 scaling이 하고 싶은 회사는 핵 발전을 눈여겨보고 있을겁니다.

네번째 이야기: 데이터, 데이터, 데이터.

앞서는 scaling law 관점에서 이야기했으나, 모델이 좋은 사용자 경험을 주기 위해서도 데이터가 중요합니다. 특히 모델이 좋은 사용자 경험을 주기 위해서는 낮은 퀄리티의 많은 데이터보다 높은 퀄리티의 적은 데이터가 훨씬 중요한데, 높은 퀄리티의 데이터는 공짜로 얻기가 매우 힘들기에 현재 선두의 LLM 회사들은 높은 퀄리티의 데이터를 큰 비용을 지불해서라도 많이 얻으려고 하고 있습니다. 아래와 같은 기사가 나오기도 합니다.

새로운 고소득 직종 ‘모델 트레이너’, 최대 시급 26만원...박사 학위 필요한 경우도
인공지능(AI)의 성능을 높이기 위해 모델의 답변을 확인하고 피드백을 주는 ‘모델 트레이너‘가 새로운 고소득 직군으로 떠오르고 있다. 모델 트레이너는 박사 학위자 등 전문가로 구성되며, 시급이 최대 200달러(약 26만원)에 달하는 경우도 있다.로이터는 28일(현지시간) AI 경쟁이 치열해지며 전문 지식을 갖춘 인간 트레이너 수요가 급격하게 늘어나고 있다고 보도했다.이에 따르면 모델 트레이너란 ‘챗GPT’ 개발에 사용된 것으로 유명한 ‘인간 피드백 기반 강화학습(RLHF)’을 담당하는 인원을 말한다. 이는 대형언어모델(LLM)이 내

저는 과거 디퓨전 모델 기반으로 이미지 퀄리티를 높여야 하는 업무를 할 때, Emu(FAIR, 2023)를 읽고 데이터의 중요성을 절감했었습니다. 이 논문에서는 현실적인 이미지를 매우 보기 좋게 생성하는 좋은 모델을 만들었습니다. 근데 어떻게 학습했냐 했더니 기계가 이미지를 20만장까지 필터링하고, 20만장을 아마추어가 보고 2만장으로 줄이고, 2만장을 사진 전문가가 보고 2천장으로 줄인다는 경이적인(..) data curation을 진행한 게 다 입니다. 제 2023년 회고 글에서도 간단히 언급되어 있습니다.

다섯번째 이야기: 주니어 ML 리서처들에게 당부하고 싶은 말, data-centric

네번째 이야기에서 데이터 이야기 한 김에 조금 더 덧붙이고 싶은 말이 있습니다.

제가 ML을 처음 배울 적에는 새롭고 창의적인 아키텍처와 다양한 테크닉들이 정말 재밌어 보였었습니다. 아마 제가 아니라 그 누구라도 그랬을겁니다. CNN을 배우니 무슨 다양한 아키텍처 변형을 해서 ImageNet 성능을 올리고 어쩌구 그러는 것부터 시작하는데 안 그러기도 힘들죠.

그랬던 제가 생각을 바꾸게 된 계기가 2022년 가을 Lunit의 유동근 박사님이 디피스트에서 해주셨던 강연입니다. 분명 우리(Lunit)는 데이터가 잘 주어져 있을 때 이것을 최대치로 활용하여 여러 테크닉과 아키텍처를 구상해 최대의 성능을 뽑아낼 수 있는 재능 있는 인원을 확보하고 있으나, 정작 그 전제, 즉 "데이터가 잘 주어져 있을때"가 틀리는 경우가 대다수라는 겁니다. 그 예시로 병원 A에서 데이터 모아서 아주 잘 훈련해서 기깔나게 성능 뽑고 병원 B에서 다른 세팅에 다른 기구로 측정해서 그걸 입력으로 넣었더니 아주 성능이 쓰레기더라, 이런 내용을 많이 말씀해주셨습니다.

사실 데이터가 중요하다는 사실을 신경 쓰는 사람이 없다면 그런 경우는 "대다수"가 아니라 "전부"입니다. 다시 말하지만 신경 쓰는 사람이 없으면 데이터는 항상 쓰레기입니다. 그리고, 데이터가 쓰레기면 여러분의 모델의 출력도 쓰레기입니다. garbage in, garbage out. 그게 데이터 기반 ML, Machine Learning의 본질입니다.

실제 업무를 진행해본 적이 없다면 간과하기 대단히 쉬운 사실이며 저도 간과했었습니다. 근데 현실에서 여러분이 아무 말도 안 했음에도 누군가가 알아서 공짜로 좋은 데이터를 만들어주거나 아니면 뭐 마법처럼 처음부터 데이터가 알아서 너무 좋은 경우는 절대 없습니다. 여러분이 하거나, 또는 데이터의 중요성을 아는 여러분보다 시니어인 누군가가 대신 해주는 겁니다. 그리고 어딜 가서 어떤 일을 하더라도 누군가가 그 일(좋은 데이터의 정의와 그러한 데이터를 얻을 수 있는 설계)을 대신 해주진 않을겁니다. 왜냐면 ML 엔지니어가 하는 일이 그거고 해야만 하는 일이 그거니까요. 그 일 하라고 그 자리에 앉혀놓는겁니다.

model-centric approach보다 data-centric approach이다, 이것만 기억하시면 좋겠습니다.

이 글의 초반부부터 말했던 scaling law도 같은 맥락입니다. 신기하고 이상한 테크닉과 강한 inductive bias가 섞인 아키텍처는 논문에만 반짝 쓰는거고 길게 안 쓰입니다. 결국 시대를 지배하는 건 아주 근본적이며 간단한 사실에서 파생되는 기술과 아키텍처이며, scaling이 잘 되고 inductive bias가 강하지 않은 아키텍처(e.g. Transformer)가 시대를 지배합니다. 물론, solid한 domain knowledge가 존재하며 또한 그것이 강력하게 작용하는 태스크를 풀 때는 inductive bias의 적용이 필요하기도 하고(AlphaFold 등), scaling을 위한 데이터와 자원 등이 충분하지 않을 때 약한 inductive bias는 초기 연구에 큰 도움을 줍니다. 나중에 걷어내야 하지만요. 다음의 영상을 보면 도움이 되리라 생각합니다.

마무리하며

대강 적어본 내용은 이정도입니다. 제가 적은 글이 ML을 처음 배울 적의 저 같은 누군가에게 도움이 되면 좋겠습니다.