Deekseek와 OpenAI, o1/o3 이야기와 그 너머 multimodal agent까지
이 글에서는 다음 내용을 다룹니다.
- Deepseek R1이 나온 지금, OpenAI o1/o3의 정체는 무엇일까요?
- R1을 보고 RL만을 강조하는 사람들이 간과하고 있는 다른 축(axis): pretraining
- multimodal agent 위의 RL을 다루는 previous works
- multimodal agent의 imitation learning에서 expert가 인간이어야 하는 이유
- multimodal agent의 가장 심각한 문제 1가지: 왜 현존 robotics "foundation model"들이 코너도 못 돌고 날아가는 공도 못 피하는가?
- R1-like RL on multimodal agent
o1 == R1, o3 == o1 + MCTS
My guess is, o1 == R1 and o3 == o1 + MCTS
— MilkClouds (@milkclouds00) January 29, 2025
o3's unexpectedly high inference price(>$1K) is explainable with MCTShttps://t.co/C0IDmEvr5y
바로 어제, Deepseek에 대한 오해와 인공지능 발전의 미래 방향이라는 글을 올렸었습니다. 사실 어제까지 확신이 없어서 말미에 트윗 하나로 달아뒀던 제 주장이 있었는데, 바로 Deepseek R1 == OpenAI o1이며 OpenAI o3 == o1 + PRM/MCTS/기타 고도화된 RL 기법이라는 말이었습니다. 근데 오늘 바로 아래 트윗을 발견했어요. 그래서 당당하게 블로그에도 올리기로 했습니다.
Congrats to DeepSeek on producing an o1-level reasoning model! Their research paper demonstrates that they’ve independently found some of the core ideas that we did on our way to o1.
— Mark Chen (@markchen90) January 28, 2025
o1 == R1이라는 Mark Chen의 확인
제가 위 트윗을 보기 전에도 어느정도 확신을 가지고 판단했던 근거는 다음과 같습니다.
- o1은 ORM에 가까운 것(R1의 그것)을 사용했을 것이다: https://openai.com/index/learning-to-reason-with-llms/ 에서는 "model must have freedom to express its thoughts in unaltered form"이라고 하는데, 어투를 보면 "must have freedom"으로 상당히 강한 어투입니다. 물론, 이 글을 쓴 사람이 누군지도 모르고 어떤 의도로, 깊은 생각을 하고 썼는지 아닌지는 전혀 알 수 없으나, 별 생각 없이 쓰는 문구라 치기에는 이상할 정도로 강력한 어투로 process reward의 strict한 사용을 지양하고 있구나 알 수 있습니다.
- o3은 ORM을 넘어서 고도화된 RL 기법을 사용했을 것이다: o3의 ARC-AGI 추론 비용은 $1K를 넘습니다. tree-search 없이 autoregressive generation으로 이런 비용이 나오는 것은 이상합니다. 하지만 MCTS는 이를 잘 설명합니다. 또, 감이지만, o3은 FrontierMath/ARC-AGI 같은 정답이 존재하는 수학적 추론 벤치마크에 집중하는 느낌이 들었는데, 이들은 MCTS와 같은 고도화된 RL 기법이 IL(Imitation Learning, 이 맥락에서는 pretraining/SFT와 맥을 같이합니다.)에 비해 유리한 분야입니다.
왜 IL ~= pretraining/SFT로 보시나요?
pretraining, SFT 모두 인간(expert)이 생성한 글(demonstration)에서 배우기 때문입니다. (IL은 expert demonstration에서 배우는 방법입니다.)
o1 was the first large reasoning model — as we outlined in the original “Learning to Reason” blog, it’s “just” an LLM trained with RL. o3 is powered by further scaling up RL beyond o1, and the strength of the resulting model the resulting model is very, very impressive. (2/n)
— Nat McAleese (@__nmca__) December 20, 2024
위 트윗 역시도 제 추측의 근거였습니다. OpenAI 사람이 하는 말인데, o1이 “just” an LLM trained with RL이라고 하는 것에서 단서를 얻었었습니다.
sufficiently good initial policy is CRITICAL
그래요, 이제 사람들은 RL이 뭐지? 이게 그렇게 중요하다고? 우리도 해야겠다! 이러고 있을 겁니다. 하지만, 저는 어제 Deepseek에 대한 오해와 인공지능 발전의 미래 방향에서도 말했듯 그것"만"에 집중하면 안 됩니다. 위에 소개해드린 Mark Chen의 트윗의 리플에 본인이 단 내용들은 더 있습니다.
However, I think the external response has been somewhat overblown, especially in narratives around cost. One implication of having two paradigms (pre-training and reasoning) is that we can optimize for a capability over two axes instead of one, which leads to lower costs.
But it also means we have two axes along which we can scale, and we intend to push compute aggressively into both!
pre-training과 reasoning라는 2가지 패러다임을 가지게 되었고, 또한 이것을 2개의 축으로 최적화할 수 있다, 또한 2개의 축으로 scale할 수 있다는 말입니다. 그리고 이 트윗에서 reasoning과 같은 축으로 pre-training을 언급합니다.
누군가 이미 간단하게 base model에 따라 결과가 크게 갈린다는 실험도 해뒀습니다. 아래 트윗이 그것인데요,
We reproduced DeepSeek R1-Zero in the CountDown game, and it just works
— Jiayi Pan (@jiayi_pirate) January 24, 2025
Through RL, the 3B base LM develops self-verification and search abilities all on its own
You can experience the Ahah moment yourself for < $30
Code: https://t.co/B2IsN1PrXV
Here's what we learned 🧵 pic.twitter.com/43BVYMmS8X
내려가다보면 다음 내용도 보입니다. 0.5B는 학습을 실패하는데, 다른 모델들은 가능합니다.

사실 이러한 상황은 생각해보면 당연합니다. 자, 세상에 있는 어떤 언어는 어휘 종류가 10개밖에 안된다고 합시다. 이 언어 공간을 탐색하는 RL agent를 만든다고 하면, 굳이 지금처럼 수십억원을 들일 정도의 무지막지한 pretraining이 선행되어야 할까요? 아닙니다. 어휘가 그 정도로 적으면 높은 수준의 고도화가 되지 않은 언어일 가능성이 높으니, 그냥 from-scratch부터 RL을 해도 풀릴수도 있겠지요.
하지만, 실제 언어의 공간은 정말로 엄청나게 넓으며 이것을 어느정도의 선험적인 지식 없이 무작정 완전한 random exploration으로 탐색하는 것은 말이 되는 접근이 아닙니다. (이에 반해, Atari 게임 같은 경우는 워낙 state/action space가 상대적으로 작기에, complete random weight에서 random exploration을 하는 것으로 시작해도 M(Million) 단위 rollout이 있으면 어느정도 성능이 나옵니다. 언어의 경우는 전혀 다릅니다.)
아래 트윗에서도 이미 2022년부터 누가 쭉 해봤는데, "이제야" 되고 있는 것이라고 말하고 있죠.
Always revisit RL. When a task has sufficient "policy information capacity" (mutual information between initial policy distribution and reward), RL success is guaranteed.
— Shane Gu (@shaneguML) January 28, 2025
i.e. kick off RL only after you have sufficiently good initial policy for your task reward. pic.twitter.com/eI8QJoBkpt
Next things: Multimodal agent
좋아요, 여기까지 RL이 "잘 되기 위한 셋업"이 중요하다는 알았습니다. 그런데요, 이 R1/o1/o3 다음에는 무엇이 나올까요? 제가 예측하는 건 멀티모달과 에이전트입니다, 사실 설명하지 않아도 다들 많이 들어보셨을 겁니다.
Previous works on RL+multimodal agent
이미 2024년 5월, RL을 VLM에 적용하는 연구가 나온 적 있습니다.

다만 조금 "이게 왜 필요하지?" 싶은 요소들이 있기는 한데, thoughts의 logprob에 hyperparameter lambda에 기반한 scaling이 필요하다는 것입니다. 태스크 종류나 thought 길이에 따라 최적의 lambda가 달라질텐데 그걸 매번 찾는 것도 이상하잖아요?

이것 외에는 multi-task 확장이 되지 않았다는 것도 한계입니다.
바로 이틀 전에 공개된 연구도 있습니다. 제목 그대로 SFT memorize, RL generalize라고 주장합니다만, 제 생각에는 expert의 이상적인 형태와는 다른 형태의 expert를 사용하고 있는 것 같으며, 그렇다보니 "SFT memorizes"라는 결과가 나온 것이라 추측합니다.

위 논문에서는 아래 Figure을 통해, RL이 generalize에 도움을 주며, SFT memorize라고 주장합니다.

그렇지만 저는 결과의 해석에 의문을 제기하고 싶은데요. "expert가 이상하다"가 제 주장입니다. 사실, 이 논문에서 expert가 '무엇'인지는 자세히 서술된 적이 없습니다. 다만, (1) 일반적으로 expert demonstration의 수집 과정이 조금이라도 복잡하다면 서술을 하는 편이고, 특히 human이 expert라면 더더욱 그렇지만 이 논문에 그러한 서술이 보이지 않습니다. (2) expert가 사용했다는 Oracle information이 Appendix에 보이는데요, 어... 이는 매우 우려스러운 서술입니다.

이것이 매우 우려스러운 서술인 이유는 expert에게만 보이는 oracle information이 있다는 것은 imitation learning의 전제를 어긴 치명적인 오류이기 때문입니다. expert에게만 보이는 정보가 있고 expert가 그 정보를 이용했다면, 학습 대상이 되는 policy는 그 정보를 알 수 없기에 학습이 제대로 되지 않습니다.

imitation learning은 expert와 policy에게 같은 정보를 보여주어야 하고, 특히 expert가 인간과 같이 고차원적인 사고가 가능한 에이전트일 경우 그러한 고차원적 사고를 행동에서 implicit하게 배워나갈 수 있습니다. 정말로 imitation learning을 잘 했다면 "인간이 in-context로 시행착오를 통해 정답을 찾아가는 과정"을 policy에게 그대로 학습시킬 수도 있겠죠. 이런 것들이 가능하기에, "SFT memorize"는 SFT의 한계가 그렇기 때문이 아니라 그저 해당 실험에서 "SFT가 memorize를 하도록 학습을 시켰기 때문"이라고 저는 봅니다.
아무튼 전반적인 구조를 봤을 때, oracle environment information을 이용해 ground-truth action을 만든 상황으로 보이며, 이 데이터를 expert demonstration이라 주장하며 학습을 하는 것부터가 부적합한 상황으로 저에게는 보입니다. 따로 expert에 대한 서술이 없는 이유는 그냥 oracle environment information에서 gt action을 계산했을 뿐이고 실제 expert(RL expert or human or etc)가 없기 때문으로 추측되고요.
그래도 RL/SFT중 하나만 쓰는 게 아니라, 각각의 특성과 장단점을 이해하고 각자를 상황에 맞게 극대화해 쓰자는 교훈을 얻을 수 있습니다. SFT가 필요한 상황을 따로 적어두기도 했습니다.
SFT is necessary for RL training when the backbone model does not follow instructions.
...
Note that due to the difference in backbone model, our results do not contradict with DeepSeekAI et al. (2025), which suggests that SFT is unnecessary for downstream RL training
이상적인 expert
자, 위에서는 IL의 전제를 어기지 않기 위해서는 policy와 똑같은 입력을 받는 expert가 있어야 한다고 말했습니다. 그런데, 그런 expert가 있었으면 그걸 그냥 policy로 썼으면 됐겠죠? 달걀이 먼저냐, 닭이 먼저냐, 이 문제입니다.
저는 현 시점에서 인간만이 expert로서 걸맞는다, 나아가 다른 접근 방식은 모두 지양해야 한다고 생각하고 있습니다. 이유는 간단한데 지금 인간이 아닌 multimodal agent들이 인간과의 거리가 그 입출력에서든, 성능에서든 한참 멀리 있기 때문입니다. 그럼 다음 질문들이 나올 것 같은데요,
- "LLM은 그 정도로 처음부터 human expert 필요없었잖아요?": 아뇨, 필요했습니다. LLM이 잘 작동하게 된 계기는 internet corpus 위의 pretraining이고, 맨 처음 하는 학습이 pretraining이라는 건 동의하실겁니다. 그런데, 인터넷은 자연적으로 저절로 만들어져 있는 게 아니죠. 인터넷도 인간이 만들었고, 인터넷의 글귀(internet corpus)도 인간이 만들었습니다. 물론, multimodal agent에게는 그러한 데이터가 마땅치 않다는 점에는 저도 동의하고, 그것을 찾는 것이 multimodal agent를 scaling을 하기 위한 key가 될 겁니다. 메타버스가 활성화되 메타버스 데이터가 모이거나, explicit action이 부재하더라도 인터넷에 이미 막대한 양이 적재되어 있는 비디오 데이터를 사용하거나, 데스크탑 사용 데이터를 막대하게 모을 방법을 찾거나, 이 정도를 저는 눈여겨보고 있습니다.
- "인간 데이터 모으는 게 얼마나 비싼데.. 그럼 연구실 레벨에서는 연구가 힘들잖아요?": 그럼요, 맞습니다. 세상에 공짜는 없으니 어쩔 수 없습니다. 상대적으로 적은 비용으로도 수행 가능한 똑똑한 방법을 찾아보거나 할 순 있겠지만 아예 피할 수는 없는 문제입니다.
- "인간 없이 expert를 못 만든다고요? 진짜로요?": 태스크에 따라 다르겠지만 조금의 난이도와 generalizability라도 요구된다면 힘듭니다. 사례로 설명하자면 RL로 안 풀리는 마인크래프트가 좋은 예시죠. 인간에게서 어떤 정보도 전달받지 않고 인간 정도의 범용성을 가진 에이전트를 만드셨다면, 수억년에 걸친 생명체의 진화 과정을 성공적으로 수일/수개월/수년 이내에 모방하신 겁니다. 엄청난 업적이겠죠. (물론 당연히, 인간에게서 배우는 것과 RL을 섞었을 때 시너지가 날 수 있다는 점에는 동의합니다. 여기서 지적하는 건 인간에게서 전혀 배우지 않는 접근입니다.)
- "진짜로 현존하는 SOTA MLLM들이 그렇게 별로인가요?": 태스크와 도메인에 따라 다르지만, 한계가 큰 태스크가 매우 많다고 보고 있습니다. low-frequency desktop automation 정도는 요새 많이들 하는 것 같은데, high-frequency i/o나 long-context memory를 요구하는 태스크는 매우 힘듭니다. 참고로, MLLM이 이미지 1장당 100토큰 받는다 가정하고, 20FPS 영상을 10초 입력으로 받으면 20000 토큰이 필요합니다. 설령 태스크를 수행할 수 있다고 해도 매우 비효율적임에는 틀림없습니다.
Critical problem: memory
실제로, 저는 human demonstration을 모아 human-like navigation agent를 만들고 있는 제가 재직하는 WoRV팀에서, expert/policy가 같은 입력을 봐야 한다는 전제가 깨지지 않도록 유의하고 있습니다. 반드시 인간에게 보이는 화면은 모델에게 보이는 화면과 같거나 거의 유사해야 합니다. 차이가 발생할 수 있는 경우는 비숙련된 human teleoperator을 위한 보조적인 장치나, 언어의 차이(모델에게는 언어/human teleoperator에게는 한글)만이 되어야 합니다.
실제로 저희 모델와 인간은 거의 같은 입력(약도, 자연어 지시, 카메라 뷰)을 보는데요, 유일한 차이는 기억입니다. 인간은 episode를 전부, 심지어 그 너머로 자신의 인생 전체를 이용해 판단을 하는데, 현존 로보틱스 모델들은 대다수가 기억이 없거나(현재 프레임만을 사용해 다음 액션을 예측합니다), 있어도 매우 짧은(초 단위) 기억을 가지고 있습니다.

저는 그래서 기억 문제를 인공지능 분야에 있어 매우 중요하며 매우 치명적인 이슈로 보고 있습니다. 실제로, 기억 문제는 imitation learning을 ill-defined하게 만듭니다. 예시를 들어볼까요?
인간이 주행하다가 보이는 코너를 돌아 우회전합니다. 그런데, 코너를 돌다보면 중간부터는 코너가 카메라에 안 보입니다. 인간은 카메라에 보이던 코너가 안 보인다고 없어졌다고 생각하지 않습니다. 기억하고, 그것을 고려해 다음 행동을 정하죠. 근데, 기억이 없는 로보틱스 모델들에게, 안 보이는 코너는 그냥 없는 겁니다. 그래서 코너링을 하다 코너를 고려하지 않아 후미가 충돌합니다.
인간이 날아오는 공을 잡거나, 날아다니는 짐볼을 피해서 움직입니다. 기억 없는 모델은 그런 거 못 합니다. 기억 없이는 시간에 대한 인지가 불가능하며 시간에 대한 인지 없이는 속도를 모르기 때문입니다. 사실 시간 없이는 역학이라는 학문이 성립하지도 않죠.
정말로 쉽고 간단한 예시들이지만, 기억이 없으면 못 합니다. 못 하는 것도 문제인데, 인간은 기억이 있어서 그것에 기반해 행동했던 것인데 모델에게는 그 판단 근거가 안 보이니, 사실상 데이터에서 노이즈로 작용해 성능을 깎아먹는 원인도 됩니다.

이것 외에도, 인간은 자신이 인지하지도 못하는 사이에 정말로 무지막지한 정도로 기억을 하여 자연스럽게 next action prediction에 사용하고 있습니다. 인간은 수십년 전 기억도 하는 건 당연하고요, 그냥 게임을 할 때도 수초는 당연하고 수분/수시간의 기억을 사용해 최적의 액션을 고르는 데에 아주 자연스럽게 사용합니다.
또한 기억 문제는 long-context와도 얽혀있으며 현존 MLLM들이 vision token을 처리하는 비효율적인 방식과도 얽혀있습니다. 그래서 제가 지금보다 훨씬 효율적으로 매우 긴 비전 입력을 처리하는 아키텍처가 고안되어야 한다고 주장하는 것이기도 하고요. 현실적인 제약으로 당장 풀기 힘든 건 맞지만, 정말로 치명적인 문제이고 반드시 풀어야 하는 문제라고 저는 보고 있습니다. 동시에, 중요도에 비해 너무나도 조명받지 못하고 있는 문제라고 보입니다. 이것 외에도 제가 판별한 multimodal agent의 문제는 몇가지 더 있지만, 가장 치명적인 문제가 기억 문제이기에 이쯤에서 줄이겠습니다.
towards R1-like RL in multimodal agent
현재 나온 연구들로만 봤을 때, R1-like RL을 multimodal agent로 확장하는 것은 아직 이르다고 보입니다. (실험 세팅이 제대로 된 extensive한 연구가 얼른 나왔으면 좋겠네요.) 하지만, 지금 language-only에서 고품질 CoT 데이터를 수집하는 것도 힘든데, 멀티모달로 가면 더 힘들어질 것이라고 생각합니다. 이미 지금 image captioning 데이터 모으는 것만 해도, image captioning이라는 태스크의 본질적인 엄청나게 ill-defined된 특성 때문에(캡션에는 정답이 없습니다. 길이도 달라질 수 있고, 묘사하는 디테일의 정도도 달라질 수 있고, 필요한 디테일도 달라질 수 있습니다.), 고품질 image caption을 모으려는 시도들도 꽤 많이 나오고 있는 상태입니다.
하지만 이러한 고품질 데이터의 필요도를 RL을 통해 줄일 수 있다면 굉장히 큰 도움이 될 것이며 또한 R1/o1처럼 성능에도 급격한 향상을 이룰 수 있다면 당연히 더할 나위 없을 겁니다.
다만 이렇게 되기 위해 필요한 것들은 많이 남아 있습니다. 계속 제가 강조하듯, sufficiently good initial policy가 있어 RL의 cold start 문제도 극복할 수 있어야 합니다. 현존 MLLM들은 R1-like RL을 하기에 필요한 사전적인 능력이 부족한 상태라 추측합니다.
아무튼, 이만 마치는 걸로 하겠습니다. 참고로, 저는 인간을 모방한 multimodal agent를 만드는 데에 아주 관심이 많으며, 지금 제가 있는 팀인 WoRV팀에서는 human-like robotics navigation agent를 만들고 있습니다. 커피챗/채용 등에 관심 있으신 분들은 언제든 연락 바랍니다.