인간과 같은 에이전트를 만들어야 하는 이유(feat. robotics)
저는 현재 마음AI에서 차량 및 로봇 자율주행 에이전트를 개발하고 있습니다. 사이드프로젝트로는 OpenSIMA라는 프로젝트를 진행중인데, open-source agent 연구의 frontier을 closed-source의 frontier과 동등한 수준으로 끌어올리는 것을 목표로 화면/키보드+마우스 기반 데스크탑 에이전트를 쉽게 만들고 이전의 연구들을 재현할 수 있게 하며 나아가 새로운 연구를 시작할 수 있게 하는 프로젝트입니다.
올해부터 Embodied AI라는 분야에 쭉 시간을 쏟으며 수백편의 논문을 읽었는데, 그러다보니 느낀 게 있습니다. 저는 사람과 같은 에이전트를 만드는 게 대다수의 문제를 풀 수 있게 되는 유일한 방법이라 강하게 확신합니다. 이미 LLM 분야에서는 그것을 증명했습니다. 최초로 사람처럼 대화하며 사람처럼 사고하는 것처럼 보이며 엄청나게 넓은 범위의 태스크를 처음 보거나, 예시만 주면 풀 수 있는 모델을 만들며 ‘인간’을 근사했습니다.
하지만 아직도 기존 로보틱스 업계에서는 ‘인간’이 아닌 ‘로봇’을 만들고 있습니다. 그들은 1cm라도 더 정확한 센서를 쓰고 depth estimation, object detection metric을 1%라도 올리는 것에 집중합니다. 그들이 만드는 로봇은 전혀 ‘인간’과 같은 입출력으로 학습하지 않으며 전혀 ‘인간’과 같은 기동을 보이지 않습니다. 그들은 더 정확한 인지를 얻기 위해 수천만원의 라이다에 비용을 지불하는 것을 아끼지 않으며 수천번 기동해도 오차가 거의 누적되지 않고 원래 위치로 돌아오는 로봇 팔을 만들기 위해 수천만원 가격의 로봇 팔을 만듭니다. 그들은 키가 큰 풀이 자라있는 잔디밭을 주행하기 위해, 취득한 point cloud 데이터에서 잔디를 지우는 point cloud filter을 개발합니다.
도대체 왜 이런 것들이 필요할까요? 인간은 이들을 전혀 필요로 하지 않습니다. 사람은 센서 인지나 행동에 오차가 있으면 자의적인 판단을 통해 교정하며 고차원적인 사고를 통해 상황에 맞는 행동을 합니다. 또한 익히 잘 알려진 imitation learning은 모델에게 human demonstration에서 implicit reward를 가르치는 방법을 제시합니다. 즉 이 방법만 따르면 모델이 사람을 근사할 수 있다는 겁니다. 그러면 이 접근을 안 취할 이유가 어딨을까요?
고전 로보틱스 업계에서는 이러한 모든 요소를 모듈별로 나눠서 전문가가 수개월간 개발합니다. (grass point cloud filter도 하나가 그 자체로 학회에 나오는 하나의 연구입니다.) 하지만 제가 imitation learning을 했을 때, 지도에 없는 박스와 사람을 피하고 수풀이 지나가도 된다는 사실을 가르치는 모든 과정(데이터 수집부터 학습, 평가까지)이 15일이 걸렸습니다. 이게 가능하도록 기반 파이프라인을 만드는 데 4개월의 시간을 들였고, 모든 데이터를 사람이 만들었기에 비용도 듭니다. 하지만 기존 접근론에 비해 극도로 시간 효율적이며 훨씬 멀리 갈 수 있습니다. 풀 수 있는 문제 집합의 폭이 말도 안되게 커집니다. 빠를뿐만 아니라 매우 효과적이기도 한데, 울퉁불퉁하여 돌에 충돌하면 로봇이 멈추는 과수원 환경에서 고전 로보틱스 주행 알고리즘은 0%의 성공률, ‘사람같은’ 에이전트는 67%의 성공률을 달성했습니다. (CANVAS 논문에서 보였습니다.)
LLM에서 시작해서 에이전트를 만드려는 사이드에서는 그나마 말이 되는 접근을 취하고 있습니다. large-scale pretraining에서 시작해 SFT, alignment tuning을 거치는 매우 scalable하며 효과적인 접근에서 시작했기 때문에, 행동을 가르칠 때도 비슷한 단계를 거치고 있습니다. 이 단계적 접근론은 “language” model에만 적용되는 게 절대 아니라고 저는 판단하고 있습니다. 사람과 같은 “language” model을 이미 만들었으니, 사람과 같은 “action” model을 만들 차례입니다.
하지만, 로보틱스 도메인에서 시작한 사람들은 아직도 정말 많이 모르고 있습니다. “사람과 같아야 한다”라는 개념 자체가 머릿속에 없습니다. 그들에게 로보틱스란 cm 단위 오차를 줄이고 이미 정의된 태스크의 metric을 1% 높이는 행위입니다. 최근에 자율주행 강의를 보고도 놀랐는데, 전체 목차 6개 중 처음 4개가 전부 센서 인지와 위치 파악의 정확도를 향상시키는 내용이었습니다. 주행 경로 계획은 6개 중 딱 한 챕터만 들어갑니다. 전 그걸 보고 기존 업계에서 얼마나 인간의 사고 능력을 낮은 가치로 보고 있는지 굉장히 잘 느껴진다고 생각했습니다. 사람이 현존하는 생물체중 유일하게 고등 사고를 보이며, 사람이 드러내는 행동, 말하는 언어에서 고등 사고가 드러나는데, 그들은 사람에게 배우는 것을 염두에도 두지 않습니다.
아무튼, 생각이 많은데 이러한 내용을 어떻게 전달하고 사람들을 설득할지 요새 고민이 많습니다. 개인 블로그라 부담없이 적어봤는데, 공적인 자리에서 전달하기 위해서는 공격적으로 보일 수 있는 문구도 줄여야 할거고요.
개인으로든 회사로든 언제든 Embodied AI 관련한 랜덤한 연구교류는 환영합니다.