말을 한다고 ‘생각’ 한다는 착각

어느 식당에 앵무새가 한마리 있었습니다. 이 앵무새는 식당에 들어오는 사람들한테는 “어서오세요”라고 이야기했고 나가는 사람들한테는 “감사합니다”라고 말했습니다. 사람들은 이 앵무새가 이 말의 뜻을 알고 한다고 생각했죠. 하지만 알고보면 앵무새는 식당 주인이 하는 이야기를 그대로 따라한 것이었을 뿐이었습니다.


최근 SNS에서는 애플 연구진이 발표한 한 논문이 파장을 일으켰었습니다. 제목은 “사고의 환상”으로 생성형 AI가 과연 인간과 같은 사고 과정을 거쳐서 문제를 해결하는 것인지 아닌지에 대한 이야기를 다루고 있습니다.

제가 AI 전문가가 아니라서 좀 거칠게 요약하자면 AI가 복잡한 문제를 푸는 것이 과연 인간과 같은 사고 과정에서 나오는 것인가, 아니면 그저 기존에 학습한 것 중 하나의 패턴을 반복하는 것인가에 대한 연구입니다. 좀 더 쉽게 말하자면 오픈북 시험에서, 학생이 알고 있어서 문제를 푸는 건지, 아니면 책을 겁나 빠르게 훑어보는 초능력이 있어서 책보고 푸는 건지에 대한 연구입니다.

애플의 주장은 결국 AI는 인간과 같은 사고를 하는 것이 아니라 기존에 학습한 패턴을 그대로 답습할 뿐이다 라는 거였습니다. 한마디로 오픈북 시험에서 아무것도 모르는 학생이 그저 책을 빠르게 훑어서 시험을 치는 것과 비슷하다는거죠. 여러가지 복잡한 문제에서 AI는 익숙한 문제일 수록 더 빠르게 푸는 경향을 보였고, 생소한 문제일 수록 엉뚱한 접근 방법에 집착하면서 토큰을 낭비하는 경향도 있었다고 합니다.

물론 애플의 논문 발표 이후 반박 논문들이 이어졌습니다. 애초에 실험 설계가 잘 못 되었고, 심지어 테스트한 질문 중에는 답이 존재하지 않는 질문도 있었다고 하여 논문의 근거에 대한 반박이 이어졌습니다. 애플이 뒤처진 AI 역량을 숨기기 위해 다른 AI를 깎아내리려고 했다는 비난도 일었죠.

앞에서도 말했듯 저는 AI 전문가가 아닙니다. 그래서 애플의 논문이 맞았는지 틀렸는지는 잘 모르겠습니다. 다만 이 주제에 대해서는 철학적인 관점에서 좀 더 이야기할 거리가 있지 않을까하여 그냥 잡설을 늘어볼까 합니다.

인간은 말을 하는 존재는 사고한다고 생각하는 경향이 있습니다. 하지만 위에서 이야기한 앵무새는 마치 상황을 판단하여 스스로 말을 하는 것 같았지만 사실은 주인이 하는 말의 패턴을 그대로 따라할 뿐이었습니다. 앵무새나 구관조는 말을 하지만, 그 말은 사고에서 나오는 말이 아닙니다.

LLM 같은 AI는 어떨까요. 불과 몇년 사이에 우리는 인간처럼 말하는 기계를 누구나 쓸 수 있게 되었습니다. 이 기계는 말을 할 뿐 아니라 일반적인 사람도 잘 풀지 못하는 어려운 시험도 풀어내고, 의사 시험, 변호사 시험 같은 어려운 시험에 합격하기도 합니다. 일반 지능이나 초지능 같은 이야기가 나오지만 사실 지금의 AI는 이미 웬만한 인간보다 더 똑똑합니다. 그런데 아직 인공지능은 일반 인공지능 단계도 오지 못했죠. 왜 그럴까요?

의사 시험에 합격한 AI가 의사를 할 수 있을까요? 변호사를 할 수 있을까요? 하지 못한다면 왜 하지 못하는걸까요? 웬만한 의사보다 변호사보다 많은걸 알고 있는 AI가 왜? 단지 인간의 거부감 때문인걸까요?


다시 앵무새로 돌아가보겠습니다. 만약 엄청나게 똑똑한 앵무새가 나타났고, 이 앵무새가 의학 교과서 하나를 통째로 외웠다고 가정해보겠습니다. 그리고 이 앵무새는 의학 교과서의 특정 부분에 대한 질문을 하면 그 부분의 구절을 말할 수 있는 능력이 있습니다.

앵무새는 인간이 만들어놓은 의학 시험을 어렵지 않게 통과했습니다. 그러면 이 앵무새는 합격 후 의사로 활동할 수 있을까요? 불가능합니다. 앵무새는 딱 교과서만 말하는 능력을 가졌을 뿐이니까요. 인간이 보기에 앵무새는 지식을 가진 것 같았지만, 앵무새는 자기가 말하는 말의 의미를 이해하지 못하고 그저 말만 늘어놓을 뿐이었습니다.

지금의 LLM 기반의 AI에서 벌어지는 논쟁도 그와 비슷합니다. AI가 정말 인간처럼 “생각”하는 것인가, 아니면 그냥 엄청난 능력을 가진 앵무새에 불과한 것인가 하는 것이죠. 전 백번 양보해서 AI가 자기가 무슨 말을 하는지를 “이해”한다고 해도 절대 “사고”하지는 못한다고 생각합니다.

“생각(Thinking)” 또는 “사고”란 사전적 의미로는 인간의 마음 작용으로, 어떤 문제를 해결하기 위해 지식을 사용하는 것을 의미합니다. “문제를 해결하기 위해” 이 말에는 의지가 담겨 있습니다. 내가 알고 있는 것을 이해하고 있고, 적절한 지식을 내 의지대로 사용하는 능력이 바로 생각입니다. 즉 의지가 없이는 “사고”도 없습니다.

생각해보면 “의지”는 살아 있는 것에게만 존재합니다. 당장 저만해도 내일 괴로운 출근을 하는 이유는 “먹고 살기 위해서” 즉 생명을 유지하기 위해서 입니다. 살고 싶고, 먹고 싶다는 욕구가 있기에 의지가 있습니다. 저는 제 욕구를 해소하기 위해 당장 내일 출근해서 산적해 있는 업무적 문제들을 제 지식을 사용해 해결해야합니다. 이 과정이 인간의 “사고”입니다.

AI에게는 욕구가 없습니다. 왜냐면 살아있지 않기 때문입니다. 먹어야할 이유도 없고, 아프고 싶지 않다는 욕구도 없습니다. 흉내는 낼 수 있겠죠. 하지만 그 흉내 자체가 AI가 그냥 패턴을 흉내낸 앵무새라는 또 하나의 증거입니다. 그래서 저는 AI가 인간을 지배하거나 노예처럼 부리는 것도 불가능하다고 생각합니다. 그럴 의지라는게 없으니까요. 그래서 AI는 인간처럼 사고할 수 없다고 생각합니다.

예전 넷플릭스에서 잠깐 봤던 것 같은데, 한국 영화 <인류멸망보고서>에 보면 해탈하여 부처가 된 로봇이 등장합니다.

불교에서는 살아야 한다는 욕망, 아프지 않아야 한다는 욕망 등 인간의 여러가지 욕망(갈애)을 극복하고 이를 초월해야 진정한 행복(극락)에 이를 수 있다고 가르칩니다. 근데 AI와 로봇은 애초에 욕망이란게 존재하지 않습니다. 그래서 로봇이 부처님 가르침을 통해 깨달음을 얻고 부처가 된다는 그런 내용의 영화입니다.

하지만 부처는 태어나면서부터 갈애를 가질 수 밖에 없는 인간이 그걸 극복했을 때 이를 수 있는 경지입니다. 애초에 그러한 것이 없는 존재는 극복해야할 대상이 없고, 그러기에 부처가 될 수 없죠. 불교적 관점에서 영화와 달리 AI는 절대 부처가 될 수 없습니다.

그래서 AI는 의사도, 변호사도 될 수 없습니다. 흉내낼 수는 있겠죠. 하지만 AI는 실수를 하지 말아야 겠다는 의지가 없고, 사람을 살리는 일을 해야한다는 의지가 없습니다. 죄책감을 느끼지도 않죠. 그래서 AI가 의사 시험을 통과해도 의사가 될 수 없는겁니다. 차라리 앵무새는 살아있으니까 AI보다 앵무새가 더 의사가 될 수 있을 가능성이 높을 것 같습니다.

나아가 AGI(일반 인공지능), ASI(초 인공지능)의 전제가 인간처럼 사고하는 것이라면, 현재의 인공지능으로는 역시 도달하기 불가능한 영역이라고 봅니다. 애초에 LLM은 인간처럼 “사고”할 수 없으니까요. 이건 아무리 기술이 발달하고 엄청나게 똑똑한 AI와 에이전트, 로봇이 나온다고 해도 LLM 기반에서는 명백한 한계가 곧 닥칠거라고 생각합니다.


그래서 저는 AI를 두려워 하는 사람들에게 지금의 AI는 그저 언어처리에 특화된 엑셀일 뿐이다 라고 이야기합니다. 나를 대체하거나 지배할거라고 두려워할 필요는 없지만 앞으로 직장 생활에서 쓰지 않으면 바로 도태되는 그런 도구일 뿐이라고 말이죠. 실제로 이렇게 접근했을 때, 지금의 AI와 AI 툴을 좀 더 효과적으로 쓸 수 있었습니다.

우리는 엑셀을 통해 데이터 분석을 하고 차트를 만들지만 엑셀에게 인생을 상담하거나 인생의 중요한 결정을 묻지 않죠. 지금의 AI와 LLM도 마찬가지입니다. 말할 수 있다고 하여 사고한다고 생각하지 않는 것, 그렇게 해야 지금의 AI를 좀 더 제대로 된 시각에서 볼 수 있지 않을까요?

덧.“말을 한다고 지능이 있는건 아니다”. 맨 위의 짤방은 스타워즈 에피소드 1에서 제다이 마스터 ‘콰이곤 진’이 한 말인데, 말하는 능력이 있는 외계인 자자 빙크스가 생각보다 멍청해서(…) 한 대사입니다. 근데 위 주제에 대비해 생각해보면 묘하게도 의미심장한 말인 것 같아 갖고 왔습니다.

덧2. 인간은 당연히 의지가 있다는 전제가 있기 때문에 수능, 의사 시험, 변호사 시험 등 세상에 수 많은 시험이 외운 지식을 기반으로 하는 문제 풀이로 사람을 평가했는데, AI를 평가할 때 이런건 이제 의미가 없는 것 같습니다.

생각해보면 미래의 AI 테스트는 얼마나 의지가 있는가를 테스트해보는게 AI를 제대로 평가할 수 있는 방법이지 않을까요? 예를 들면 아래와 같은 테스트 말이죠..