Apple Vision Pro와 AI 시대에 독야청청한 애플

이 글은 지난 번에 썼던 애플 WWDC 2023 정리의 후속 글입니다.

Apple Vision Pro

WWDC 2023에서 발표된 제품 중 가장 중요한건 Apple Vision Pro 였습니다. “공간 컴퓨팅”이라는 새로운 컴퓨팅 방식을 제시하는 애플의 새로운 플랫폼이죠.

그동안 헤드셋 기반의 VR 기계나 AR 기계를 만들었던 회사들은 많았습니다. 아예 회사 이름까지 바꿀 정도로 메타버스에 진심이었던 메타(Meta)나, MR(Mixed Reality)라는 개념을 제시했던 마이크로소프트, 그리고 구글까지 전세계에서 유명한 빅 테크들은 한번씩 이런 헤드셋 형태의 제품을 만들었었습니다. 가격도 천차만별이었고 기능도 조금씩 달랐지만 공통점이 하나 있었습니다. 전부 성공하지 못했다는 것이었습니다.

이 시점에서 애플이 Vision Pro라는 헤드셋을 내놓은 것은 너무 늦은 느낌이 있습니다. 애플 급의 빅테크 기업들이 한번씩 도전했다가 망했던 시장이고, 요즘 IT 계의 유행은 메타버스나 VR이 아니라 AI 거든요. 마소도 구글도 신제품 발표 행사에서 AI란 단어를 100번도 더 넘게 이야기하는데 애플은 어쩐지 메타버스 유행이 다 지나버린 이 시점에 Vision Pro라는 제품을 내놓았습니다.

물론 Apple Vision Pro는 다른 경쟁사의 헤드셋들과는 스펙적인 측면에서 비교가 안됩니다. 양쪽 눈에 Micro LED 기반의 4K 디스플레이를 탑재하고 있고 M2 프로세서와 R1 프로세서를 내장하고 있고 헤드셋 안쪽과 바깥쪽, 사용자 제스쳐를 인식하는 카메라만 12개가 탑재되어있고, 헤드셋 앞 쪽에는 사용자의 얼굴을 시뮬레이션하는 디스플레이가 탑재되어있습니다. 물론 가격도 3,599 달러로 우리 돈 500만원 정도에 해당하는 초고가의 헤드셋입니다.

셀 수 없이 들어간 센서와 카메라, 그리고 고성능 저전력의 프로세서 덕분에 애플 비전 프로를 시연해본 사람들은 다른 헤드셋과 다른 “마법” 같은 경험이었다고 이야기합니다. 확실히 사용자 경험 자체는 가격만큼 다른 헤드셋들과 비교가 불가한 것 같습니다.

물론 스펙이 높다고 해도 기존의 헤드셋 제품과 다를바가 없다면 애플 비전 프로도 실패로 검증된(?) 전임자들처럼 성공하기는 어려울 것입니다. 애플 비전 프로가 다른 가상현실 헤드셋과 다른 점은 무엇일까요?

공간 컴퓨팅

개인적으로 애플이 비전 프로를 소개했을 때 말했던 단어 중 가장 인상 깊었던 것은 바로 “공간 컴퓨팅”이라는 개념이었습니다. 메타나 마이크로소프트 등 경쟁자들은 헤드셋 제품군을 발표하면서 이것을 ‘컴퓨터’라고 소개한 사례는 거의 없었습니다. 대부분은 가상현실 게임기로 소개하거나 메타버스를 위한 하드웨어 정도로 소개했죠. 특히 메타나 구글 같은 경우는 헤드셋 제품 자체가 아니라 그 위에서 실행되는 소셜, 메타버스 서비스에 중점을 두었습니다.

애플은 다른 빅테크 경쟁자들과 달리 하드웨어에서 잔뼈가 굵은 회사입니다. 애플은 다른 경쟁자들과 달리 비전 프로 하드웨어 자체를 주인공으로 발표했습니다. 공간 컴퓨팅을 위한 새로운 형태의 “컴퓨터”라고 하면서요.

애플은 비전 프로를 VR 기기가 아니라 맥북, 아이폰, 아이패드와 같은 컴퓨터로 포지셔닝하고 있습니다. 이걸 가장 잘 드러내는 사례가 바로 아래 그림이죠.

가장 중요한 포인트는 헤드셋을 끼고도 기존에 하던 작업을 기존에 우리가 사용하던 인터페이스로 할 수 있다는 것입니다. 가상 환경에 최적화된 새로운 인터페이스가 아니라 맨날 보던 브라우저를 이용하고 맨날 쓰던 메신저 앱을 키보드로 사용할 수 있는거죠. 맥북이나 아이패드에서 하던 작업과 다를 바가 없이요.

다른 점은 딱 한가지. 물리적 화면 크기와 공간의 제약이 없다는 것이죠. 바로 이게 비전 프로의 핵심입니다.

이건 작지만 다른 경쟁자들과 비전 프로를 차별화하는 포인트입니다. 비전 프로의 사용자는 비전 프로를 사용하기 위해 뭔가 새로운 것을 익힐 필요가 없어요. 그저 공간이나 화면 크기의 제약이 없는 아이패드 쓰듯이 쓰면 됩니다.

사용자 뿐 아니라 개발자 입장에서도 비전 프로에서 사용하기 위해 뭔가 새로운 인터페이스나 컨텐츠를 창조해낼 필요가 없습니다. 그 덕분에 비전 프로에서는 기존 앱스토어에 있는 아이폰과 아이패드 앱을 그대로 사용할 수 있습니다. 이미 나오기 전부터 컨텐츠 측면에서 다른 경쟁자들의 헤드셋을 압도해버리는 거죠.

기존의 컴퓨터를 쓰듯이 쓸 수 있다는 것, 이것이 다른 경쟁자에 비해 비전 프로가 가진 가장 큰 무기라고 생각합니다.

“마법” 같은 사용자 경험

사실 애플 제품을 이야기할 때마다 빠지지 않고 등장하는 것이 바로 이 단어죠. 이번에 비전 프로를 발표하면서도 애플은 “Magic”이라는 단어를 엄청나게 썼습니다.

애플의 제품을 보면 남들이 시도하지 않은 최첨단 기술을 갖고 있거나 딱히 다른 사람들을 압도하는 기술력을 갖고 있는 것은 아닙니다. 누군가처럼 “저렇게 만들면 누가 못 만들어~ 특별한 것도 없네” 라고 말할 수 있을 정도에요. 아이폰이 나왔을 때도 그랬고, 아이패드도 그랬습니다. 그래서 처음 나온 1세대 제품은 비웃음도 많이 당하고 욕도 많이 먹죠.

애플 제품의 가장 특별한 부분은 기술 자체가 아니라 최첨단 기술을 유기적으로 연결하는 사용자 경험입니다. 누군가는 “아이폰 감성”이라고도 이야기하는 것이죠. 직관적인 인터페이스부터 시작해서 끊김 없는 애니메이션까지. 엔지니어 입장에서는 하등 쓸모 없어 보이는 부분을 구현하기 위해 애플은 엄청난 기술과 자원을 투입하기도 합니다.

비전 프로에서는 바로 이 부분을 담당하고 있는게 R1 프로세서입니다. M2 프로세서는 일반적인 컴퓨터 프로세서 역할을 담당하고 R1은 오직 이미지만 처리합니다. AR에서 사용자가 보고 있는 이미지가 조금의 지연이나 끊김이 있으면 바로 위화감을 느끼기 때문에 수 많은 센서와 카메라에서 온 이미지만 처리하는 프로세서를 따로 둔 것이죠. 이를 통해 비전 프로에서는 끊김 없는 이미지를 만들어낼 수 있다고 합니다.

R1 프로세서의 성능이 어느정도인지는 실제로 써봐야 알겠지만, R1 프로세서는 애플의 마법과 같은 사용자 경험을 상징합니다. 별도의 프로세서가 비록 전력을 더 많이 소비할지라도 좀 더 사실적인 경험을 위해서 별도의 프로세서를 투입하는 결정을 한거죠.

비전 프로는 다른 헤드셋과 달리 컨트롤러가 따로 없습니다. 컨트롤러가 없는 대신 제품 하단의 두개의 카메라가 사용자의 손 동작을 감지합니다. 또한 내부의 카메라는 사용자의 시선을 추적합니다. 앱을 바라보기만 해도 선택하고 실행할 수 있습니다. 인간에게 가장 자연스러운 “손 동작”과 “시선”을 통해 사용할 수 있도록 한 것이죠. 비록 그 대가가 다소 비싸더라도 말이죠.

전 이런 부분이 비전 프로가 다른 경쟁사의 VR/AR 헤드셋과 가장 다른 부분이라고 생각해요. 비전 프로가 갖고 있는 기술이 아주 막 특별한 건 아니지만 자연스럽고 매끄러운 사용자 경험을 위해서는 타협 없이 최선을 다하는거죠.

아마 비전 프로를 기대하는 사람들도 이러한 이유로 “비전 프로는 다르다”라고 생각하는 거겠죠. 그리고 이 부분은 시연에 참여했던 사람들에 의하면 어느정도 사실인 것 같습니다.

넘어야 하는 장벽은 사람들의 인식

하지만 개인적으로 비전 프로에 대해 낙관적이지만은 않습니다. 비전 프로가 대중적으로 성공하려면 넘어야 하는 부분이 있기 때문이죠.

가격일까요? 가격은 아마 비전 “프로”가 아닌 비전 “에어” 같은 제품이 나오면 해결될 문제라고 생각해서 큰 문제라고 생각하진 않습니다.

오히려 더 큰 문제는 사람들의 “인식”이죠.

제가 어릴 때 사람들은 모든 전화기가 영상 통화가 가능해질거라고 생각했습니다. 그리고 실제로 1992년에 비디오 폰이 출시 되기도 했습니다. 기술 교과서에서 이미 비디오 폰이 출시된지가 오래되었다는 이야기를 듣고 신기했던 기억이 있습니다. 왜냐면 주변에서 비디오폰을 쓰는 사람들은 한명도 못봤거든요.

실제로 비디오폰은 상용화되지 못했는데, 그 이유는 생각보다 단순합니다. 기술이 부족해서가 아니라 사람들이 원하지 않았거든요. 일상적으로는 얼굴 보고 전화하는 것 자체도 부담스러웠고 요금도 너무 비쌌거든요. 비디오 폰이 나오고 30년이 지난 뒤에야 코로나라는 특수 상황을 거치면서 인식이 바뀌었고 화상 통화는 중요한 기능 중 하나가 되었죠.

전 비전 프로가 넘어야 하는 산이 바로 이 부분이라고 생각합니다. 비전 프로를 쓰고 일하거나 노는 모습이 얼마나 사람들에게 잘 받아들여질 수 있을 것인가. 사실 다른 경쟁사의 헤드셋들은 모두 이 장벽을 넘지 못해 대중화되지 못했습니다. 헤드셋을 쓰고 있는 모습은 헤드셋을 안쓰고 있는 사람들이 보기에는 너무 우스꽝스러웠거든요.

비전 프로의 디자인은 아주 우아한 스키 고글(?) 같지만, 제가 보기에는 그러한 우스꽝스러운 모습을 뛰어넘을 수 있을 정도는 아닌 것 같아요. 과연 애플은 이런 이미지를 뛰어 넘을 수 있을까요? 물론 애플이란 브랜드의 이미지 덕분에 생각보다 수월하게 극복할 수 있을지도 모를 일이죠.

AI에 무관심한(?) 애플

원래 WWDC는 소프트웨어 중심의 개발자 행사입니다. 사실 구글이나 마이크로소프트의 선례를 봤을 때 이번 WWDC 2023에서 가장 중요한 키워드는 “AI(인공지능)”이어야 했습니다. 하지만 애플은 이번 WWDC에서 “AI”는 단 한마디도 하지 않았습니다. “AI”라는 말을 하지 않았을 뿐 아니라 오히려 의식적으로 피하려는 것 같이 보일 정도였죠.

이 정도면 애플이 AI 경쟁에 너무 뒤처지는 건 아닌가 싶을 정도입니다. 시리는 누구보다 먼저 세상에 나왔지만 지금은 세상에서 가장 멍청한 인공지능으로 비웃음 당하고 있는데 마이크로소프트는 GPT-4를 이용해 윈도우와 오피스에 긴밀하게 통합하려하고 있죠.

누군가의 말처럼 애플은 다른 경쟁자와 달리 AI 기술력이 없어서 이를 숨기는걸까요? 제 생각은 조금 다릅니다.

저는 사실 애플이 누구보다 AI에 진심이라고 생각하고 있습니다. ChatGPT가 나오기 훨씬 오래 전부터 말이죠. 바로 아이폰 X부터 프로세서에 탑재하기 시작한 뉴럴 엔진 때문입니다. 뉴럴 엔진은 NPU의 일종으로 인공지능 연산에 최적화 되어있는 프로세서입니다. 매번 애플이 새로운 아이폰을 발표할 때마다 1초에 100조 회의 연산이 가능하다고 이야기하는 바로 그 것입니다. 이젠 맥에도 애플이 만든 프로세서가 탑재되기 때문에 애플에서 만드는 컴퓨터 형태의 모든 하드웨어에는 이 NPU가 기본 탑재되고 있다고 볼 수 있습니다.

바로 이 뉴럴 엔진 덕분에 아이폰, 아이패드, 맥은 운영체제 단계에서부터 인공지능을 활용한 기능을 아무렇지 않게 수행할 수 있습니다. 이미지를 누르기만 해도 자동으로 누끼가 순식간에 따진다거나, 이미지에 있는 글자를 읽어내고 이를 다른 언어로 실시간으로 번역하는 기능과 같은 것들이죠. 지금이야 아무렇지 않게 쓰고 있지만 AI와 머신러닝, 그리고 뉴럴 엔진의 힘이 아니라면 구현하기 불가능한 부분입니다.

애플은 이번에 발표된 iOS 17의 자동 수정 기능을 이야기하면서 이례적으로 “트랜스포머(Transformer)” 모델을 사용한다고 밝혔는데 이 기술은 대규모 언어처리 모델(LLM)의 기반 기술로 ChatGPT 등에서도 사용되는 기술입니다. 어떤 단어가 다음에 올지 우선 순위를 통해 단어를 제안하거나 재배치하는데 사용되는 기술입니다. 아예 대놓고 AI 모델의 이름까지 언급한 것이죠.

그리고 이번 WWDC에서 나오진 않았지만 iOS 17에는 사용자의 목소리를 학습해서 텍스트를 사용자의 목소리로 읽게하는 Live Speech 기능이 새롭게 추가될 예정입니다. 일정한 문장을 다섯 번 이야기하면 이를 아이폰이 학습해서 사용자의 목소리를 모방하는 기능인데, 목소리를 잃어가는 병을 가진 사람들과 가족들을 위한 기능이라고 설명하고 있습니다. 이것도 AI의 힘이 아니라면 구현하기 불가능한 기능이었을겁니다.

이 정도면 애플이 AI라는 단어만 이야기 안했지 AI를 거의 전면적으로 사용하고 있다는 것을 아실 수 있을겁니다. 애플이 만드는 모든 하드웨어에는 뉴럴 엔진이 탑재되고 있고, 모든 운영체제에는 이미 AI를 활용한 기능을 디바이스 레벨에서 사용하고 있습니다.

근데 애플은 왜 인공지능에 무관심해보이는걸까요? 애플은 AI 중 딱 한가지 분야에만 무관심한데 그게 바로 “생성형 AI”입니다.

생성형 AI란 Dall.E, ChatGPT, Bing 처럼 무언가를 만들어내는 AI를 말합니다. 현재 Stable Diffusion을 제외하고 생성형 AI는 전부 클라우드에서 실행되는데, 그 이유는 생성형 AI가 컴퓨팅 자원을 어마어마하게 소비하기 때문입니다. ChatGPT에게 묻고 답을 얻어내는 과정은 간단해보이지만 사실 뒤에는 초 고성능 컴퓨터가 수백대 동원되는 엄청난 연산 작업이 필요합니다.

위에서 언급한 애플의 AI 기능은 전부 다 사용자의 디바이스 내에서만 실행됩니다. 즉 AI를 활용해도 사용자의 맥북에서, 아이폰에서만 실행될 뿐 디바이스 밖으로는 전혀 나가지 않는다는거죠. 하지만 생성형 AI를 실행하기에는 아이폰이나 맥북에 탑재되는 뉴럴 엔진은 성능이 많이 부족합니다. 결국 생성형 AI를 시도하기에는 “아이폰에서 일어나는 모든 일은 아이폰에서만 머문다”고 이야기하는 애플과 맞지 않죠.

그렇기 때문에 애플은 현재는 생성형 AI를 활용한 기능을 내놓지 않고 있는 것으로 보입니다. 하지만 대중에게는 인간의 창의성이라는 고유의 영역에 도전하는 생성형 AI가 너무나도 인상적이었기 때문에 AI = 생성형 AI라는 공식이 생겨버렸고, 이 때문에 AI를 누구보다 많이 쓰고 있고 통합했음에도 애플은 AI에 관심이 없고 기술이 없다는 이미지가 생겨버린 것 같습니다.

물론 이건 제 추측에 불과합니다. 실제로 애플이 AI 기술력이 부족할수도 있고 이를 “개인정보 보호”라는 명목으로 숨기고 있는 것일지도 모릅니다. 사실 아이폰에서 일어나는 모든 일이 아이폰에서만 머무는 것도 아닌게, 바로 시리(Siri)가 있기 때문입니다. 시리도 일부 명령은 디바이스 내에서 수행하는게 어느정도 가능해졌지만 아직도 사용자의 명령을 애플 서버로 보내서 이를 처리합니다.

이미 시리가 클라우드를 통해 통신하고 있다면 ChatGPT 같은 생성형 AI로 통합하는 것도 가능할텐데, 애플은 그러지 않(못하)고 있습니다.

이것 역시 여러가지 추측이 가능할 것 같은데, 이 주제는 다른 글에서 다뤄보고 싶습니다.

정리하자면 애플은 AI에 관심이 없고 기술도 부족해보이지만 사실 어떤 경쟁자보다 AI에 진심이고 이미 운영체제 레벨에서 AI가 상당히 통합되어있습니다. 애플이 만드는 모든 하드웨어는 장치 내에서 AI 기술을 사용할 수 있는데, 이는 여러 다양한 하드웨어에서 실행되어야 하는 윈도우에는 없는 장점이죠. 하지만 대부분의 기능이 장치 내에서 실행되어야 한다는 한계에 갇혀있고 너무 일상적으로 통합되어있어서 사람들은 그걸 느끼지 못한채 당연하게 사용하고 있습니다.

그리고 ChatGPT가 워낙 인상적이기도 했기 때문에 애플이 가진 AI 기술들이 바래 보이는 것도 있겠죠.

마무리

이번 WWDC 2023에 대한 정리는 두개의 포스팅으로 정리해봤습니다. 워낙 비전프로의 충격이 컸다보니 다른 맥 하드웨어나 소프트웨어는 기억이 잘 안날 정도였던 이벤트였던 것 같습니다. 요즘 애플 이벤트는 재미없어서 라이브로는 잘 안보는데 이번에는 라이브로 보면서 약간 축구 경기 보듯이 흥분하면서 봤던 것 같습니다.

발표한 내용이 많기도 했는데, 이는 3월에 이벤트가 없었던 탓도 있습니다. 특히 15인치 맥북 에어 같은 경우 시기상으로 3월에 발표되었으면 딱 적당했을 것 같은데 아무래도 시점이 하반기다보니 M3 맥북 에어가 곧 나올 것 같은 기대감에 망설이시는 분들도 계시죠. 여러모로 생산이 지연되고 발표해야할 제품이 몰리면서 WWDC가 상당히 바쁘게 흘러간게 아닌가 추측을 해봅니다.

이번 WWDC 2023은 새로운 플랫폼이 발표된 순간이었지만 개인적으로 비전 프로가 잘 될지 아직은 반반입니다. 혁신적인 제품이긴 하지만 해당 형태의 제품에 대한 거부감이 이미 너무 강하게 퍼져있기 때문입니다. 이런 거부감을 극복하고 혁신적인 새로운 컴퓨팅 플랫폼이 될 것인지가 관건일 것 같습니다.

이제 다음 애플 이벤트는 9월에 열릴 아이폰 이벤트겠네요. 여러가지 사정 때문에 아이폰이 새로 나오는 이 시점에 지르지 못하게 되었지만.. 아이폰 이벤트도 이렇게 재밌는 내용이 가득했으면 좋겠습니다.

Apple Vision Pro와 AI 시대에 독야청청한 애플