이번 애플의 소프트웨어 업데이트에는 고급 사용자와 개발자에게 중요한 업데이트가 포함되어있습니다. 바로 Apple Intelligence에 대한 접근을 개방하기로 결정한거죠. 앱 개발자 뿐 아니라 고급 사용자도 Apple Intelligence를 직접 사용할 수 있어 AI를 저비용으로 사용할 수 있게 되었습니다.
단축어에서 사용하기
사용자의 경우 단축어에서 Apple Intelligence에 직접 접근할 수 있습니다.

단축어에서 “모델 사용”을 추가하면 Apple Intellgence 모델을 단축어에 통합시킬 수 있습니다.
Apple Intelligence 모델은 세가지 옵션이 제공됩니다. 클라우드, 온디바이스, ChatGPT 확장 기능입니다. 클라우드의 경우 애플의 Private Cloud 에서 실행되는 모델을 사용하는 기능이고, 온디바이스 모델은 기기 자체에서 실행되는 모델, ChatGPT는 말그대로 ChatGPT와 연동하는 기능입니다.
온디바이스 모델은 인터넷에 연결이 안되어있어도 쓸 수 있고, 클라우드는 온디바이스보다 성능이 좋지만 네트워크 연결이 필요합니다. ChatGPT는 따로 유료 연결하지 않았다면 무료 한도내에서만 쓸 수 있습니다.
사용법은 다른 LLM과 동일한데, 다른 LLM에서 사용되는 프롬프트 기법을 그대로 쓸 수 있습니다.
실제 사용 사례
저 같은 경우 기사 요약 단축어를 만들어서 온디바이스 모델에 연결해서 쓰고 있습니다.

사실 성능이나 속도 자체는 클라우드 모델이나 ChatGPT가 당연히 우수한데, 온디바이스 모델 성능이 생각보다 나쁘지 않은 편입니다. 특히 기사 요약 같은 역할에 쓰기에는 충분한 정도입니다.

특히 기사 본문이 상당히 긴 경우에도 요약을 잘 해주는걸 보면 인풋 토큰 제한도 널널하게 설정되어있는 것 같습니다. 기사 요약 목적으로는 꽤 훌륭한 성능을 보이고 있습니다.
채팅으로 쓸 수는 없나요?
하지만 역시 모델에 직접 접근하려면 채팅을 통해 접근하는게 좋겠죠. 가장 기본적으로 쓰려면
1) 아래와 같이 프롬프트 입력을 ‘입력 요청’을 통해 받고,
2) 모델이 응답을 생성한 다음
3) 응답을 알림을 통해 출력하도록 하면
채팅하듯 애플 인텔리전스 모델을 사용할 수 있습니다.



성능 테스트
이렇게 채팅하듯 사용해본 결과 몇가지 재밌는 점들이 있었습니다.
일단 온디바이스 모델의 경우 지식이 많이 제한 되어있습니다. 아무래도 기기 자체에서 실행되어야 하기 때문에 모델 크기 자체가 작아서 생기는 문제인듯 합니다. 예를 들어 아이폰이 최초로 발표된 해를 물어도 답변하지 못하고 “애플 홈페이지에 가서 찾아봐라”라는 답변만 합니다. 온디바이스 모델은 언어처리만 할 수 있게 설계된 것 같습니다.
클라우드 모델의 성능이 가장 궁금했습니다. 아무래도 GPT-5 급은 당연히 아니겠지만 그래도 GPT-4 정도 된다면 쓸만할 것 같았거든요. 일단 클라우드 모델은 온디바이스보다 속도도 빠르고 지식도 갖추고 있었습니다.
언제까지의 지식이 학습되어있나 가장 최근 출시한 아이폰이 뭐냐고 물어보니 아이폰 15라는걸 보니 2023년 또는 2024년까지의 지식을 학습한 것으로 보입니다.

클라우드 모델은 몇가지 테스트해본 결과 지극히 주관적인 평가로는 GPT-4.5 랑 GPT-4o mini 사이의 성능인 것 같습니다. 성능 자체는 그렇긴한데 일단 응답 자체가 빠릅니다. 아무리 방대한 데이터를 던져도 응답 속도는 mini 모델이나 nano 모델 정도인 것 같았습니다.
테스트를 위해 하버드 의대생 80%가 틀렸다는 문제를 넣고 테스트해봤습니다.
어떤 질병을 진단하는 도구가 있다. 이 질병의 유병률은 1/1000이고 위양성률은 5%이다. 만약 어떤 사람이 이 검사에서 양성 판정을 받았을 때 실제로 질병을 가진 사람일 확률은 얼마인가? (단, 그 사람의 증후나 증상에 관해서는 아무 것도 모른다고 가정한다)
이 문제는 베이지언 정리를 통해서 풀어야하는 수식인데(뭔지는 저도 모릅니다) 온디바이스 모델은 풀지 못했고, 클라우드 모델은 1.96% 라고 도출했고, ChatGPT도 1.96%로 정답을 도출했습니다.(정답은 1.96% 또는 2% 미만)
아래는 Apple Intellgence의 클라우드 모델이 풀어낸 풀이입니다.(풀이는 다른 AI 모델을 통해 맞다고 검증했습니다.)
이 문제는 베이즈 정리를 사용하여 해결할 수 있습니다. 베이즈 정리는 조건부 확률을 계산하는 데 사용됩니다. 주어진 정보를 정리하면 다음과 같습니다:
- 질병의 유병률, P(질병) = 1/1000 = 0.001
- 위양성률, P(양성 | 질병 없음) = 0.05
- 양성 판정을 받았을 때 실제로 질병을 가진 확률, P(질병 | 양성)을 구하고자 합니다.
또한, 전체 양성 판정 확률 P(양성)을 계산해야 합니다. 이는 질병이 있는 경우와 없는 경우의 양성 판정 확률을 합친 것입니다:
P(양성) = P(양성 | 질병) × P(질병) + P(양성 | 질병 없음) × P(질병 없음)
여기서 P(양성 | 질병)은 질병이 있을 때 양성 판정을 받을 확률로, 일반적으로 1 (100%)입니다.
P(양성 없음) = 1 – P(질병) = 0.999
따라서,
P(양성) = 1 × 0.001 + 0.05 × 0.999
= 0.001 + 0.04995
= 0.05095
이제 베이즈 정리를 사용하여 P(질병 | 양성)을 계산합니다:
P(질병 | 양성) = [P(양성 | 질병) × P(질병)] / P(양성)
= (1 × 0.001) / 0.05095
= 0.001 / 0.05095
≈ 0.0196
따라서, 검사에서 양성 판정을 받았을 때 실제로 질병을 가진 사람일 확률은 약 1.96%입니다.
이 정도면 Apple Intelligence 성능도 나쁘지 않은 것 같습니다. 일상용으로 쓰기에는 GPT 대안으로 충분한 느낌이었습니다. 게다가 무료로 쓸 수 있죠.
재미있었던 부분
애플 인텔리전스의 모델들을 테스트하다보니 또 하나 재미난 사실을 하나 발견했습니다. 바로 “번역” 기능을 테스트하다가 발견한 사실이었는데요, 일단 모델 둘 다 인풋 토큰은 허용량이 널널한 편이지만 아웃풋은 그렇지 않은지 번역으로 장문의 기사를 번역하기에 적합하진 않았습니다.
다만 아예 요청 길이가 초과했다고 말하는 온디바이스 모델과 달리 클라우드 모델의 경우 번역이 진행되었습니다. 그런데 좀 어색한 번역으로 진행되었는데, 이거 자세히 보니 아이폰에 내장된 번역 앱과 결과가 완전히 동일했습니다.
이거 혹시 싶어서 “다른 기능을 사용하지 말고 모델 자체에서 번역해라”라는 지시를 추가해서 실행했더니 온디바이스 모델처럼 너무 긴 글은 번역할 수 없다는 오류가 났습니다.
이렇게 종합해보면 퍼블릭 모델은 MCP처럼 디바이스 기본 앱의 기능을 필요에 따라 쓰기도 하는 것으로 보입니다. 번역이라는 태스크에 애플의 번역 기능을 내부에서 호출한거죠. 아마도 현재 공개되지는 않았지만 시리의 미래 모습을 살짝 본 느낌이었습니다.
마무리
저 같은 경우 어차피 기사 요약할 때 AI를 많이 쓰는데(특히 외국어 기사) 이때는 온디바이스 모델로도 충분한 것 같습니다.
원래는 ChatGPT 채팅 내역에 남는게 싫어서 aShell의 파이썬 코드로 GPT API를 실행하고 있었는데, 기사 요약 작업이 인풋 토큰이 워낙 많이 들어가다보니 API 비용이 금방금방 동나더군요. Apple Intelligence 덕분에 이 정도 작업은 그냥 아이패드 프로의 AI 성능으로 처리가 가능해져서 돈도 굳고 환경에도 약간 일조(?)할 수 있어서 좋은 것 같습니다.
참고로 위에 나온 단축어들은 아래 링크에 공개했습니다. 사용 법은 아래 글을 참고해주세요. 아래는 GPT를 이용해 만든거지만 모델만 바꾼거라 사용법은 동일합니다.