- ニュース

写真:Pexels-Tracy Le Blanc
火曜日に発表された研究論文によると、Apple の新しい Ferret-UI マルチモーダル大規模言語モデルは、人工知能システムが iPhone のようなモバイル画面をよりよく理解するのに役立つ可能性があるという。
この恩恵を受ける可能性のある人は? おそらく、悪評高いSiri音声アシスタントがモバイルデバイスでより多くの機能を提供してくれるでしょう。また、視覚障害のあるユーザーや、ユーザーインターフェースのテストを行う必要がある開発者も恩恵を受けるかもしれません。
AppleのFerret-UIは、SiriのようなAIがモバイルデバイスの画面をよりよく理解するのに役立つ可能性がある
Appleは「Ferret-UI: マルチモーダルLLMによるモバイルUIの理解」と題した論文を発表しました。この論文では、ChatGPTなどの基盤となるテキストベースの大規模言語モデルに類似するMLLMについて解説されていますが、MLLMは画像、音声、動画も含んでいます。
論文では、この研究の具体的な用途は明らかにされていない。しかし、モバイルUIの解釈と改善に役立つ可能性があり、ひょっとすると、モバイルデバイスでタスクを実行する際にSiriの性能向上につながる可能性もあると推測するのは妥当だろう。
AIがモバイルUIを理解して操作できるように支援する
研究者らは、MLLM はモバイル デバイスの小さな画面上のユーザー インターフェイスをうまく解釈できない傾向があると指摘しました。
彼らは、Ferret-UI は推論を含む複数の新しい機能を通じて理解を深める、と付け加えました。
本稿では、参照、グラウンディング、推論機能を備え、モバイル UI 画面の理解を強化するためにカスタマイズされた新しい MLLM、Ferret-UI を紹介します。
現在行われている作業の多くは、Ferret が AI システムによる詳細の収集を容易にできるようにすることに重点を置いています。
UI画面は一般的に自然画像よりも縦長のアスペクト比を持ち、アイコンやテキストなどの対象オブジェクトも小さく表示されるため、Ferretでは「任意の解像度」を画面に組み込むことで細部を拡大し、視覚的特徴を効果的に活用します。具体的には、各画面は元のアスペクト比に基づいて2つのサブ画像に分割されます(縦向き画面の場合は水平分割、横向き画面の場合は垂直分割)。
両方のサブ画像は、LLMに送信される前に個別にエンコードされます。アイコン認識、テキスト検索、ウィジェット一覧など、幅広い基本的なUIタスクからトレーニングサンプルを綿密に収集しています。これらのサンプルは、正確な参照とグラウンディングを容易にするために、領域注釈付きの指示追従用にフォーマットされています。
オープンソースUI MLLMSとGPT-4Vを上回る
次に「推論」の部分が続きます。研究者らは、Ferretが「UI画面の優れた理解力」を示し、それに基づいて行動できると述べています。また、研究者らによるベンチマークテストでは、Ferretが「ほとんどのオープンソースのUL MLLM」よりも優れた結果を示し、「基本的なUIタスク」ではGPT-4Vを上回ったことが示されました。
モデルの推論能力を強化するため、詳細な説明、知覚/インタラクションの会話、機能推論といった高度なタスク用のデータセットをさらに構築しました。キュレーションされたデータセットで学習した結果、Ferret-UIはUI画面の理解力と自由記述の指示実行能力に優れた性能を示しました。
モデル評価のために、前述のすべてのタスクを網羅した包括的なベンチマークを設定しました。Ferret-UIは、ほとんどのオープンソースUI MLLMを凌駕するだけでなく、すべての基本的なUIタスクにおいてGPT-4Vを上回っています。