Appleがプライバシーを侵害せずにAIトレーニングデータを入手する方法

ニュース

Apple Intelligenceのプライバシー — Appleは、法学修士（LLM）の研修がユーザーのプライバシーを脅かす悪夢にならないことを説明している。
*写真：Apple/Cult of Mac*

AppleのAI開発への取り組みは、ユーザーのプライバシー保護への取り組みによって妨げられる必要はない。月曜日に公開されたブログ記事では、Appleがユーザーのメールやメッセージを読むことによるプライバシー侵害を回避しながら、大規模言語モデルの学習に必要なデータを生成する方法について説明されている。

これは、Apple が何百万ものユーザーのデバイスに組み込んでいる小さな AI を活用する間接的なオプトインシステムです。

AIの誤った活用はプライバシーの悪夢になり得る

大規模言語モデル（LLM）は、ニューラルネットワークがテキストデータを分析することで文中の次の単語を予測するプロセスを用いて学習されます。このプロセスでは、LLMの学習に膨大な量のデータが必要です。例えば、OpenAIはChatGPTをインターネットから数十億語をスクレイピングすることで学習させており、その成果へのアクセスに対して誰にも報酬を支払っていません。

Appleは、Apple Intelligenceに必要な法務・法務・法務専門家（LLM）を訓練するために、同様のプロセスを経る必要があります。もしAppleが非倫理的な企業であれば、iPhoneやMacで送受信されたメールを訓練データに取り込むでしょうが、そうはしません。同社は繰り返し「Appleでは、プライバシーは基本的人権であると考えています」と述べています。

Apple Intelligenceは同社のプライバシーに関する約束を堅持している

代わりに、AppleはLLMを「合成データ」と呼ぶもので学習させる。これは「ユーザーデータの形式と重要な特性を模倣するように作成されているが、実際のユーザー生成コンテンツは含まれていない」ものだ。この方法の問題点は何と言っても明らかだ。Appleはどのようにして合成データが実際の人間の書き方と一致していると確信できるのだろうか？

Appleの機械学習研究部門のブログ記事で説明されているこの問題の克服方法は、同社がメッセージのバリエーションを複数用意することから始まります。例えば、「明日の午前11時30分にテニスをしませんか？」というメッセージが挙げられます。

次に、これらのメッセージのバリエーションを、Apple IntelligenceがインストールされたMacとiPhoneに送信し、デバイスに既に保存されているメッセージと類似するものがあるかどうかを尋ねます。デバイスは、提供されたバリエーションの中から、アクセス可能なメールメッセージやテキストメッセージに最も近いものを選択し、そのデータをAppleに返します。

「これらの保護の結果、Appleはユーザーのメールの内容を一切収集したり読んだりすることなく、全体的な傾向を反映した合成データを構築できる」とMacメーカーは指摘している。

さらなるプライバシー保護

Appleは「サンプルメールの内容はデバイスから外部に漏れることはなく、Appleと共有されることもありません」と約束していますが、メールを使ってAppleのデータをテストするというこの間接的な方法にさえ、不安を感じる人もいるかもしれません。Appleは、このプロセスはデバイスアナリティクスの送信に同意したデバイス上でのみ実行されるため、誰も参加を強制されることはないと指摘しています。

また、Appleは集計データへのアクセスのみを許可すると約束しています。Appleは、生成したメッセージのバリエーションのうち、最も多くのデバイスで実際に使用されているメッセージに最も近いものを把握することになりますが、特定のデバイスからの結果を把握するわけではありません。例えば、Appleはこのシステムから、「明日午前11時30分にテニスしませんか？」というメッセージに非常によく似たメッセージが937台のiPhoneに送信されていることを把握できるかもしれませんが、研究者は、使用されている10億台ものiPhoneのうち、どの937台が実際に使用されているのかを知ることはできません。

Appleの機械学習研究部門のブログ投稿では、iPhoneメーカーがいつこのシステムを使い始める予定かは明らかにされていないが、ブルームバーグは月曜日に「同社はiOSおよびiPadOS 18.5とmacOS 15.5の次期ベータ版で新システムを展開する予定だ」と報じた。