- ニュース

Googleのニューラルネットワークは驚異的な成果を上げ続けている。1億2600万枚の画像とそれに付随するEXIFデータで学習させたPlaNetと呼ばれる新しいディープラーニングマシンは、ほぼあらゆる写真の位置を正確に特定できる「超人的」な能力を獲得した。
Googleのコンピュータービジョン専門家、トビアス・ウェイアンド氏が率いるチームは、これらの画像をすべて取り込み、それらを用いて世界を26,000以上の正方形のグリッドに分割することで、PlaNetを開発しました。これらの正方形のサイズは、各場所に関連付けられた画像の数によって異なります。
例えば、毎日大量の写真が撮影されるニューヨーク市のような大都市は、「写真があまり一般的ではない遠隔地よりも、よりきめ細かいグリッド構造になっている」と MITテクノロジーレビューは説明している。Google は海洋と極地を無視している。
研究チームは9100万枚の画像を用いて、PlaNetに画像そのものだけを使ってグリッドの位置を割り出すよう学習させることに成功しました。その結果、写真を入力するだけで、位置や候補となる可能性のある場所を正確に特定できる機械が誕生しました。
研究チームは、Flickrから取得した230万枚のジオタグ付き画像を用いてPlaNetをテストした。ウェイアンド氏によると、PlaNetはそのうち3.6%を「通りレベルの精度」で、さらに10.1%を都市レベルの精度で特定できた。PlaNetは28.4枚の写真の撮影国を特定し、48%の写真の内容も特定できた。
次に、PlaNet は、道路標識、建築様式、さらには植物の種類など、あらゆる種類の手がかりを使用して画像を見つける能力を持つ人間を相手にテストされました。
「ウェイアンド氏らは、旅行経験豊かな10人の人間を対象に、PlaNetの性能を徹底的にテストしました」と MITは付け加えた。 「テストでは、Googleストリートビューからランダムに選んだ景色をプレイヤーに提示し、世界地図上でその場所を正確に特定させるオンラインゲームを使用しました。」
PlaNet は 50 ラウンド中 28 ラウンドで勝利し、平均位置推定誤差が 1131.7 km で人間のプレイヤーに勝利しました。一方、人間の平均位置推定誤差は 2320.75 km でした。
「この小規模な実験は、PlaNetがストリートビューのシーンを地理的に特定するタスクにおいて超人的なパフォーマンスを発揮することを示している」とウェイアンド氏のチームは述べた。
「プラネットは、人間が訪れることのできないほど多くの場所を見てきており、旅慣れた人間でさえ区別が難しいさまざまな風景の微妙な手がかりを学習しているため、人間よりも優れていると考えています」と研究者らは付け加えている。
PlaNetは、位置情報が添付されたアルバムに紐付けられた類似写真を利用して、屋内で撮影された画像の位置を特定することもできます。このマシンの最も優れた点は、わずか377MBの容量で、スマートフォンやタブレットに簡単に収まることです。