Google AI Edge Galleryチュートリアル – スマートフォンでLLMSをローカルで実行する方法

本動画は、Googleが提供する「AI Edge Gallery」アプリを使用し、スマートフォン上でローカルの大規模言語モデル（LLM）を無料で安全に実行する方法を解説するチュートリアルである。アプリの導入手順から、AIチャット、Agent Skills、画像認識機能、音声文字起こし、デバイスを制御するモバイルアクションなどの具体的な使い方、推論パラメータの設定方法、推奨されるスマートフォンのスペックまで詳細に説明されている。インターネット接続なしでAIを活用したいユーザーにとって実用的なガイドとなっている。

Google AI Edge Gallery Tutorial - How To Run LLMS Locally On Your Phone

🌐Subscribe To My Newsletter - your Free AGI Preparedness Guide - 🎓 Learn AI In 10 Minu...

AI Edge Galleryの導入とアプリの概要
AIチャット機能と推奨デバイスのスペック
モデルのダウンロードと初期化
チャットの設定と推論パラメータの調整
CPUとGPUの切り替えとプライバシー
Agent Skillsの活用方法
Image ModelとAudioScribe
Mobile Actions（モバイルアクション）
Tiny GardenとPrompts Lab

AI Edge Galleryの導入とアプリの概要

今日の動画では、GoogleのAI Edge Galleryの使い方を紹介します。ここは、プライベートかつ無料で、デバイス上でローカルにモデルを実行できる場所です。

今、私はApp Storeを開いていますが、皆さんがやるべきことは基本的にこのアプリをダウンロードするだけです。ウェイトリストもありませんし、何か特別なものが必要なわけでもありません。開発者アカウントも不要で、ダウンロードはとてもシンプルで簡単です。

ダウンロードが完了したら、私が今やっているようにアプリを開いてください。このアプリはAndroidとiOSの両方で利用できることを覚えておいてください。ウェイトリストのようなものはないので、今すぐ問題なくダウンロードできるはずです。

アプリをダウンロードして開くと、色々なものが表示されるので少し戸惑うかもしれません。でも、それぞれが何を意味しているのかを順番に見ていきましょう。

現在のGoogle AI Edge Galleryは、基本的にGoogleファミリーの新しいモデルを発見し、デバイスにダウンロードして、デスクトップPCでローカルLLMを実行するのと同じようにローカルで実行できる場所となっています。

ここに並んでいる様々なボタンは、それぞれAIに特定の方法で何かを実行させるためのものです。例えば、Ask Imageは画像モードになり、AudioScribeは音声モードになるといった具合で、それぞれ役割が異なります。

AIチャット機能と推奨デバイスのスペック

ここを初めて使う方のために、上から順番に見ていきましょう。まず最初に目に入るのが、このAIチャット機能です。おそらくこれが最も多くの人が使う機能になるでしょう。AIチャット機能をクリックすると、利用可能なモデルが表示されます。

本題に入る前に少し説明しておきますと、もしあなたのAndroidスマートフォンが8GB以上のRAMを搭載していて、ここ数年以内に発売されたものであれば、おそらくGemma 4モデルを実行できるでしょう。12GBのRAMがあれば、さらに他のモデルも問題なく処理できるはずです。

ただし、4GBから6GBのRAMしか搭載していない古いスマートフォンでは、Gemma 4を快適に実行できるとは期待しないでください。

iPhoneでも実行できるのか気になっている方もいると思います。iPhone 15 Pro以降であれば、非常にスムーズに実行できます。もちろん、Mシリーズのチップを搭載したiPad、特に8GBから16GBのRAMを搭載したモデルでも動作します。

あまり無理をさせたくないボーダーラインとなるのは、標準的な4GBから6GBのRAMを搭載したiPhone 13や14です。これらは、後ほど紹介する非常に小さなGemmaのバリアントであれば大丈夫ですが、大きなGemma 4モデルにはあまり適していません。

ですので、iPhone 12より古い機種や、RAMが3GB以下のデバイスはおすすめしません。8GB以上のRAMを搭載しているのがベストです。

モデルのダウンロードと初期化

さて、最初にお話しするのはAIチャットについてです。AIチャットを開くと、デバイス上の大規模言語モデルとどのように会話できるかが分かります。

ここでの基本的な機能は、複数の異なるモデルの様々なバリアントをダウンロードできることです。ただ唯一の問題は、初心者がここを見たときに、これらのモデルの何が違うのかが具体的に書かれていないと気づくことです。それぞれのモデルは、様々な面で異なっています。

通常は全体的に最適なモデルがそこに用意されているので、そのままそれをダウンロードすれば大丈夫です。私の場合はすでにダウンロードしていますが、もし別のモデルをダウンロードしたければ、ダウンロードボタンをクリックするだけです。すぐにダウンロードが始まりますし、数ギガバイトしかないのでそこまで時間はかかりません。これがモデルのダウンロード方法です。

デバイスの容量が許す限り、好きなだけいくつでもダウンロードできますが、どのモデルを選ぶかは本当にあなた次第です。モデルのサイズが大きいほど、推論能力やその他の機能が高くなります。

もちろん、モデルが小さければ、例えばここにあるGemma 3の10億パラメータモデルなどは、先ほど言及した古いデバイスでも簡単に実行できるモデルになります。ですので、モデルのサイズが大きくなればなるほど、当然ながらそれを実行するための新しいスマートフォンが必要になってくるということを理解しておいてください。

モデルをダウンロードしたら、チャットに入ることができます。ここにある試してみるボタンをクリックするか、前に戻って青い矢印ボタンを押せば中に入れます。

チャットモデルに初めて入るときは、モデルの初期化を待つ必要があります。基本的にはシステムを立ち上げている状態で、これには10秒から15秒ほどかかります。その後、モデルと会話できるようになります。

別のモデルに切り替えたい場合は、ドロップダウンメニューを押して別のモデルを選択するだけです。いちいち行ったり来たりする必要はありません。そうすると再びモデルが初期化され、すぐに使い始めることができます。

チャットの設定と推論パラメータの調整

基本的にはただのチャットインターフェースなので、こんにちは、お元気ですかと話しかければ、通常はそのまま返事が返ってきます。

でも、私はここで少し設定を変更しています。右上のメニューを開くと、デフォルトではオフになっている思考機能を有効にしています。

皆さんもご存知の通り、思考機能を有効にすると、モデルがより長く考えるようになります。これは通常、より多くの複数ステップの推論が必要なタスク向けに予約されている機能です。

例えば、ここでもう一度こんにちはと入力すると、完全に瞬時に応答が返ってくるのが分かりますよね。ですので、超基本的なタスクを行うだけであれば、思考機能をオンにする必要はありません。しかし、モデルからより深い推論を引き出したい場合は、思考機能を有効にすることができます。

もちろん、ここには他の設定もあります。Temperature（温度）は、ご存知ない方のために説明すると、モデルのランダム性を制御するものです。中央の値に近づくほどバランスが取れ、チャットに適した状態になります。

これを少し上に設定すると、よりランダムで創造的になりますが、少し意味不明なことを言い出す可能性もあります。逆に少し下げると、冷たく安全で、反復的かつ決定論的になります。多くのタスクにおいて、真ん中あたりに設定しておくのがちょうどいいでしょう。

Top Kが64というのは、次に続く単語として最適な上位K個だけを見るという意味です。もしここでKを50に設定すると、モデルは最も可能性の高い50個のトークンからのみ選択し、非常に奇妙なものを含む残りのトークンは無視します。Kを小さくすれば安全ですが少し退屈になり、Kを大きくすればバリエーションが豊かになります。

Top Pは、基本的にその選択がどれくらい安全かを示します。低くすると非常に安全で焦点が絞られ、高くするとよりランダムになります。

ここに用意されているデフォルト設定はかなり優秀なので、あなたが開発者でない限り、これらの設定のほとんどは変更する必要はないと思います。ですので、私はこれはキャンセルしてデフォルトのままにしておきます。デフォルトのままで十分機能する値になっていますからね。

CPUとGPUの切り替えとプライバシー

これをCPUとGPUのどちらに切り替えるべきか迷っている方もいるかもしれません。CPUはスマートフォンの頭脳であり機能はしますが、切り替えるとかなり遅くなり、バッテリーの消費も激しくなります。

GPUはAI処理において圧倒的に高速なので、私はGPUのままにしておくことをお勧めします。常にそちらのオプションの方が優れているからです。

先ほど言ったように、これらの設定はあまりいじらないようにしましょう。設定を更新すれば反映されます。ここで2026年に始めるべき最高のビジネスは何ですかと質問してみます。なぜか2926年と入力してしまいましたが、気にしないでください。

ご覧の通り、モデルはしっかり機能しています。そして皆さん、忘れないでください。これはプライベートなものであり、すべてデバイス上で処理されています。つまり、データは誰のサーバーにも送られておらず、すべて私のスマートフォンの中に留まっているということです。

過去のすべての会話、つまりチャット履歴を見たい場合についてですが、このアプリの唯一の欠点は履歴が保存されないことです。チャット履歴を残したいと思っても、ここには保存されません。

彼らが保存している唯一のものがあり、少し奇妙に感じるかもしれませんが、それはあなたのテキスト入力履歴です。過去に入力したボタンだけが表示されます。ですので、以前入力したものをもう一度入力するか、履歴に行ってそれを削除することはできますが、実際のチャット履歴自体は残らない仕様になっています。

Agent Skillsの活用方法

さて、ここからが少し面白くなってくるところです。欲しいモデルをダウンロードしたとしましょう。次は別のセクション、Agent Skillsに行ってみましょう。AIチャットのすぐ下にあるのがAgent Skillsです。

多くの方はこれが何なのかご存知だと思いますが、これは基本的に、モデルに指示を出すための事前に決められたプロンプトの手法を使用できる場所です。

ここにある試してみるをクリックすると、Agent Skillsがモデルに推論させるための特定の方法であることが分かります。ここでも変更可能な設定がありますが、先ほど言ったように、私はいじりません。もちろん、ここでシステムプロンプトを表示することもできますが、これも触らない方がいいでしょう。

ご覧の通り、ここでできることは、事前に特定の処理を実行させることです。もちろん、スマートフォンごとに機能が異なるため、AndroidとiPhoneでは違いがあるかもしれません。

ここにある機能の多くは、スクロールして見ていくと分かりますが、かなり基本的なものです。そして、その多くがビジョン機能（視覚機能）を使用できるようになっています。このモデルは実際にビジョン機能を備えているからです。

ですので、テキストスキャナーなどを選ぶと実際にカメラが起動し、非常にインタラクティブに機能します。このモデルは本当に優秀で、リアルタイムで対話できるんです。

例えば、これを使えば何でもQRコードを生成することができます。今、QRコードを生成していますよね。TheAIGRIDという私のYouTubeチャンネルのQRコードを生成してと入力してみます。

そうすると、モデルが処理を開始し、QRコードが生成されたと表示されます。

基本的に、これらのAgent Skillsを使用しているときは、このような非常に基本的なスキルを活用しているだけです。デフォルトのものはそこまで優れているとは言えません。

もしあなたが仕事をしていて、Claudeなどで使っている既存のスキルを活用したい場合は、それをインポートすることができます。スキルに移動してプラスボタンをクリックすると、URLからスキルを読み込んだり、ローカルのスキルをインポートしたりできます。

以前にスキルを使ったことがある方なら、これが特定の方法でプロンプトを出すのに非常に役立つことをご存知でしょう。私が持っているスキルの一例としては、特定の方法で動画のスクリプトを作成する際、ドキュメンタリー向けの長編動画スクリプトを作ってほしいと指示するものがあります。

そのようなシナリオでは、そのスキルを有効にして、動画エッセイのスクリプトを作ってとプロンプトを出します。そのスキルが追加されていれば、指定した特定のエッセイのスタイルで動画スクリプトを作成してくれます。まさにそういう機能なんです。

これは非常に基本的なバージョンです。エージェントスキルについてもっと詳しく知りたい場合は、自分で作成するをクリックすると、Googleスキルに関するすべての情報が記載されたGitHubページが表示されます。

高いレベルで見ると、スキルというのは基本的に必須のメタデータとステップバイステップの指示を含むものであり、LLMは応答する前にその指示を確認するだけです。

ここにテキストベースのスキルファイルの例があります。フィットネスコーチと書かれていますね。もし特定のワークアウトについて話したい場合は、その特定の話し方で会話を進めてくれます。これは特定の用途に非常に便利です。以前にスキルを使ったことがある方なら、私が言っている意味がすぐに分かるはずです。

Image ModelとAudioScribe

その他の機能については、正直なところかなり一目瞭然です。Image Modelに行くと、基本的には同じモデルを使用できます。画像に特化したモデルをダウンロードできます。

ここで試してみるをクリックし、プラスボタンを押せばどんな画像でも追加でき、それについて質問することができます。モデルはマルチモーダルだからです。

この靴の画像について、何が見えますかと聞いてみます。おそらくモデルは見たものを正確に教えてくれるでしょう。色々と見えますと答えていますね。すべてが見えているようです。

ご覧の通り、デバイス上のモデルはそこまでハルシネーション（幻覚）を起こしていません。これは本当に優れたモデルで、すべての情報を提供してくれます。これはもちろん素晴らしいことです。

外出先でインターネットに接続できないときでも、ただ何かの写真を撮って質問することができます。ここのプラスをクリックすれば、カメラで写真を撮るか写真ライブラリを使用して、見えたものについてデバイス上のモデルに直接尋ねることができます。

もう一度スクロールして、AudioScribeを見てみましょう。先ほども言ったように、これはマルチモーダルモデルであることを思い出してください。ここでは音声を録音したり、WAVファイルを選択したりできます。

音声機能については少しクセがあるのですが、使い方はこんな感じです。基本的には1つのファイルを用意して入力し、その後会話を再開して、すぐにプロンプトを続ける必要があります。

具体的なやり方をお見せしましょう。プラスをクリックしてアップロードするか、音声を録音します。ここで音声を録音してみます。ねえGoogle Gemini、今日ドーナツを10個も食べちゃってお腹がいっぱいだよと言ってみます。

そして、何と言っていましたかと入力してみます。すると、お腹がいっぱいで辛そうですね、ドーナツをたくさん食べたみたいですねと返ってきました。

ご覧の通り、私が言ったことを完璧に文字起こしして理解しています。ただ、今のところ別のクリップを追加することはできず、ははは、面白いねと言って会話を続けることしかできません。

もちろん、別の音声を追加したい場合は、残念ながら現時点では少し手間がかかります。将来的に仕様が変わるかは分かりませんが、プラスをクリックしてリセットし、別の音声を入力してやり直す必要があります。何らかの理由で、ただ音声を入れるだけではうまく機能しないんです。

例えば、ねえGemini、どうなってるの？今日はクッキーを13枚も食べちゃってお腹がいっぱいだよと音声だけを入れたとしましょう。それだけでは常に完璧に文字起こしされるわけではないので、少しテキストを追加するのがベストです。もちろん将来的に改善されるかもしれませんが、現状はそんな感じです。

Mobile Actions（モバイルアクション）

それでは2つ目の機能、Mobile Actionsに進みましょう。これをダウンロードします。これは実験的な機能です。ダウンロードしたら、どうすればいいかお見せします。

ダウンロードが完了したので、ここで許可をクリックします。これは基本的に、様々なコマンドを使ってデバイスを制御できる機能です。

ここで、皆さんには見えないかもしれませんが、ねえGemini、懐中電灯をつけてくれる？とお願いしてみます。

お見せできればいいのですが、実際には私のスマートフォンの懐中電灯がつきました。画面をスクロールダウンしても皆さんには懐中電灯が見えないかもしれませんが、実際に今は点灯しています。これはかなりクールですね。

今度は、ねえGemini、懐中電灯を消してくれる？と言ってみます。すると、懐中電灯が消えました。

これは非常にシンプルな機能ですが、将来的にはテキストでこのような指示を送れるようになるかもしれません。未来がどうなるかという初期の洞察を与えてくれるものだと思います。もちろんこれは実験的なものなので、100%完璧に機能するとは期待しないでください。Mobile Actionsについてはそんなところです。

Tiny GardenとPrompts Lab

最後にここにあるTiny Gardenについては、ただのゲームなので特に気にする必要はありません。普通に遊べるゲームです。

もう一つ、言及するのを忘れていたのがPrompts Labです。ここでもAgent Skillsに似ていますが、テキストを入力するだけで使えるプリセットが用意されています。

もしウェブを見ているときやPrompts Labを開いたときには、ここにテキストを入力して応答を得ることができます。テキストの要約や、カジュアル、フレンドリー、丁寧、熱狂的など、好きなトーンへの書き換えができます。

ChatGPTにログインしたくないときにメールを作成したり、コードスニペットを作成したり、テキストを要約したりと、使い方は完全にあなた次第です。

ここにある例を見ればわかるように、応答とパフォーマンス、そしてどれくらい速いかを確認できます。これは常に使いたい人にとっては非常に便利な機能です。

これもとてもシンプルですね。というわけで、このスタジオはローカルハードウェア上でモデルを実行するのに非常に優れていると思います。特に外出先でスマートフォンを使っていて、常にAIにアクセスできる環境を持っていたい場合には最適です。