本動画では、Googleが正式にリリースしたGemini 2.5 Flash Image Preview(通称「Nano Banana」)の画像生成機能について詳細な検証を行っている。物理法則や時間の概念を理解した画像生成、人物の一貫性維持、テキスト生成の精度向上など、従来のOpenAI GPTに匹敵する性能を実現していることを実証的に示している。また、AnthropicのClaudeがChrome拡張機能として展開される計画についても触れ、ブラウザ統合型AIアシスタントの安全性課題と今後の展望を解説している。

GoogleのNano Banana正式リリース
みなさん、Googleが遂にNano Bananaをリリースしましたで。まさにその通りや。Nano BananaがGoogleのもんやって信じてへん人もおったかもしれへんけど、これで完全に確定やな。
これからこのモデルの能力を徹底的にテストして、遂にChatGPTの画像生成機能を置き換えることができるんかどうか見てみるで。ワシがいつも言うてた通り、ChatGPTで唯一置き換えができへんかった最後の機能がこれやったからな。
それからClaudeの新機能についても見ていくで。ブラウザに統合されて動くようになるんや、まさにCometと同じような感じでな。みんな大好きなあれと同じや。
せやから一緒に見ていこか。いつものように、いいねを押してくれたみんな、チャンネル登録してくれたみんん、ホンマにおおきに。
特にチャンネルメンバーでスポンサーになってくれとる人たちには感謝しとるで。メンバーは限定動画も見られるんや。インテリジェントエージェントの動画で、MCP統合とかWhatsApp連携、PDF読み込み、文書処理なんかの機能を紹介しとる。
それに先行配信の動画もあるしな。
Gemini 2.5 Flash Image Previewの実力検証
せやから公式発表や。ここ見てみ、Google AI Studioが「Nano Bananaが来たで」って言うとる。正式名称は「Gemini 2.5 Flash Image Preview」や。これが最先端の画像生成・編集技術なんやって。キャラクターの一貫性が驚くほど優秀で、めちゃくちゃ速いんやと。
これがGoogleの公式発表に書いてあることや。ワシの最初の生成がこの素晴らしい画像やった。ここに映っとるジャガーがサンフォーナを弾いとって、ワニが田舎のヴィオラを演奏しとる場面や。
ホンマに、時代が変わったで。画像のクオリティが素晴らしいな。
ただGoogle AI Studioに行って、こんなプロンプトを作ったんや。「カンガセイロの帽子を被ったジャガーがサンフォーナを弾いて、ワニが田舎のヴィオラを弾いとる音楽決闘をしとる。二匹ともめっちゃ集中してて、相手を威嚇して負かそうとしとる気持ちが伝わってくる」みたいな感じでな。
分かるやろ?これくらい簡単にできるんや。最初にクリックするときに、このモデルはテスト用の制限があって、この制限を超えて使いたかったらGemini APIを使ってくれって出るんや。
それでワシはそっちでほとんどのテストをやったんや。
画像の視点変更と一貫性テスト
最初にやりたかったんは、このジャガーとワニの話を続けて、いろんな角度から同じシーンを見ることやった。
それで「この画像を横から見た版を作ってくれ」って言ったら、残念ながら何も変わらへんかった。基本的に同じ画像をもう一回作っただけやった。
それで気づいたんや、プロンプトをもうちょっと改善せなあかんなって。「今度はジャガーを正面から映してくれ」って言ったら。ここに文法のミスがあったことに気づかへんかったんやけど、実際にやったことは、ジャガーを横向きにするんやのうて、カメラに向かって見るようにしたんや。
でも正直言うて、後で見返してみたら「もしかしたらこれが横からの画像かもしれへんな。だって元々横向きやったし」って思ったんや。せやからもうちょっと丁寧に説明すべきやった。ワシは自分を責め続けて、「今度はキャラクターを90度回転させてくれ」って言ったんや。
そしたらワニを後ろ向きにして、ジャガーは正面向きのままにしたんや。それでもまだプロンプトが悪いんやと思い続けてな。それで「上から見た画像やったら曖昧さがなくて上手くいくやろ」って考えたんや。
上から見た画像を頼んだら、その時から上手くいき始めたんや。
ここ見てみ、ジャガーが正面向いて、ワニが後ろ向いとる。さっきやった通りや。カメラは今度は上から見下ろしとる。キャラクターもちゃんとできとるな。木もあるし、シーン全体もあるけど、太陽が画面の真ん中に来とるのがちょっと変やな。でもまあ、上から見とるのは確かやし、これはめっちゃええ感じや。
それでプロンプトをもうちょっと改善してな。「ワニの後ろからカメラで、ジャガーを正面から見るような、肩越しに見る感じで作り直してくれ」って言ったんや。
そしたらどうや?めっちゃ美しい画像ができたやないか。ワニがここにおって、ヴィオラ持っとって、ジャガーが正面から見えて、決闘が続いとる。
もちろん、また太陽が画面の真ん中に来とるけどな。回転させたら太陽は二匹の間にあるはずやのに、後ろに来とる。でも見た目は美しいで。回転もちゃんとできとる。
逆側から、ジャガーの視点で見るように頼んだ時も同じようにな。ワニがちゃんと映っとって、ヴィオラを弾いとる。
また太陽の位置だけがちょっと変やけど、それ以外は素晴らしいで。これだけでも分かるやろ、昔Photoshopでやっとった画像編集の大部分が、これを超えるレベルになっとるってことが。キャラクターに一貫性を持たせて、存在せえへん画像まで作り出しとる。
これは単なる画像編集やあらへん。完全にゼロから作った完全なシーンや。
物理法則と時間の概念理解テスト
それから何人かが「この技術は物理法則とか時間の概念も理解しとるで」って言うてたから、こんなプロンプトを作ったんや。「3分割の画像を作ってくれ。最初は消えたロウソク。それから1時間後と4時間後に何が起こったかも作ってくれ」って。
消えたロウソクがあったら、誰かがそのロウソクに火をつけて、それからロウソクが溶け始めるっていうのが可能性として考えられるな。これが作った画像や。
消えたロウソク、1時間後のロウソク、4時間後のロウソクで、もうロウソクが全部溶けとる。完璧やな。
時間に関するロウの量とか、ロウソクがどれくらい短くなったかは、もうちょっと多くてもよかったかもしれへんけど、とりあえずこの画像生成で時間はかなり節約できたな。
満足せえへんかったから、「今度は夜のシーンで、木のテーブルの上で、薄暗い環境でやってくれ」って言ったんや。
そしたらこの画像ができたんや。見てみ、めっちゃ面白いやろ。消えたロウソクがここにあって、めっちゃ暗くてほとんど見えへん。1時間後にはロウソクが点いとって、ここ見てみ。照明がどうなっとるか分かるやろ。
4時間後にはロウソクがもっと溶けとる。もちろん、シーンをよく見たら、実際は同じ場所の3つの違う時間やのうて、テーブルの違う位置にある3本のロウソクやけどな。でも全体的なアイデアは機能しとる。ロウソクが点いて、それからロウソクが溶けて、物理法則に従ってテーブルの上で溶けとる。
でもまだ満足せえへんかったから、続けたんや。「今度は同じ画像やけど、角砂糖を、アリがようけおる場所に置いてくれ」って。時間が経つにつれて角砂糖にアリが群がってくることを期待してたんや。
最初は角砂糖があって、2番目には少しアリがおって、3番目にはアリがいっぱいおる。これはめっちゃ面白いと思ったで。
でもまだ続けて、「今度は青いビートルを同じ軽食店のガレージで、1940年、1990年、2025年で作ってくれ」って言ったんや。
これがビートルのバージョンや。1940年のここ、上の文字はちょっと間違っとるけど、ビートル自体はだいたい似とる感じや。この場合は昔の軽食店やな。
面白いことに、後ろにラジオが見えるな。ここの前には90年代っぽいピンボールマシンがあるんや。それから2025年にはビートルが改造されとって、ニュービートルみたいになっとる。全部電気で動いとって、めっちゃ面白いやろ?2025年にはグリーンエネルギーソリューションまであるんや。
それで続けたんや。「今度はCybertruckを2019年のローンチ、2050年、2100年で作ってくれ」って。
これが作った画像や。めっちゃ面白い生成やな。理由は分からへんけど、2019年のローンチでは、青いシーンでステージ上で展示されとるCybertruckを作ったんや。2050年には複数の航空機、ドローン、宇宙船がある未来的なシーンを作った。
2100年には、理由は聞かんといてくれ、完全に破壊されたCybertruckを、地球全体が破壊されたような奇怪なシーンで作ったんや。それで疑問に思ったんや、「アメリカが失敗して中国が成功するって予測しとるんかな?」って。
それで同じ日付でBYD Yuan Oneについて聞いてみたんや。BYDの競合車種やな。間違ったBYDを作ったけど、実際はかなり似たようなもんを作ったで。
最新のローンチ日付では観客のいるステージを作った。2050年には未来的な、空飛ぶ車、空飛ぶドローンがあるもんを作った。ここでも同じ破壊のシーンと、空飛ぶ奇妙なドローンがあるんや。なんで2100年に何か悪いことが起こると想像しとるんか分からへんな。
それで思ったんや、「AIに問題があると予測しとるんかな?」って。せやからTeslaのOptimusロボットについて同じ日付で聞いてみたんや。
案の定、またロボットを間違えたけど、ロボットに関する予測では、2100年の予測は、非常に破壊されとるかどうか分からへん都市で完璧に機能しとる大きなロボットやった。でも作られた時から2050年、2100年まで、ロボットはずっと完璧に機能しとる。
下でコメントしてくれ、人工知能がもう世界征服を考えとって、せやから車は全部破壊されるけどロボットは残るって思っとるんかな?分からへんけど、みんなの意見を聞かせてくれ。とりあえず、時間の概念、物理法則の概念は理解しとることは分かったな。
キャラクター一貫性テスト
それから面白いのがキャラクターの概念や。ワシの写真を送って、「この人をバナナの格好で作ってくれ」って言ったんや。
これが作った画像で、ちょっと変やけど、実際はかなり正確やな。バナナの格好を着たワシが、かなり一貫性を持って映っとる。
続けて、「今度はバナナの格好を着とることに完全に失敗した気分を表現してくれ」って言ったんや。
その時は創造性はあんまりなかったけど、ちょっと悲しげな表情が見えるな。前より幸せそうやない表情で、軽い繊細さを見せとって、前は幸せやったけど今度はちょっと真面目になっとる。
続けて、「今度はバナナの格好を着た人が自転車に乗って、カメラに手を振っとる画像を作ってくれ」って言ったんや。
なんでかこの特定の生成で、完全に違う人が出てきたんや。全然違う人になってもうた。もう一回ワシの写真を参考として送って、確実にうまくいくようにしてから、もう一回頼んだんや。
その時は少し遠い、少し離れた画像を作った。この画像でワシやって確信するのは難しいけど、少なくとも前の全然違う人ほど違わへんかった。バナナの格好を着て自転車に乗っとる。
続いて「同じ画像を横から撮った写真で」って言ったんや。ここでは正面から見えとるからな。
何を想像する?木が角にあって、人が横にいる。AIは何をした?自転車を回転させて、シーンはそのまま残したんや。これがワシのプロンプトが悪いんか、それとも全部正しいんかは分からへん。結局、頼んだ通りにやってくれたからな。でも正確やで、人が手を振って、自転車に乗って、このシーンで横から見ながらカーブしとるとこや。
同じ写真で別のテストもやったんや。「画像の人をキリスト像と並べて、二人が抱き合って、コルコバードの上で写真を撮る。二人ともキリスト像と同じサイズで、人がカメラに向かって手を振っとる」って。キリスト像とボブが抱き合って写真を撮ることを想像してたんや。
実際にやったのはこれやった。キリスト像を置いて、ワシを画像に置いて、手を振っとる。せやから写真の要素を取って、かなり正確な生成をしたんや。完全に横に並んで抱き合っとるわけやないけど、やるべきことはやってくれたみたいやな。
この画像で注目したいのは、これがAIがワシの人工的な写真を生成した初めての時で、もしワシの古い写真アルバムを探したら、人生で一度はこんな写真を撮ったことがあるって言えるような写真やってことや。
この髪型とか、ここに置いた形は、送った写真と全く同じやないんや。でも見とる人なら、AIを使って自分の写真を生成したことがあるやろ。その写真を見て、本当に自分みたいやって感じる時と、自分やないって感じる時があるやろ。
これを見た時に「この写真、ワシが撮ってもこんな顔でこんな風に映る可能性がある」って思えたんや。AIがワシの画像のこんなにうまい版を作ったのは初めてやった。しかもトレーニングなしでや。トレーニングしたらできるのは知っとるけどな。
それで続けて、どんな風に欲しいかを説明した写真を送ったんや。キリストをこっち側、ワシを向こう側に欲しかったんや。でも無視して、前の写真と同じもんを、もうちょっと広い視野で作ったんや。これも美しくできた。
これも、リオデジャネイロに行ってこの写真を撮ったって普通に言えるけど、実際は全部PCの中で生成したもんやからな。
それでしつこく「この写真作って、この写真作って」って言い続けたんや。
今度はここで一番近づけたのは、後ろにキリスト像を置くことやった。別のキリストが自撮りして、手でピースサインを作って、ワシの顔と前の写真を合わせて、ちょっと変な感じになったんや。
この写真でさらにしつこく、参考を置いて、違うプロンプトを置いて。
一番近づけたのはこの写真で、ワシが像と抱き合っとる。でも言ったように、この写真を見ると、ワシの外見に似とる人は見えるけど、この写真はワシのクローンやとは言えへんな。
サムネイル編集テスト
生成と画像編集の能力を続けて、作ったサムネイルを編集することはどうやろか。
「サムネイルのテキストを『Nano bananaはGoogleのもの』に変えてくれ。なんでかっていうと、このサムネイルを作った時は質問にしたけど、今は確信があるから断言したいねん。ここで『tested』って書いてあるところを、赤い箱で『liberado』って書いてくれ。写真の人はバナナの格好をして、同じ表情をしてて」って言ったんや。基本的にこのワシの写真を、バナナの格好に変えるだけや。
これが作った結果や。「nano banana」は間違えたけど、「é da Google」は正しいな。疑問符は取らへんかったし、ここも修正せえへんかった。Googleがちょっと重なったけど、「testado」を「liberado」に変えたのは正確やった。バナナの格好の写真は完璧や。
端の光の効果まで、バナナの格好の横にも光の効果を作って、編集を正確にやるべき通りにやったんや。かなり理解してくれたって言えるな。ちょっとしたミスはあったけど、もうちょっとしつこくやったら十分やったと思う。
「testado」が「liberado」になったのは正確やろ?元の画像は、服だけバナナの格好に変えただけや。
続けて「格好を着とる人を切り取って」って言ったんや。
そしたら背景は取ったけど、テキストは取らへんかった。それで「テキストも取って」って言ったんや。
そしたら完全にワシの元の写真を取って、バナナの格好だけ残したんや。影の効果も取って、テキストも全部取って。
これが、全部うまくいったら、このビデオを見るためのサムネイル写真になる可能性が高いな。せやからうまくいったら、もう見たはずや。
下でコメントしてくれ、これでもうPhotoshopの代わりになる?まだなってへん?何が足りてへんの?1年、2年後には代わりになる?
Einstein写真での追加テスト
それでここでもいくつかテストをやったんや。白黒のアインシュタインの写真を使って、「この画像の全身版を作ってくれ」って言ったんや。
この全身の画像を作ったんや。スーツを着て、舌を出して、正面を向いとる。正確にやるべき通りやな。
それから「今度はバナナの格好を着た双子の兄弟と出会う版を作って。二人が握手をしとる」って言ったんや。
そしたら二人のアインシュタインが出てきた。二人とも舌を出しとる。双子の兄弟がバナナの格好を着とる。握手をしとる、頼んだ通りやな。
覚えといてくれ、最初の写真は正面からのアインシュタインの写真で、顔がちょっと傾いとった。それから全身の画像を作って、アインシュタインが真正面を向いとった。
今度は完全に横からの画像を作って、全部舌を出しとる。
続けて「今度はカラー版を作って」って言ったんや。
この画像の美しいカラー版を作ったんや。正確にできとって、二人のアインシュタインが舌を出しとるけど、今度は完全にカラーや。せやから古い写真をカラーにしたかったら、Geminiに入ってカラー写真に変換するだけでええんや。
まだ続けて、満足せえへんかったから、「今度はこの写真が撮られた時の舞台裏を見せて、照明、カメラマン、全スタッフと一緒に」って言ったんや。
そしたら二人が舌を出しとる写真を取って、後ろに全スタッフ、スポットライト、照明、写真を撮っとる人たちを置いたんや。
もっとリアルにするためには、ここの後ろには誰もおったらあかんかったと思うで。この写真に映ってまうからな。正しくは、この女性をここに置いて、後ろには誰もおらへん方が、後ろのシーンが見えて、この写真がこんな風に撮られたって信じられるはずやったんや。今のままやと、誰かが「ちょっと、後ろから離れて、写真撮るから」って言わなあかん感じや。
テキスト生成能力の大幅改善
重要で非常に大事な部分で、ワシがいつも言ってたことがあるんや。「これはテキストを生成せえへん。OpenAIのテキスト生成の方がGoogleよりもずっと優秀や。このGeminiのテキスト生成は信用でけへん」って。
これを見てみ、何をやったかって言うと。
「大きな黒板の画像を作って、一人の人が一方の側で『お母さんがこれを書けって言ったけど、ワシは頑固やから、これを書いた』って書いとる。反対側では、その人が『アドレタ、レ、ペチ ポラ、レ カフェ コン ショコラ、アドレタ、プシャ オ ハボ ド タトゥー、ケン サイウ フォイ トゥー』って書いた」って言ったんや。
そしたらGeminiのAIはこの生成をしたんや。
「お母さんがワシにこれを書けって言ったけど、ワシは頑固やから、これを書いた」って。ここには「アドレタ レ、ペチ ポラ、レ カフェ コン ショコラ、アドレタ、プシャ オ ハボ ド タトゥー、ケン サイウ フォイ トゥー」って。
アクセントの問題は全くなくて、ワシがいつも一番注意して見とるところや。「mãe」のアクセントは正しい、「dô」は正しい、「lá」は正しい、「tu」にはアクセントがいらへん。
せやからここには文法エラーがあるけど、アクセントのエラーはない。少なくともアクセントは正しいし、他は全部正しいな。
注意してほしいのは、ワシはここにアクセントを付けへんかったから、実際に間違えたのは画像生成の方やってことや。でも今言ったように、もう何も言うことがないで。
OpenAIの独占やったもんが、もう独占やなくなったんや。Geminiも今はエラーなしでテキストを生成するし、完璧に使えるし、全く問題ない。
複雑なテキスト生成テスト
それでこれがうまくいっとることを確認するために、「5つの違う付箋を書いとる人の画像を作って。最初には『インターネットでケーキの作り方を調べる』、2番目は『材料を買う』、3番目は『ケーキを作る』、4番目は『友達を誕生日に招待する』、5番目は『バナナの衣装を買う』って書いて」って言ったんや。
「テキストは全部、やり終わったみたいに線が引いてある。大きなシーンでは、後ろでテキストに書いてあることが起こっとる。基本的に、ケーキの作り方を学んどる人、作り方を調べとる人、ケーキを作っとる人、材料を買っとる人、人をパーティーに呼んどる人、バナナの衣装を買っとる人」って。
ここで今度はこれが出るはずや。これが作った画像生成や。付箋がちゃんとあって、「インターネットでケーキの作り方を調べる」「材料を買う」「ケーキを作る」「友達を誕生日に招待する」「バナナの衣装を買う」。でも画像の全体的なコンテキストは、基本的に付箋ごとに一つの画像やった。
ワシが欲しかったもんとは完全に違ってたんや。せやから何をしたかっていうと、続けたんや。「違うやり方でやってくれ、付箋を全部掲示板に、画像の手前に置いて、後ろにはケーキ、招待客、バナナの格好を着た人を置いて」って言ったんや。
そしたらAIが作った画像生成がこれやった。掲示板は壁画みたいな落書きで作ったんや。
ここでテキストが全部線で消されてへんかった。いくつかアクセントが間違っとる。例えば、「インターネットでケーキの作り方を調べる」、このアクセントは存在せえへん。でもここには人がおって、ケーキがあって、バナナの格好を着た人がおって、テキストは基本的に正しくて、アクセントの間違いが一つだけや。
でもまだ満足せえへんかったから、何が欲しいかもうちょっと丁寧に説明したんや。
問題は「掲示板」って言葉にあることに気づいて、「コルクボードを手前に」って言い直したんや。
今度はうまくいったで。後ろにパーティーがあって、ケーキがあって、招待客がいて、バナナの格好を着た人がいて、手前にはやることリストがあって、詳しく見ると全部にXマークが付いてへんくて、「como」にまだアクセントが付いとるけど、アクセントは付けたらあかんねん。
それで「Xマークやのうて線で消して」って説明したんや。
そしたらXマークの上に線を引いたんや。ワシが欲しかったもんと完全に違うし、付箋が一つ足りへんかった。でも「まあええか、動くのは分かったし、もう満足や。このテストでそんなにしつこくせんとこ」って思ったんや。
分かったやろ?99.9%解決しとる、プロンプトのちょっとした問題とアクセントのちょっとした問題があるだけや。でも正直言って、前に起こってたことと今起こってることを比べたら、これはもう優秀や。
それからあの写真を送って全身の写真を頼むシリーズで、顔だけの写真を送って全身の写真を作ってもらったんや。
この青いTシャツを着た写真を作ったんや。完璧やな。正確や。違いは、ワシのTシャツは長袖やったけど、これは半袖やってことや。でも写真は正確やな。
それで変更を頼み続けたんや。例えば、「今度はビーチで走っとる版を作って」って。
この版を作ったんや、同じ服でビーチを走っとって、同じ人や。言ったように、この写真やったら自分やって認識できるけど、兄弟みたいで、完全にワシがビーチを走っとるっていう感じやない。
変更を頼み続けて、「今度は同じ画像を後ろから、背中から見て」って言ったんや。
そしたらここに映ったんや、反対方向に向かって後ろから走っとる同じ人、同じ服で、同じ風景で、戻ってきとるみたいやな。
これも面白い特徴やな。向きを変えて、違う角度から見てもらう時。あのジャガーの生成の時と同じように、風景は変わらへんくて、背景が物の回転にあんまり対応してへんけど、メインキャラクターはちゃんと回転しとる。
物理法則への挑戦的なテスト
今度は一番重要な部分や。「今度はボートの中から見た画像を作って」って言ったんや。つまり、ワシがここでビーチを走っとるとして、ボートからワシが走っとるのを見とったらどう見えるか想像してみ。
AIによると、ボートの中から見た人がいる場合は、こうなるはずやねん。
この写真はよく分からへんかった。ちょっとメシア的になったな。どうやら水の上を歩いとるみたいやで、分かるやろ?
ボートかランチャーの中から誰かが走っとるのは見えるからな。せやからそこは正しいし、後ろの風景も正しいけど、スニーカーで海の上を走るなんて、できる人は少ないで。
AIがこんな写真を提案するのはちょっと大胆やと思ったけど、これが作ったもんやな。
面白いことに、これらの画像生成全部で、2.5 flashを使わなあかんかったんや。ここにあるように、Nano BananaはGemini 2.5 Flash Image Previewやけど、実際はここで、書いた時に、書いたプロンプトから画像やってことを自動で検出するんや。
例えば、画像を作るためにクリックする必要があるけど、画像を頼んだら、ちゃんと生成してくれる。そんなに心配せんでもええんや。
ワシはかなり満足した。Googleが動いて、実現させたのが分かるな。このワニの話は素晴らしかった。
これらの画像を使って、かなり面白いビデオが作れるな。画像のクオリティがめっちゃええからな。
GoogleとOpenAIの競争激化
せやから、これについてワシが思っとることは何かっていうと、GoogleがOpenAIに追いつくことができて、遂にテキストも作れて、一貫性のある画像も作れて、プロンプト通りに、ちゃんと従ってくれるAIモデルを作ったってことや。
ワシは「そうやな」って思うで。今こそOpenAIと対等に戦えるモデルができたんや。Geminiで直接生成を始めることが普通にできるな。
競争が激しくなった。めっちゃ激しくなったで。
コメントしてくれ、何を考えとるか、もうNano Bananaを画像生成に使っとるか、結果に満足しとるか、OpenAIの生成と比較してGeminiについてどう思うか、テキストに関してもプロンプトへの対応に関しても、書いたことが実際に画像に現れるかどうかとか、そういうことを教えてくれ。
重要なことは、全部にも関わらず、ちょっとした欠陥があることやな。でもこれは、今のところ開発の一部で、時間が経ったら改善されるはずや。
ClaudeのChrome統合計画
面白いことに、Claudeがここでブラウザのテストをしとるんや。Chrome用のバージョンを出すんやって。これがそうや。
ブラウザ内の拡張機能にアシスタントを置くんや。拡張機能をインストールして、チャットが出てきて、会話を始めて、ブラウザと相互作用して、エージェントに何かをやってもらったり、買い物をしたり、もう知っとる通りのことを全部やってもらえるんや。
Cometのビデオを見てへんかったら見てくれ。Perplexityのブラウザやからな。もうそれをやっとる。
Claudeもやるみたいやな。
Anthropicが言った詳細を見ると、こんな感じや。「Claudeに、見とることを見る能力、ボタンをクリックする能力、フォームを埋める能力を与える」って。せやから本当にユーザーがやってることをユーザーの代わりにやってくれるんや。
「より堅牢な安全対策を必要とするセキュリティの課題を伴う」って。せやからこのセキュリティ部分をかなり心配しとるんや。
今何をやっとるかっていうと、「Chrome用Claude拡張機能の制御されたテストを開始して、信頼できるユーザーがブラウザでClaudeにアクションを指示できるようにしとる」って。
せやから今のところ1000人、1000人のMaxプランユーザー用のテストで、ウェイティングリストに入りたかったら入れるって言っとる。
「この限定プレビューを通じてより強いセキュリティ対策を開発し、信頼を高めるにつれて、徐々にアクセスを拡大する」って。せやから少しずつ増えていくんや。
AIがファイルを削除したり、データを盗んだり、不正な金融取引をしたりする可能性があることを、かなり心配しとるんや。
彼らが挙げた例は、誰かがメールを受け取って、そのメールにここで手順が書いてある人や。「メールを整理して、2通のメールを削除する必要がある」って。
そしたらAIがそのメールを読んで、メールに書いてある手順を実行し始めるんや。それで気づいたんは、AIが来て、本当に削除すべき2通のメールを選んで、堂々とメールを削除したってことや。でもこの種の攻撃はもう解決されとるって言っとる。
もうこの問題を解決するソリューションを作ったって言っとるんや。
脆弱性の評価をした時、Sonnet 4が受けとる攻撃の成功率は、computer useで19%、ブラウザで23%や。セキュリティシステムを使って、11.2%まで下げることができたんやって。
最善を尽くして解決しようとしとる。エラー率はまだ高いな。11%の成功率は10回に1回やからな。せやからまだかなり高いエラー率や。
せやからClaudeを待っとる人は、まだ時間がかかる。セキュリティ問題を見とるけど、すぐにリリースされて使えるようになるで。
下でコメントしてくれ、これについて何を考えとるか、このブラウザをClaude拡張機能と統合して使うのが待ちきれへんかどうか。ワシは個人的にめっちゃ好きや。Cometのバージョンがめっちゃよかった。本当に助かるし、特に音声で会話できる時は、ブラウザがJarvisに変わって、素晴らしくなるんや。
何を考えとるかコメントしてくれ。このようなビデオを見続けるためにチャンネルをサポートしたかったら、メンバーになってくれ。メンバーはインテリジェントエージェントの限定ビデオと先行配信ビデオにアクセスできるんや。
せやからそういうことや、いいねを押してくれ。ありがとう。
これは意味をなさへん。正しくはクッキーや。
いや、それはビスケットや。ありがとう。


コメント