AI最新情報:GPT-5のリリース日、顔面盗用アプリ、そしてBaby Grok

GPT-5、5.1、5.2
この記事は約20分で読めます。

この動画では、GoogleのOpalという新しいAIミニアプリ作成ツールから始まり、写真から動画生成機能、Leonardo AIの新機能、そして各社の人材引き抜き合戦まで、AIの最新動向を幅広く解説している。特にGPT-5の8月リリース噂やデルタ航空のAI価格設定システム、さらにはOpenAIとGoogleの数学オリンピック金メダル級の成果など、AI業界の重要な動きを包括的にカバーした内容となっている。

AI NEWS: GPT-5 Launch Date, Face Stealing Apps & Baby Grok
Here's everything you missed this week in the world of AI!Learn more about Warp at - Use coupon code "WOLFE" for 50% off...

AI業界の最新動向とツール紹介

イーロン・マスクがXで「ベビーグロック」を作ってるって言うてるねん。つまり、アニメキャラをランジェリー姿にして、お色気トークできるコンパニオンアプリを作った男が、今度は子供向けのアプリを作りたがってるわけや。これは楽しみやなあ。

AIニュースについて話して、実際にいくつか試してみよか。まず、今週Googleラボが「Opal」っていうツールを発表したんや。これはAIミニアプリを説明、作成、共有できるツールやねん。アメリカでは今日からパブリックベータとして使えるで、小さなAI搭載ワークフローを作れるんや。実際に試してみよう。

opal.withgoogle.comに行くと、ブログ記事ライター、ブック推薦ツール、ビジネスプロフィール作成、写真をクレイメーション風キャラクターに変換するツールなど、事前に作られた小さなアプリがいくつか見えるな。これらを使ってリミックスもできるんや。

ブログ記事ライターを試してみよう。このワークフローを見ると、ユーザーがトピックを入力して、リサーチして、そのリサーチに基づいてアウトラインを書いて、バナー画像を作って、ブログ記事を書いて、それでページを作るって流れやな。これを変更したり拡張したりしたい場合は、リミックスボタンを押せば編集可能になるんや。

編集提案をしてみよう。「最終ブログ記事にTLDRセクションを追加」って入力してみる。すると実際にワークフローが更新されて、「TLDR生成」ステップが追加されたんや。最終ブログ記事にもTLDRが表示されるようになる。

「スタートボタン」を押すと、このワークフローの動作が見れるで。「ドローン食品配達」っていうトピックを入力してみよう。今リサーチ段階を進んでるな。すべてのステップを経て、最終的にブログ記事を表示するはずや。1分程度で、完全なブログ記事を書いてくれたで。画像も生成して、タイトルも決めて、途中でアウトラインも作ったけど、最終結果はアウトラインやなくて完全な記事や。下の方には僕が追加したTLDRバージョンもある。

ゼロから始めることもできるで。メインのOpalホームページに戻って「新規作成」を押して、アプリにやってほしいことを説明するだけや。「過去24時間のAI関連ニュースをリサーチして、すべてのニュースとソース、箇条書きをリストアップしたページを作って」って入力してみよう。

手動でワークフローを作ることもできるけど、最初はAIに作らせて、必要があれば調整する方が楽やろ。で、ワークフローが出来上がったな。検索クエリ生成、AIニュースのリサーチ、ニュース記事のフォーマット、ニュース記事リストのページ生成って流れや。

プレビューで実行してみよう。また1分ほどで、過去24時間のニュースをまとめてくれたで。AIの認知中心主義に関する金融市場への影響についての警告だとか、頻繁にAI使う人は神経や行動パフォーマンスが低下するかもしれんとか、色々なAIニュースが集まったな。

このワークフローにはさらに出力を追加することもできる。Google DocsやGoogle Slides、Google Sheetsに保存する機能とかもつけられるんや。手動でもこういう小さなワークフローを作れるし、なかなか便利そうなツールやでGoogle製で、アメリカにいれば無料で使える。アメリカ以外やったらVPNが必要かもしれんな。

Googleの新機能とアップデート

Googleは検索結果の表示方法についてもテストしてるんや。「ウェブガイド」っていう実験的なAI整理された検索結果ページがあるねん。「日本でのソロ旅行の仕方」みたいな検索をすると、結果をカテゴリーに分けて表示してくれるんや。

実際に試してみると、検索結果の上にある「ウェブ」タブを選択すると、結果がセクションに分かれて表示される。「ソロ旅行者向け総合ガイド」「なぜ日本をソロ旅行に選ぶのか」「安全のコツ」「宿泊オプション」「ソロ旅行の体験とコツ」みたいな感じでな。

検索してから結果をカテゴリーに再整理してくれるから、自分が興味ある部分のリンクだけを見つけやすくなるんや。これを使うにはGoogleラボで有効にする必要があるで。Googleホームページの検索ラボアイコンをクリックして、色々な実験機能の中から「ウェブガイドを試す」ボタンを押すんや。

Google Photosも新機能をロールアウトしてるで。自分の写真を動画に変換する機能や。例を見ると、フォトロールから画像を選んで「I’m feeling lucky」ボタンを押すと、その画像から動画を生成してくれるんや。実際には起こらなかった出来事の動画やけど、V2を使ってその画像を動画に変換してくれる。

Googleのウェブサイトによると、このフォト・トゥ・ビデオ機能は今日からアメリカのAndroidとiOSでロールアウト開始や。僕のiOSデバイスではまだ表示されてないから、まだ展開中なんやろな。

Google Photosには「リミックス」機能も直接追加される予定や。フォトロール内の任意の写真を選んで、AIを使って漫画風やアニメ風など、違うスタイルでリミックスできるんや。オリジナルの写真を取って、ただスタイルを変更するだけやな。僕のGoogle Photosアプリをチェックしたけど、まだロールアウトされてない。でもこれは今後数週間でアメリカのAndroidとiOSで展開開始予定やから、まだ誰も使えてないんやろう。

さっき話したGoogle Photosのフォト・トゥ・ビデオ機能は、YouTubeアプリにも追加される予定や。僕のYouTubeアプリではまだ表示されてないけど、これも今ロールアウト中らしい。YouTubeアプリ内で直接画像を取得して、写真から動画への変換ボタンを押すと、YouTubeアプリ内で直接変換できて、YouTube Shortsなんかに投稿できるようになるんや。

YouTubeアプリを更新して試してみたけど、まだ表示されてない。でも君らがこの動画を見る頃には、多くの人に展開されてるかもしれんな。

Leonardo AIの新機能

AI動画の話題やから、Leonardoについても話そう。LeonardoがV3 Fastをロールアウしたんや。オリジナルのV3より3倍速いんやて。8秒動画をまだ生成できるし、音声も追加できるし、ただ速くて安いだけや。

Leonardoのサイトに行って、動画セクションでモデルを見ると、V3のオプションがあって、新しくV3 Fastのオプションもある。V3のままやと、動画生成に2500クレジットかかる。結構な量やな。V3 Fastに切り替えると、2000クレジットだけで済む。少し安くて、もう少し多くの動画を生成できるんや。

違いもそんなに目立たない。プロンプトを試してみよう。「山のキャンプサイトの前でセルフィー動画を撮るビッグフット。『やったるでー!』って叫んでからビールを一気飲みする」。

生成してみよう。1分ちょっと、65秒くらいかかった。結果がこれや。「やったるでー!」悪くないな。V3ノーマルと比べると少しリアリズムは落ちるけど、ずっと速いし、安いし、まだ音声も生成されるし、楽しいで。

Higsfield AIの新機能

Higsfield AIが「Higsfield Steel」っていう新機能をロールアウトした。この名前の付け方はあまり好きやない。特にみんながAIにコンテンツを盗まれたり取引されたりすることを心配してる世の中でな。でも試してみよう。

Higsfield AIに入ると、上の方に「Higsfield参照エクステンションをインストールして、ウェブからあらゆる画像を再現」っていうボタンがある。このChromeエクステンションをインストールしてみよう。これは少し心配や。Chromeストアで承認されてないから、エクステンションをダウンロードして、エクステンション領域に入れて、開発者モードをオンにして使わなあかんのや。

つまり、Chromeストアに入らなかったから、手動でやる方法を使えってことや。注意して、自己責任で使ってな。この動画のために試してみるけど、できればChromeストアで承認してもらいたいもんや。インストール後もエラーが出てるから、うまく動いたらええんやけど。

ピンして上に表示されるようにした。「ウェブからあらゆる画像を再現。右クリックしてHigsfield で再現を選択」や。Google画像検索で「月に吠える狼」を検索してみよう。この写真がかっこいいな。右クリックすると、新しいドロップダウンに「Higsfield で再現」が表示される。

アスペクト比はそのままで生成してみよう。「Higsfield で表示」って出たから、Higsfield に戻ってみる。生成された画像がこれや。オリジナル画像と比べて、Higsfield バージョンは少し違う。月がオリジナルより少し燃えてるみたいやけど、これが新しいHigsfield Steel機能や。

Chromeエクステンションがあって、見つけた画像をクリックするだけで、Higsfield アカウントに取り込んで似たようなバージョンを作ってくれる機能やな。

Protonの新しいチャットボット

最後にデモできるツールとして、Protonっていう会社(Protonメールサービスで有名)が「Lumo」っていう独自のチャットボットをロールアウトした。これは機密性の高いチャットボットで、話したことはすべて完全にプライベートや。データは一切収集せんし、僕が試した限りでは無料で使えるで。

lumo.proton.meに行くと、チャットボットがこんな感じで表示される。プライベートやから会話は記録されん。Protonでさえチャット履歴にアクセスできんし、会話はトレーニングには一切使われん。ここで話すことはすべて完全にプライベートや。

「裏で使ってるLLMは何?」って聞いてみた。「僕はProtonのニーズに特化して設計された大規模言語モデルのカスタム実装で構築されてる。GPT-4みたいな一般に知られたモデルは使ってないけど、アーキテクチャは最先端のトランスフォーマーベースモデルと似てる」やて。

「strawberryっていう単語にRはいくつ入ってる?」正解したで!思考の連鎖みたいなことをしてる様子もなかった。ウェブにも接続されてるみたいや。「サンディエゴで一番のタコス店は?」って聞いたら、ウェブ検索したのがわかる。ソースも表示されてるからな。

リストが出てきたけど、僕の好きなCity Tacosは入ってなかった。まあええわ。完全にプライベートで、完全にセキュアで、データのトレーニングには絶対使わんチャットボットが欲しいなら、Lumoを試してみるといいかも。もちろん、Metal LamaやMistrolみたいなのをローカルのコンピューターにインストールして、インターネットなしで使うこともできるけど、そんな面倒なことしたくないなら、Lumoがなかなかええ代替手段やと思う。

無料でどれだけチャットできるかはわからんけど、今のところお金払わずに使えてる。アップグレードをクリックすると、月額9.99ドルからのプラス料金が見えるな。無料プランにはウェブ検索、週単位のチャット制限(具体的な数は書いてない)、制限されたチャット履歴、制限されたお気に入りチャット、小さなファイルのアップロード、高度なモデルは使えん、って書いてある。アップグレードすれば、違うモデルに切り替えたり、大きなファイルをアップロードしたり、すべてが無制限になるんやろな。

AI業界のドラマと動向

毎週のことやけど、AI界に新鮮なドラマがあったから、それについて話そう。Metaがまだ同じ戦術で、あちこちから最高の人材を引き抜こうとしてるんや。シリコンバレーでこういう人材引き抜き合戦や、みんながあちこち移動してチェスをしてるのを見てるのは、僕にとってはめちゃくちゃ面白いし興味深いねん。サム・アルトマンもそう思ってるやろな。競争とドラマがない世界を想像してみ。めっちゃ退屈やで。

今週、MetaがGoogleのAI研究者3人を引き抜いた。この3人はGoogleの金メダル獲得モデルに取り組んでた人らや。最新の採用者らは(名前は発音できんからやめとく)、Googleが今週発表したGeminiモデルのバージョンに取り組んでて、そのモデルは今年の国際数学オリンピックで、人間やったら金メダル(最高賞)を取れるレベルで問題を解いたんやて。

Metaは本当にみんなの最高の人材を取ろうと必死やな。OpenAIからも人を引き抜いた、DeepMindからも、Appleからも引き抜いた。基本的にScaleを買収して、CEOとScaleの何人かを連れてきた。GitHubの元CEOも今スーパーインテリジェンスチームにいると思う。Metaがこれだけ人材を追い求めてるのは本当にワイルドや。

デルタ航空からも新鮮なドラマが出てきた。デルタ航空がAIを使って、君が払う意思のある最高価格を設定するんやて。基本的に、デルタはAIを使って、君が彼らのウェブサイトで予約しようとするとき、君が払う意思のある最高価格を分析して把握しようとするんや。

つまり、みんな基本的に違う価格を払うことになって、その価格は彼らのAIが君の価格閾値だと思うものによって決まるんや。みんなはこれを好まない。僕も好まない。僕がもっと払えるって判断されたら、AIが「この人はもっと払える」って思うだけで、もっと請求されるんや。それはめっちゃ嫌やな。

The Registerのこの記事によると、デルタはそのAI価格設定ツールが24時間体制で働くスーパーアナリストに相当するって言ってる。そのスーパーアナリストは、乗客に席を予約してもらうのに何が必要か、または座席が売れ残るリスクなしに利益を最大化するためにどの価格まで運賃を上げられるかを常に計算してるんやて。

記事はさらに続いて、「デルタのAIが君がいつもプレミアムキャビンを予約して、企業アカウントで経費処理してるのを知ってたら、なんでより高い価格を試さんのや?アルゴリズムは価格感度の低い顧客を特定して、それに応じて調整するんや。もっと払える客はより高い金額を払うことになって、それに満足せんやろな。

詐欺られたと感じる腹立った客のせいで、PR上の悪夢になりかねん。発表が派手で流行りっぽくても、同じ列の同じ通路側の席に対して、誰かが20%安く払ったことを客が知ったときの感情的影響を考えなあかん。AI価格設定自体は悪いことやない。でも乗客への思いやりを持ってやらんと、数学的には正しくても陰険に感じられるんや」。

どうなるか見てみよう。僕の最初の考えは、デルタがこれをやって他の航空会社がやらんのやったら、デルタには乗らん。すべてが公平に売られてるところに乗るわ。でもそれは僕だけかもしれんけどな。

最新AI情報のまとめ

AI界のニュースとしては今週はそんなに大きくなかったけど、話す価値のある小さなことがいくつかあったから、ラピッドファイアで行こう。

GPT-5が8月に出るっていう噂があるねん。これはただの推測やけど、サム・アルトマンが最近Xで「GPT-5をもうすぐリリースする」って日付なしで言ったんや。でもOpenAIの匿名関係者や事情に詳しい人らが8月に出るって主張してるらしい。

このニュースは話半分で聞いといてな。でも多くの場所が8月リリースを報道してるから、8月に出る可能性はかなり高いと思う。サム・アルトマンが夏にリリースするって言ってたし、8月は夏やからな。理に適ってる。

次のOpenAI Dev Dayの日程もわかった。10月6日にサンフランシスコで開催や。過去には、Dev Dayで大きな発表をしてきたんや。最初のDev Dayでは、ChatGPTとOpenAIに関する実際の発表があった。去年の2回目のDev Dayでは大きな発表は少なかった。今年のDev Dayで何か発表があるかはわからんな。

興味深いのは、今年は実際にDev Dayに参加するのにお金がかかることや。OpenAIのDev Dayに参加したいなら、650ドルかかるんや。

OpenAIのもう一つの簡単なニュースとして、ChatGPTエージェントがPlus、Pro、Teamユーザーに完全にロールアウトされた。月20ドルのプランでも、エージェントが使えるようになったんや。

今日実際に使った面白い使用例がある。僕のXアカウントに行って、AI関係のXリストの一つをスクロールして、過去24時間のそのリストから興味深いAIニュースやチュートリアルを見つけてもらったんや。僕の実際のプロンプトを見たいなら、ここで一時停止してもらったらええで。

実際にスプレッドシートに色々なAIニュースやチュートリアルを、実際のツイートへのリンクと一緒に出力してくれた。それからニュースかチュートリアルかにカテゴリー分けして、Googleシートに移動してもらった。これが今日の動画を撮る前のリサーチ方法の一つやったんや。

今週、OpenAIとGoogle DeepMindの両方から、数学オリンピックで金メダルレベルのパフォーマンスを達成したっていうかなり大きな成果も出た。数学オリンピックっていうのは人間がやるもんやけど、AIがやったとしたら、金メダルを取った人間と同じくらい良いスコアを出したってことや。

これはOpenAIのモデルとGoogle DeepMindのGeminiモデルの両方が今週同じような主張をしたんや。僕はベンチマークについてはもうあまり気にしてないってずっと言ってきた。AIツールが数学や複雑な論理問題なんかでどんどん上手くなってるのには、あまり興味がないんや。

それができるのはめちゃくちゃかっこいいと思う。でもこういう成果が人間にとって実世界の使用例を開かんかったら、僕はそんなに興奮でけへんねん。でも、このオリンピック、OpenAIとGoogle DeepMindが両方とも達成したっていう国際数学オリンピックはかなり魅力的や。

これについて、Wes Rothがええ説明をしてるのを見たから、彼の言葉を要約してみる。汎用AIと狭義AIがあるんや。狭義AIっていうのは、一つの領域で本当に得意なAIモデルや。チェスが得意なDeep BlueとかGoが得意なAlphaGoみたいな狭義AIがある。これらは一つのことが本当に得意になるようにデザインされた狭義AIやねん。

それから汎用AIがあって、これは色々なことが得意になるようにデザインされてる。ChatGPTやGeminiモデルが該当するのがこの汎用AIで、物語を書いたり、数学をしたり、トリビア問題に答えたり、論理問題を解いたりできる。幅広い範囲のことが本当に得意なんや。

この国際数学オリンピックは、これらの汎用AIが狭義のスキルでもどんどん上手くなってきてることを示してる。汎用AIが得意になる狭義スキルが多くなればなるほど、実際のAGIやASIに近づくんや。これらは一つの領域だけで良くなるようにデザインされてるんやない。すべての領域で良くなるようにデザインされてるのに、今では狭義の領域でも最高になってきてるんや。だから本当にすごいことなんや。

DeepMindは今週「Anus」(発音がようわからん)っていう研究も発表した。これは歴史家が過去とのつながりを変革する研究や。これは古代の碑文を文脈化して、歴史家がそれらの古代碑文を解釈するのを助けるモデルや。断片的なテキストを復元することもできるんや。全部がなくても、AIを使って何が書かれてたかを理解する助けになるねん。

PCユーザーなら、Windows 11が今週たくさんの新機能をロールアウトした。これらは彼らがしばらく前からロールアウトするって話してた機能やけど、ついに実際に入ったみたいや。リコール機能(コンピューター全体の検索履歴みたいなもん。やったことすべてを後で思い出せる)、クリック・トゥ・ドゥ(右クリックしたときに追加のAI機能を提供)、改良されたWindows検索、Copilot Vision。

Copilotができることで僕が一番好きなのは、そのビジョン機能や。以前の動画でも話したけど、インタラクティブなチュートリアルみたいなもんで、Blenderを開いて「次に何をすればいい?次に何をすればいい?」って聞けば、実際に何をすべきかを教えてくれて、次にクリックすべき場所を画面上で丸や強調表示で示してくれるんや。

Copilot Visionは本当にすごい。もっと多くの人が話してないのが驚きや。めちゃくちゃかっこいいからな。でも、これらの機能の多くが最新版のWindows 11にロールアウトされてる。

面白い話やった。AmazonがBっていうAIウェアラブルを買収したんや。これは君が言うすべてを聞いてる小さなリストバンドや。僕も実際に一つ持ってる。一日中すべての会話を聞いて、それらの会話を文字起こしして、文字起こしを保存して、後でそれらとチャットできるんや。

実際にはすべての音声は保存されん。後で録音を聞き返すことはできん。文字起こしだけがあって、すべて匿名や。周りの人の名前とかは知らん。特に会議に行って、たくさんのセッションに参加するときにめちゃくちゃ価値があるんや。このリストバンドをつけるだけで、基調講演とかを聞いてくれて、後で早いセッションやその基調講演について質問できるんや。

今年の初めに、市場にあるこういうAIウェアラブル記録ツールをすべてテストした動画を作ったんやけど、結論はBが多分一番好きやった。だからAmazonに買収されたのを見るのは本当に興味深い。Amazonが元のB会社と同じくらいプライバシーを真剣に考えるかはまだわからんけど、かっこいいツールやし、Amazon の資金力でどれだけ良くできるか楽しみや。

Pika Labsが新しいアプリをロールアウトしてる。アプリの名前は「Pika Social AI video」や。今のところ招待制で、使うには招待コードが必要やねん。招待コードを取ろうとしたけど、この動画の録画前には取れんかったから、実際にデモはできんのや。

でも基本的には、セルフィーを撮って、PikaのAIがそれをアニメーション化したり、違うシーンに配置したりするソーシャルメディアアプリや。君の実際の写真と実際の動画やけど、AI生成の場所やAI生成の動画の中にいる、そんなソーシャルメディアフィードになるんや。フィードをスクロールして、友達や家族やこのアプリを使ってる他の人のAIバージョンを見るってわけや。

なかなか興味深いはずや。キャッチするかどうかはあまり自信がないけど、AI ネイティブなオタク系の人らは好きかもしれん。AI生成されたもんだけのフィードをスクロールするのは、僕にはあまり想像でけへんけど、コンセプト的にはかっこいい。彼らがどう発展させて、人々にとってもっと興味深く、刺激的にするかを待つしかないな。

イーロン・マスクが今週Xで、子供向けコンテンツ専用アプリ「ベビーグロック」を作ってるって発表した。つまり、アニメキャラをランジェリー姿にして、お色気会話をさせるコンパニオンアプリを作った男が、今度は子供向けアプリを作りたがってるわけや。楽しみやなあ。

アリババが今週「Qwen 32B 35B A22B 2507」っていう新しいモデルを出した。めっちゃ長い名前やな。これは以前の「Qwen 32B 35B A22B」っていうモデルより性能が良いらしい。

ベンチマークに興味があるなら、この新しいモデルが赤で表示されてて、これらのベンチマークすべてで勝ってるのが見える。このモデルはまだ試したことないけど、常に出てくる新しいLLMに注意を払ってる人らには、試してみる価値のあるもう一つのモデルやな。

最後に、今週ホワイトハウスがAI政策提言を発表した。実際に見ることができる。全部で28ページで、米国政府がAIについて何をしたいかが書かれてる。主な焦点をTLDRでまとめると、レッドテープを取り除いてAIイノベーションを加速させて、モデルが言論の自由を保護するようにしたいけど、オープンソースやオープンウェイトモデルも推奨して、AIが成長し続けるようにAIイノベーションに投資したいってことや。

アメリカのAIインフラ構築にも焦点を当てたい。つまり、データセンター、半導体製造、エネルギーインフラみたいなもんや。これはめちゃくちゃ重要になるで。中国がアメリカを上回ってる分野の一つがエネルギーインフラなんや。アメリカの方がコンピューティングは良い。中国の方がエネルギーインフラが良い。こっちでも、もっと良いエネルギーインフラが必要やねん。

そのインフラを構築して、国際AI外交でリードしたいんや。アメリカはAIイノベーションで世界をリードしたいねん。全部のレポートを読んだら、僕が今説明したことの詳細版や。でもそんな話で終わりたくない。

楽しい締めくくり

楽しいもんで終わりたいから、最新のストームトルーパーのvlogがこれや。

よし、みんな、ついに中に入って、居心地よくなって、ビッグフットが怖い話をしてくれるところや。

何年も前、僕が一人でここにいたとき、森から誰かが僕の名前を呼ぶ声が聞こえたんや。でもな、誰も僕がここに住んでるなんて知らんかったんや。その声は、僕自身の声やったんや。外に出ると、木の境界線に僕が立って笑ってるのが見えたんや。今でも時々訪ねてくるで。

おい、何やそれ!それはスキンウォーカーやろ!

まあ、あまり心配せんでもええやろ。それが起こってから何年も経ってるからな。

これが今日の分や。見てくれて、一緒にオタクしてくれて、めっちゃありがとう。こんな動画が好きやったら、いいねして、このチャンネルを登録してくれたら、もっと作るようにするわ。また見てくれて、ありがとう。次回で会えることを願ってる。バイバイ。

今日一緒にオタクしてくれて、めちゃくちゃありがとう。こんな動画が好きやったら、いいねボタンを押して、このチャンネルを登録してくれ。こんな動画がYouTubeフィードに表示されるようにするから。まだやったら、futurtools.ioもチェックしてくれ。一番かっこいいAIツールと最新のAIニュースをすべて共有してる。無料のニュースレターもあるで。また、本当にありがとう。感謝してる。次回で会おう。

コメント

タイトルとURLをコピーしました