
16,952 文字

今週はOpenAIから多くの新しいアップデート、いくつかのGoogleからの発表、そして驚くべき新しいAI動画モデルが登場しました。多くのことが起きたので、時間を無駄にせずにすべて詳しく説明していきましょう。
まず、OpenAIが実際に私たちからいくつかのモデルを取り上げているという事実から始めましょう。4月30日をもって、2023年春頃にリリースされて皆の度肝を抜いたGPT-4モデルが終了し、完全にGPT-4oに置き換えられると発表しました。それは実際に理にかなっていますが、ここから混乱が始まります。
彼らはまた、最近ChatGPT内でアクセスできるようになった新しいモデルの一つであるGPT-4.5モデルも段階的に廃止しています。4.5は2025年2月下旬にリリースされたばかりで、2ヶ月も経っていません。正直なところ、最近までは私がChatGPT内で使うのに好きなモデルでした。複雑な論理や数学、推論に関しては最もスマートなモデルではありませんでしたが、創造的な文章を書いたり、まるで人間とチャットしているように感じられる点では、GPT-4.5は本当に優れていました。
少し混乱すると言ったのは、それを廃止すること自体ではなく、何に置き換えられるかということです。今週、OpenAIはGPT-4.1をロールアウトしました。そう、4.5の後に4.1です。現時点ではこのGPT-4.1はAPIでのみ利用可能で、ChatGPT内では見つかりませんが、彼らはこの3つのバージョンをロールアウトしました。GPT-4.1、4.1 mini、そして4.1 Nanoをリリースしました。
GPT-4.5と同様に、これらは「思考」モデルではありません。プロンプトを与えると回答する前に考えるというタイプのモデルではなく、プロンプトを与えるとできるだけ早く回答を返すという私たちが慣れているモデルに近いものです。
これらのモデルがかなり賢くなっていることがわかります。ここには実際にラベル付けされていませんが、グラフからこれらがより賢く、40モデルと同じくらい速く応答を生成することがわかります。これらの4.1モデルは40 01 high(おそらく01 Proと同じもの)、03 Mini、そしてGPT-4.5よりもコーディングが優れています。より大きな番号が付いていますが、以前にリリースされたモデルよりも優れているのです。そう、非常に混乱しますね。
指示に従う能力に関しては、GPT-4.1はGPT-4.5や03 Mini、01ほど優れていません。これらは、プロンプトを与えた後に考えるモデルです。
4.1が4.5に代わる理由はいくつかあります。その一つは巨大なコンテキストウィンドウです。このモデルは100万トークンのコンテキストウィンドウを持ち、約75万語の入力と出力テキストを処理できます。ここでは「干し草の中の針」ベンチマークを示すグラフがあります。本質的には大量のテキストの中にどこかに情報を埋め込み、質問をして、モデルがその埋め込まれた小さな情報を見つけられるかどうかを確認します。100万トークンのコンテキストウィンドウまで、埋め込まれたテキストを見つけるのに100%正確だったようです。
また、ビジョン機能ではGPT-4.5と同等で、数学や推論にも優れています。しかし正直なところ、これが4.1が4.5に取って代わる本当の理由です。それは価格設定です。GPT-4.1を使用するには、100万トークンあたり約1.84ドルかかります。OpenAIは4.5の価格設定をまったく削除してしまいましたが、Wayback Machineで先月を見ると、128,000コンテキスト長のGPT-4.5は100万トークンあたり75ドル、出力100万トークンあたり150ドルだったことがわかります。だから、4.5と4.1の価格を比較すると、これが実際に取って代わる本当の理由なのです。
しかしOpenAIは今週さらに多くのモデルをリリースしました。そしてこれらはChatGPT内で利用可能です。彼らはまた、03と04 miniもリリースしました。これらは思考モデルです。質問すると、プロンプトを与えた後に問題を考え始め、応答を返す前に考えるので、応答は遅くなりますが、より正確で洗練された応答になります。
OpenAIがしていないことの一つは、自分たちのモデルを他のOpenAIモデル以外と比較することです。彼らはGemini 2.5やAnthropicのClaude 3.7、さらにはMetaのLLama 4とも比較していません。彼らは自分たちの過去のモデルとのみ比較しています。
しかし、数学に関しては非常に印象的であることがわかります。さらに印象的になることを後ほどお見せします。しかし、ツールなしの03(これについても後で説明します)はこの競争数学ベンチマークで88.9%のスコアを記録し、ツールなしの04 Miniは92.7%を記録しました。
これらの新しいモデルは、問題解決、コーディング、そしてエージェントツールの使用にも非常に優れているようです。
ここで、これらのモデルについて本当に興味深いことがあります。私が述べたように、それらは思考モデルです。プロンプトを与えると、最終的な回答を出す前に実際に考え、推論します。しかし、その推論をしている間に、実際に画像を分析することができ、最終的な応答を出す前にその推論プロセス中にツールを使用することができます。
私の理解では、100%確実とは言えませんが、このようなものがこれまでどのように機能していたかというと、プロンプトを与えると、回答を検索するためにウェブを検索し、見つけたものをコンテキストの一部として使用します。それをプロンプトに追加し、あなたのプロンプトと見つけたものに基づいて応答を提供します。
今はより「エージェント的」になり、考え始め、何かを検索し、その情報を取り入れ、検索で見つけたものや画像で見たものを思考プロセスの一部として使用し、その後おそらく別のフォローアップ検索や画像の再確認を行って何かを明確にします。
ここでは、これらのモデルは初めて画像を思考連鎖に直接統合できることがわかります。彼らは単に画像を見るだけでなく、それを使って考えます。これにより、視覚的および文章的推論を組み合わせた新しいクラスの問題解決が可能になり、マルチモーダルベンチマーク全体で最先端のパフォーマンスが反映されています。彼らは推論プロセスの一部として画像を変換することさえできます。回転、ズームなどのようなことができます。
そして、ここにはエージェントツールの使用について説明があります。03と04 miniはChatGPT内のツールへのフルアクセスと、APIでの関数呼び出しを通じてあなた自身のカスタムツールへのアクセスを持っています。モデルは問題を解決する方法について推論し、詳細で思慮深い回答を正しい出力形式で迅速に生成するために、いつどのようにツールを使用するかを選択するように訓練されています。
例えば、ユーザーが「カリフォルニアの夏のエネルギー使用量は昨年と比較してどうですか?」と尋ねるかもしれません。モデルはウェブを検索して公共ユーティリティデータを見つけ、予測を構築するためにPythonコードを書き、グラフや画像を生成し、予測の背後にある主要な要因を説明し、複数のツール呼び出しを連鎖させることができます。そしてこれはすべて考えている段階で起こっています。
そして、私が言及したように、検索プロバイダーの助けを借りてウェブを複数回検索し、結果を見て、より多くの情報が必要な場合は新しい検索を試みることができます。これがこれらを本当に強力にしている理由です。
03と04 Miniは、私たちが見ていたベンチマークに基づいて単独でもかなり強力に見えますが、ウェブを検索したり、さまざまなツールを使用したり、思考連鎖中にPythonコードを書いたりする能力を追加すると、これらは非常に知的になります。また、使用コストを比較的同じに維持しながら、かなり賢くなっているようです。
しかし、彼らが発表したライブストリーム内で示された追加のベンチマークがあります。これらはブログ記事には実際には含まれていませんが、思考に追加されたツールの使用がどれほど印象的かを示していると思います。
ここでは、ブログ記事にあった同じベンチマークですが、追加情報が加えられています。ここでは、PythonとのO3とPythonとのO4 miniが追加されています。この競争数学では、PythonとのO3は95.2%のスコアを記録し、PythonとのO4は98.7%を記録しました。そして2025年の競争数学では、PythonとのO3は98.4、PythonとのO4 miniは99.5を記録しました。基本的に満点を取りました。
私はここ数日、O3を使って遊んでおり、非常に感銘を受けています。正直なところ、検索やディープリサーチをオンにした他のモデルを使うよりも優れているように思えます。なぜなら、思考プロセス中にそれを自動的に行ってくれるからです。
私はこれらのモデルが訓練されるトレーニングデータの倫理についての議論をしていました。ここで思考プロセスを見ると、どのように考えるかだけでなく、思考に追加するためにウェブからたくさんのリソースを検索したことも分かります。
また、Xで週に一度のまとめ投稿を作成し、今日のビデオで話すすべてのニュースを共有しています。私はすべてのニュースを見つけて、「これらは共有したいニュース記事だ」という大きなリストを作成しました。それをきれいにするよう頼みました。
見ていただけるように、ニュース記事のとてもきれいなリストを提供してくれました。しかし、ここで思考プロセスを見ると、思考を通して、ツールを使用して分析し、さらに考え、さらに分析しました。各タイトルの文字数を数え始め、思考プロセス中に何度もこれらのツールを使用し続けました。おそらくここではPythonを使用しています。
そしてはい、少し遅いです。2分9秒考えてから最終的に回答を出しました。しかし、何を考えたかの深さと、私が頼んだことを確実に満たすために思考プロセス中に実際にツールを使用したことを見てください。そして最終的に論理的な順序で配置し、OpenAIニュースをまとめ、次にAnthropicとGoogleニュースを並べました。実際にPythonを使用して配置する順序を決め、最終的に共有したいニュース記事のリストを出力しました。本当に強力です。
03とこれらのO4モデルについて話している間に、情報に関するこの興味深い記事が出ました。「もし近日中にリリースされる03と04 Miniと呼ばれるモデルが初期テスターが言うように機能するなら、テクノロジーはすぐにAIの顧客に新しい種類の材料や薬の設計や発見などの問題に取り組む新しいアイデアを提案するかもしれません。OpenAIの近日発売のモデルが新しいアイデアを合成する能力は、企業が経済的に価値のある大部分の仕事で人間と同等またはそれ以上のパフォーマンスを発揮するためのAGI(汎用人工知能)として知られるいくつかの柱の一つを表しています。」
多くの人々がこれはAGIへの一歩近づいたと主張しています。この記事は実際には03と04の発表の1日か2日前に出たものです。そのため、「まもなくリリースされる推論モデル」と言っています。
しかし「これらのモデルをユニークにしているのは、物理学と工学などの複数の分野からの情報を同時に使用して答えを計算したり、アイデアを提案したりできることです。ほとんどの科学者は類似の答えやアイデアを思いつくために他の分野の専門家と協力する必要があります。そのため、AIはニコラ・テスラやリチャード・ファインマンのような、複数の分野からの情報を融合させる発明家のような存在を目指しています。彼らの物理学、工学、数学の知識が電気装置や量子力学の発見を推進しました。」
私自身は、03や04を使用して出てきた新薬や新素材について認識していませんが、そのような能力があるか、その能力に非常に近づいているようです。
これらの新しいモデルから出てきた別の興味深い事実は、画像から場所を特定することに非常に優れているということです。本当に恐ろしいほどです。
ここでEthan Mollikが「03の地理位置特定能力は、そのエージェント能力の非常に良いサンプルです。賢い推測と画像をズームインしたり、ウェブ検索をしたり、テキストを読んだりする能力を組み合わせると、結果は非常に不気味になります」とXに投稿しました。彼はいくつかの例を示し、緯度と経度の座標まで非常に正確に特定しています。ここに別の例があり、同じことをしています。
そしてここにSwaxがXで共有した例があります。この画像を与えて「世界のどこか当ててみて?」と言いました。実際にどのようにして特定したかを見ることができます。黒地に黄色のナンバープレート、ルーバー付きの高い木造コロニアル様式の家、左ハンドル車でも交通は右側通行(この画像からどうやって分かるのかわからないほど)、店の看板の言語はスペイン語やポルトガル語ではなくラテンアルファベットのビジネス名、低い砂地と排水溝のプールがあることに気づきました。パラマリボ・スリナムと推測しました(発音の仕方はわかりませんが)、明らかに正解でした。
これらの他の発表に加えて、今週、OpenAIは直接端末内で使用できるオープンソースのコーディングツールであるCodex CLIコマンドラインインターフェースをロールアウトしました。私自身はこれをまだ試していませんが、端末で開いて、コマンドを与えると、何かをコーディングするためのステップをエージェント的に進めるコーディングエージェントです。
しかし、OpenAIはAIコーディングに関してより大きな野望を持っているようです。噂によると、現在Windsurfを約30億ドルで買収する交渉中だということです。Windsurfは、AIコーディングエージェントインターフェースで、Visual Studio Codeのフォークで、多くの追加のAIエージェント機能が組み込まれています。Cursorを使ったことがあれば、Windsurfは非常に似ています。明らかにOpenAIはそれを買収したいと考えています。
また、WindsurfがOpenAIの最初の選択肢ではなかったことも判明しました。彼らはCursorの買収も検討していましたが、Cursorは100億ドルの評価額で資金調達の途中だったようです。私の推測では、より手頃な価格だったためWindsurfに目を向けたのでしょう。
私は、誰もがウェブサイトを持つべきだと強く信じています。たとえそれが自分のソーシャルメディアリンクや現在のプロジェクトを共有するだけであっても。だからこそ、今日のビデオではHostingerとパートナーシップを組みました。Hostingerは、AIを活用したウェブサイトビルダーおよびホスティング会社です。そのため、ウェブサイトをオンラインにするための技術的な詳細について心配する必要はありません。
hostinger.com/mattwolfにアクセスすると、すでに75%オフになっていることがわかります。ビジネスウェブサイトビルダーを選択し、このプランを選択すると、クーポンコードMattwolfを使用して追加で10%オフを受けることができます。
ログインしたら、ウェブサイトボタンに進み、新しいウェブサイトを追加をクリックし、Hostingerウェブサイトビルダーを選択します。これはAIで全てを行ってくれるものです。欲しいものを伝えると、それを構築してくれます。
これをMatt Wolf’s personal hubと呼び、「これはMatt Wolfの個人ウェブサイトです。彼のすべてのソーシャルメディアプロフィール、YouTubeチャンネル、さまざまなプロジェクトへのリンクがあります」という説明を付けます。
次に「ウェブサイトを作成」をクリックして、HostingerのAIに作業をさせましょう。数秒で、ウェブサイトのタイトル、さまざまなプロジェクト、そしてもちろん私のさまざまなソーシャルプロフィールへのリンクを含む構築済みのウェブサイトができました。
あとは好きなようにカスタマイズするだけです。この背景セクションを変更し、写真撮影から少し安っぽい画像を入れてみましょう。これで、好きなように構築できるウェブサイトの骨組みができました。
しかし、注目すべきは左側にある多くのAIツールです。画像ジェネレーター、ライター、ページジェネレーターなど、さらに多くのものがあります。現在の仕事に関連する画像を変更したい場合は、この画像を選択し、画像を生成をクリックして、「背景にパソコンがあり、ビデオカメラを持ったオオカミ」のようなおかしなものを生成できます。そして現在の仕事画像と入れ替えます。
Hostingerを使えば、数分以内にウェブサイトをオンラインにすることが非常に簡単です。詳細については、hostinger.com/mattwolfにアクセスし、チェックアウト時にクーポンコードmattwolfを使用して追加で10%オフを受けられます。このビデオのスポンサーとなってくれたHostingerに感謝します。
また、数週間以内にOpenAIからさらに多くの発表がある予定です。Sam AltmanはXで「数週間以内にO3 Proをproティアにリリースする予定です」と述べています。月額200ドルのプランを利用している場合、O3がどれだけ印象的かに基づくと、O3 Proはある意味非常に素晴らしいものになると想像されます。
そして、OpenAIに関する別の噂では、X(旧Twitter)のようなソーシャルメディアネットワークの開発に取り組んでいるようです。これについての詳細はあまりありません。Sam Altmanはこのアイデアについて非公開でフィードバックを求めていたようです。これが実現するかどうかは本当にわかりませんが、多くの人々が話題にしている潜在的な可能性です。
最後に、OpenAIに関するニュースとして、ChatGPTの画像生成の面で別の機能向上のアップデートもロールアウトしました。ChatGPTアカウントにログインすると、左側のメニューに新しいライブラリボタンが追加されています。それをクリックすると、ChatGPT内で生成したすべてのAI画像を確認できます。画像をクリックすると、生成したさまざまな画像をすばやくスクロールすることができます。
Microsoftも今週発表を行いました。Microsoft Copilot Studio内に直接「コンピューター使用」機能をロールアウトする予定だと発表しました。これはまだアクセスできない機能で、発表だけです。来月のMicrosoft Buildでさらに詳しく紹介する予定です。
私が理解できる限りでは、OpenAIのコンピューター使用機能を使用して、あなたのコンピューターを制御し、あなたの代わりに作業を行うものになるようです。この発表記事へのリンクを必ず下に掲載します。記事の最後には、テスターになりたい場合にフォームに記入できる場所があります。
今週はGoogleからもいくつかのアップデートがありました。Gemini 2.5 Flashという新しい大規模言語モデルもロールアウトしました。Gemini 2.5は最近、コーダーの間で最も人気のあるモデルで、AnthropicのClaude 2.7よりも少し優れた仕事をしています。これは思考モデルで、以前に話したGPT-4.1と同様に100万トークンのコンテキストウィンドウを持っています。
この新しいGemini 2.5 Flashは少し軽量で速いモデルであり、開発者が思考をオン/オフにできる最初の完全なハイブリッド推論モデルです。つまり、依然として思考能力を持っていますが、あまり考えずに速い応答が必要な場合は、その機能をオフにして、少し考慮が少ない応答ですが、より速い応答を得ることができます。
この新しいモデルは、04 Mini、Claude Sonnet 3.7、Grok 3、そしてDeepSeek R1よりもかなり安価です。ただし、推論をオンにすると、その価格は大幅に上昇し、04 Mini、R1、およびその他の同様のモデルとほぼ同レベルになります。
また、科学と数学においても同様のサイズのモデルと同等で、コード、視覚的推論、および画像理解においても優れており、同様の機能を持つ多くの他のモデルとほぼ同等です。
このグラフでは、左側がLMアリーナスコアです。ユーザーがプロンプトにどれだけうまく答えたかに基づいて、また一種のサイドバイサイドのブラインド比較によって、これらのモデルをランク付けした方法です。そして下部は、これらのモデルを使用するコストで、右に行くほどコストが低くなります。
Gemini 2.5 FlashはDeepSeek R1、03 mini high、01 preview、Claude 3.7 Sonnet、思考を伴うGrock 2よりもパフォーマンスが優れていることがわかります。LMマリーナの比較の観点からは、すべてを打ち負かしており、オープンに利用可能なモデルであるDeepSeek R1のコストとほぼ同等です。
LMマリーナが提供するこの種のユーザー嗜好テストに関しては、Geminiは最近、他のすべてのモデルを圧倒しているようです。最近は常にGoogleモデルがトップにあるようです。今ログインしても、Gemini 2.5 Proは依然として最も多くの投票を受けたモデルです。
ai.devにアクセスすると、実際にはGoogleのAI Studioにリダイレクトされます。これは今日知ったばかりです。そこで無料で彼らの新しいモデルをテストできます。このドロップダウンをクリックすると、Gemini 2.5 Proのオプションがあり、4月17日現在、Gemini 2.5 Flashもあります。
このモデルを使用すると、思考のオン/オフを切り替えるトグルがあります。また、構造化出力、コード実行、関数呼び出し、Google検索を使用した接地などのツールをオンにし、ChatGPTやClaudeなどの他のチャットボットと同じように使用できます。
この古いプロンプトを与えてみましょう、そして2秒考えた後に正解を得たのが分かります。下部にトークン数が表示され、この会話内で最大100万トークンまで使用できることが示されています。
「すべての単語が文字”A”で終わり、ちょうど10語からなる文を作成してください」このプロンプトは、思考プロセス全体でトークンを使用するため、数千トークン多く使用しました。そして約18秒後に、それはほぼ不可能だが、”a”で終わる10語のリストを提供してくれました。
このプラットフォームは完全に無料で使用できます。ai.devにアクセスし、様々なGoogleモデルをテストでき、過去のチャット履歴も保存され、古い会話に戻ることもできます。
Googleはまた、今週Dolphin Gemmaと呼ばれる興味深いものを紹介しました。これは科学者がイルカのコミュニケーション方法を研究し、彼らが何を言っているかを発見するのを助ける大規模言語モデルです。Dolphin Gemmaは、イルカの発声の構造を学習し、新規のイルカのような音声シーケンスを生成するように訓練された基盤AIモデルです。種間コミュニケーションの探求におけるこのアプローチは、AIと海洋世界との潜在的な接続の境界を押し広げています。また、これはオープンモデルとして提供され、彼らのGemmaシリーズモデルの一部となっています。GeminiモデルはGoogleのクローズドモデル、Gemmaモデルは人々が基盤にしたり改良したりできるオープンモデルです。
Googleは彼らのV2をより多くのプラットフォームにロールアウトしました。実際にGeminiとWhiskの中で直接ビデオを生成できるようになりました。Gemini Advancedユーザーの場合、V2オプションがあり、テキストプロンプトを使ってビデオを生成できます。この版ではまだ画像オプションはありませんが、単に「月に向かって遠吠えするオオカミ」というプロンプトを与えるだけで、Gemini内で直接ビデオを生成し、チャットの残りの部分と一緒にビデオを出力します。時間の経過とともに、ビデオの特定の要素を調整するようなことができるようになると思いますが、現時点では基本的にこのチャットインターフェイス内のテキストからビデオを生成するジェネレーターです。
開発者でV2を統合したい場合は、それが利用可能になりました。V2ビデオ生成は現在、Gemini API内の開発者が利用できます。そして学生でこれらのGemini Advancedで利用可能なクールな機能を使いたい場合は、朗報です。米国の大学生は現在、最高のGoogle AIと2TBのストレージに無料で利用できます。大学生は、Gemini Advanced、Notebook LM Plus、そしてそれ以上を今学年と次学年に無料で利用するために登録できます。再び、リンクを説明文に入れますので、大学生でこれを利用したい場合は、下のリンクを探してください。
AnthropicのClaudeも今週アップデートされました。彼らは研究機能とGoogle Workspaceの統合を導入し、メール、カレンダー、ドキュメントを接続できるようになりました。研究機能は実際に様々なGoogleサービスと接続します。彼らの例では、「研究を開始」と表示され、Gmailメッセージを検索し、カレンダーイベントを検索し、Googleドライブを検索し、ウェブを検索し、そしてこれらすべての場所から情報をまとめています。これは誰かが旅行を計画しているようで、メール、カレンダー、ウェブ検索などにアクセスできるため、この旅行を正確に計画するのを手伝うことができます。
私自身でデモできませんでしたが、「研究は現在、Max、Team、およびEnterpriseプランの早期ベータで利用可能です」と示されています。私は月額20ドルのプランを使用しており、Maxは月額200ドルのプランです。今のところ別の月額200ドルのプランに加入する準備はできていません。しかし、Google Workspaceの統合はすべての有料ユーザーが利用できます。そのため、月額20ドルのプランでも利用可能です。ここでClaudeにジャンプすると、アプリを接続するボタンがあり、Drive、Calendar、Gmail、GitHubなどを実際に接続できます。
また、Anthropicのクラウド用の音声モードがもうすぐ登場し、Anthropicがこの種の機能をロールアウトする最後のものになるようです。Bloombergのこの記事によると、「Anthropicはcla chatbotの新しい音声アシスタント製品のローンチに近づいており、これはライバルのOpenAIがchatptユーザー向けに同様のオプションのロールアウトを始めてから約1年後になります。この新機能は「ボイスモード」と呼ばれ、今月にも限定的にリリースされる可能性があると、問題に精通した人物は述べています。」限定的にというのはおそらく、彼らのより高価なプランであるMaxプランのユーザーに最初にロールアウトし、その後徐々に私たちのような一般ユーザーに展開されるということでしょう。
今週はXAIのGrockからもいくつかのアップデートがありました。GrockはGrock Studioと呼ばれるものをリリースし、コード実行とGoogleドライブのサポートが追加されました。私にとって、Grock StudioはOpenAIのcanvasに非常に似ています。チャットを横に押しやり、右側に新しいウィンドウを開きます。「Grockは現在、ドキュメント、コード、レポート、ブラウザゲームを生成できます」と書かれています。
grock.comにアクセスし、「ブラウザで遊べるスネークゲームを作成して」と依頼して送信すると、チャットは左側に残したまま、右側に新しいコードウィンドウが開きます。完了すると、自動的にこのプレビューモードに切り替わり、スネークゲームが表示され、スネークゲームとして機能するようです。1つのプロンプト、1回の試行だけで。基本的にすべてのモデルが1回の試行でこれを行うことができます。
今、Grockはメモリ機能もロールアウトしました。先週、OpenAIは彼らのメモリ機能をロールアウトし、これによって新しいチャットに追加のコンテキストを提供するために、過去に行ったすべての会話を覚えておくことができます。現在、この機能はGrockでも利用可能です。「Grockは現在、あなたの会話を覚えています。あなたが推奨やアドバイスを求めると、パーソナライズされた応答を得られます。メモリは透明で、Grockが何を知っているのかを正確に確認でき、忘れさせたいことを選ぶことができます。この機能はベータ版で、grock.comで利用可能です。」この機能とそのスタジオ機能の両方がgrock.comで利用可能ですが、X内でGrockをクリックするだけではまだ機能しないようです。
AI動画ニュースに移りましょう。今週、ClingがAI動画生成モデルの新しい2.0バージョンをリリースしました。この2.0モデルで、Cling AIは正式にAI動画生成のための新しいインタラクティブなコンセプト、マルチモーダルビジュアル言語を導入しました。このコンセプトにより、ユーザーはアイデンティティ、外見、スタイル、シーン、アクション、表現、カメラの動きなどの複雑な多次元の創造的アイデアを、画像参照やビデオクリップなどのマルチモーダル情報を統合することで、AIに効率的に伝えることができます。
アクションへの忠実性が向上しました。男性は最初に幸せそうに笑っていましたが、突然激怒してテーブルを叩き、立ち上がります。左はCling 1.6、右が新しいモデルです。カメラの動きへの忠実性も向上し、カメラがこの蜂を追いかけている様子が見られます。連続的なアクションへの忠実性も向上し、りんごの動きを追跡します。ダイナミクスも強化され、より自然な動きの範囲、よりリアルな動きの速度、映画的なビジュアルスタイルの一貫性、劇的な表現が可能になりました。これはかなり大きなアップグレードのようです。
そして、Clingから出てくる本当に印象的なビデオをいくつか見ました。例えば、このジェット機が飛んでいるビデオは驚異的です。パイロットとコックピットに移動し、ジェットの一人称視点に移り、そしてジェットの正面図に移ります。これはすべてこの新しいClingモデルで行われました。本当に本当に印象的です。これはXで見つけたIsaac Rodriguezからのものです。
ここにPJ Aceからの別の本当に印象的なものがあります。砂漠を馬に乗り、火を掲げているネイティブアメリカンのようなものです。そして、色など、すべてが本当に素晴らしく見えます。非常に印象的です。このビデオ全体は1分36秒ですが、確実にリンクを貼っておきますので、全体を確認したい場合は、非常にクールです。
これはBlaine Brownからの私のお気に入りの生成かもしれません。タイタニックのこのシーンを撮影し、最後に彼女を船から投げ落としました。そしてここにElcineからのスレッドがあり、できることをたくさん共有しています。例えば、Clingは現在、任意の映画シーンから任意の俳優を入れ替えることができます。ここではSeveranceのAdam ScottをTaylor Swiftと入れ替えています。これはTom CruiseがSwiftと入れ替えられたように見えますが、100%確かではありません。ここに別のSeveranceがあり、Wonder WomanのGal Gadotと入れ替えられています。そして既存のシーンを撮って別の人と入れ替えるこの能力は本当に印象的です。
また、感情を伝えるのも非常に優れているようです。Pierrickは「顔の表情はCling 2.0のテキストからビデオモデルで本当によく扱われています」と共有し、感情が顔に本当に表現されていることがわかります。
感情について話している間に、Arcads.aiと呼ばれる新しいモデルに出会いました。これはジェスチャーコントロールを導入し、AIの俳優に泣く、笑うなどの特定の表情を生成するようにプロンプトできます。ここではポッドキャスト中に興奮やショックを示すポッドキャスターのような例を示しています。ここでは誰かが笑っています。これはAIで生成されました。ここでは誰かが実際に祝っています。彼らはここにアバターをアップロードし、そのアバターに祝うように指示しました。ここではハートサインをしています。ここでは俳優が悲しんでいます。繰り返しますが、これらはすべてAIで生成されており、示されている感情はプロンプトされた感情です。ここでは俳優が画面の上部を指しています。もはや何が現実か区別できません。
これは広告作成に特化して設計されているようです。Arcadsと呼ばれています。ここで興味深いのは、彼らのFAQで「俳優は実在の人物ですか、それともAI俳優ですか?」と書かれており、「彼らはAI俳優です。彼らが返信するのを待つ必要はありません。しかし、彼らは実在の俳優の画像に基づいています。そのため、彼らに何を言わせるかについては注意する必要があります」と書かれています。つまり、彼らは俳優のAI生成画像ではなく、実際の俳優の実際の画像ですが、AIを使って彼らに何でも言わせたり、様々なジェスチャーをさせたりすることができます。
私はまだこれを自分でテストしていません。なぜなら、最低プランでも10ビデオで月額110ドルかかり、このようなツールを試す前に少なくとも1回の無料トライアルがないものを本当に好みません。過去のビデオでもこれについて何度か話しました。ある種の私の苛立ちの種です。AI ツールの使用に月額100ドル請求したいなら、まずは試用させてから、テストドライブのために支払わせるべきです。それでも、この技術はかなりクールに見えます。もし皆さんが私にこれをテストさせたいと思い、将来のビデオにふさわしいと思うなら、実際に試すためにお金を出すかもしれません。
Luma Dream Machineも今週新機能をロールアウトしました。実際に、このビデオが公開される日に公開されます。それは生成するビデオのカメラアングルを実際に調整する機能です。Luma内のプロンプトボックス内に小さなカメラアイコンがあり、クリックするとスタティック、ハンドヘルド、ズームイン、ズームアウト、左パン、右パン、上チルト、下チルト、プッシュイン、プルアウト、左トラックなど、多くの異なるカメラアングルとショットタイプのオプションがあります。
ここで「視点」を選び、すでに見たビデオで「戦闘機のコックピットからの眺め」を選んでみましょう。これが生成するものを見てみましょう。数分かかりましたが、これが結果です。戦闘機からの一人称視点です。実際の戦闘機よりもダイヤルが多いかもしれませんが、予想通りの一人称視点が得られました。これは初めてこれを使用してみたテストなので、より良いプロンプトとさらなるテストで、はるかに良い出力が得られるでしょう。再び、多くの遊びがあります。
あと数点、急いで共有したいことがあります。Crisp というツールは、背景ノイズを取り除き、オーディオを良くするためのツールとして知られていましたが、現在は実際にアクセントを取り除くのに役立つ機能があります。コールセンターがインドの人をテキサス訛りのように聞こえるようにすることができます。
彼らが共有した例:「Crispアクセント変換が登場します。ボイス保存モードの動作をお見せします。このモードは私のオリジナルの声を保ちながら、アクセントの難しい部分を柔らかくします。」だから、セールスコールを受けると、それが自分と同じ国から来ているかどうか実際には分からなくなります。
Netflixは、ショーや映画をより良く推薦するための新しいAI検索エンジンをテスト中です。この新しい検索エンジンはOpenAIを活用しています。視聴者の気分などに基づいて、より具体的な用語でショーを検索できるようになるようです。オーストラリアとニュージーランドで最初にロールアウトされ、iOSデバイスでのみ利用可能ですが、すぐに米国を含むより多くの市場に拡大する予定です。
また、Metaより先に本物のARグラスを世界に提供することがTim Cookの使命でもあるようです。MetaはOrionグラスを発表し、Ray-Ban Metaも持っています。また、Ray-Ban Metaの新バージョンが、ヘッドアップディスプレイを搭載して登場するという話もあります。うわさによると、Tim CookはMetaが実際に発表する前に、同様のフォームファクターを持つ何かを世界に出したいと考えているようです。
最後に、同様の線で、TED Talksの中でGoogleは新しいグラスを紹介しました。これは実際に数ヶ月前にロンドンのGoogle DeepMineで実際にデモを体験したグラスで、本当に印象的です。
このデモをご覧ください:「少し前に棚をちらっと見たかもしれませんが、私は注意を払っていませんでした。Geminiが捕らえたかどうか見てみましょう。『私の後ろの棚にあった白い本のタイトルを覚えていますか?』 『白い本はJames Clearの「Atomic Habits」です』 それは絶対に正解です! ホテルのキーカードをよく失くすのですが、最後にカードをどこに置いたか知っていますか? 『ホテルのキーカードは音楽レコードの右側にあります』 そうですね。これは私のバンクーバー初訪問で、散歩が好きです。海の景色がある近くの公園へナビゲートしてくれませんか? 『ライトハウスパークへのナビゲーションを開始します。太平洋の素晴らしい景色があります。他に何かお手伝いできることはありますか?』 正直に言うと、これらの道順と3Dマップがあれば大丈夫です。うまくいけば観光客には見えないでしょう」
繰り返しますが、私は実際にこれらのグラスを試しました。あまり話すことを許されず、秘密厳守でした。しかし、翻訳などの機能もあります。誰かがあなたに話しかけると、自動的に翻訳してくれます。異なる言語の看板を見ると、英語で何と書かれているかを教えてくれます。そしてビデオで見られたような小さなヘッドアップディスプレイがあり、画面に小さな地図が表示されます。それはテキストも表示できるので、何かを翻訳したい場合は、目の前にテキストを置くこともできます。本当に印象的な技術でした。繰り返しますが、Ray-Ban Metaと同様の、人々が実際に身につけたいと思うフォームファクターです。
これらがいつ世界に出回るかは正確にはわかりません。来月にGoogle IOが開催されますので、これらのグラスがいつ公開される可能性があるかについての詳細情報が得られることを願っています。
以上が今日のお伝えすることです。今週のAI界での出来事について、より詳しく理解していただけたと思います。最新情報を得続けたい場合は、このビデオに「いいね」を押し、このチャンネルを購読してください。AIの世界での最新アップデートやチュートリアルを常に発信しています。さまざまなAIの専門家、CEOや有識者とのインタビューも準備中であり、とても楽しみです。そのような内容のためにもチャンネル登録をお願いします。
また、まだ確認していない方はfuturetools.ioをチェックしてください。ここは私が発見したクールなAIツールをキュレーションしているウェブサイトです。毎日ニュースを共有しています。最新のAIニュースをリアルタイムで知りたい場合は、すべてここにあります。そして、週に2回だけ最も重要なAIニュースと出会った最もクールなツールをメールでお知らせする無料のAIニュースレターがあります。完全に無料で、登録するとAI収入データベースへのアクセス権が得られます。これは様々なAIツールを使用した副収入を生み出すクールな方法のデータベースです。再び、すべて無料でfuturetools.ioで見つけることができます。
視聴していただきありがとうございます。このビデオのスポンサーとなったHostingerに感謝します。本当に感謝しています。今週は楽しくオタク的な時間を過ごしました。次回のビデオでまたお会いしましょう。


コメント