
9,854 文字

皆さん、今朝たくさんニュースが出たので「ちょっとトイレに行っても大丈夫だろう、午後には何も新しいことはないだろう」と思った方、間違いでした。今朝の動画で予測した通り、おそらくO3とO4がリリースされるだろうと言っていましたが、その通りになりました。私たちは人工知能の時代、人類にとって最も重要な時代に突入しています。私たちが知っている世界は、人間の知性と機械の知性の両方によって完全に変革されるのです。この点について少し議論し、これから登場する新機能について理解していきましょう。
いつも「いいね」をしてくれる皆さん、登録してくれる皆さん、ありがとうございます。特に、このAIチャンネルを支援してくれるメンバーの皆さんに特別な感謝を。メンバーは知的エージェントに関する動画や先行公開動画にアクセスできることを覚えておいてください。実際、今回の新機能を受けて、高度なレベルのエージェントに関する特別動画を計画しています。なぜなら、事態は今や非常に深刻になってきたからです。
さて、今日のニュースに移りましょう。2025年4月16日に何が起きているのか見てください。こんな風に動画を始めることは普段ないのですが、それはこの日が非常に重要になるからです。OpenAIが、非常に高度な推論モデルであるO3モデルとO4 miniモデルをリリースしています。なぜこのリリースが今までの全てのリリースよりも重要なのでしょうか?
今、私たちは非常に効率的な長い推論を行う知的エージェントについて話しています。彼らは科学研究を行い、画像を理解し、ウェブカメラを使ったり、ウェブ検索をしたり、コードを実行したりするなどのツールを使用することができ、それらを全て自分の推論をしながら行うことができます。これは単に以前のモデルが行っていたことをより効率的に行うだけではありません。より効率的にかつ安価に、科学の進歩を可能にし、学校でも大学でも仕事でも、さらには日常生活でさえも、知的レベルを向上させることができます。
今やChatGPTのメモリ機能と統合することで、あなたの好みやChatと会話したことに基づいて高度な推論を行うことができるようになりました。本当に状況は深刻になってきています。
以前から、将来的には知的な不平等が大きくなり、その知的不平等は非常に裕福な人に似たようなものになるだろうと話していました。そして明らかに、私たちはその方向に向かっています。
それでは、彼らが何をもたらしたのか、このプレゼンテーションで何が起きているのかを見ていきましょう。ここではGreg Brockmanも登場していますが、彼は最初に退社して後に戻ってきた人物の一人です。Sam Altmanととても似ています。
ここでは二人の研究者がいて、彼らはO3を使って行っている研究を紹介しています。常に忘れてはならないのは、このモデルは画像とツールにアクセスでき、それが大きな違いだということです。
この最初の例では、研究者が2015年に作成した論文のスクリーンショットを送り、「これは2015年に投稿した内容のスクリーンショットです。私のプロジェクトは陽子の等ベクトルのスカラー荷電を推定するためのものでした」と言っています。私はこれが何なのか全く分かりません。彼はこの画像(ポスター)を時間内に完成させることができず、最終的な結果を決定するよう頼んでいます。さらに、2015年に行った研究を比較するために、このテーマに関する最新情報をウェブで検索するよう頼んでいます。
AIは推論を始めます。彼はChatGPT O3という新しいモデルを使用しています。このモデルが行っていることは、ドキュメントを見て、特定の領域をより詳細に、より正確に見るためにズームを使っています。これは重要なポイントです。単に巨大な画像を見て回答しているわけではなく、より重要な部分を見て、特定の領域にズームインしています。
「私は研究結果をそこに置いていたのに気づかなかった」と彼は言い、AIはそれに気づいたと答えています。さらに、AIは彼のポスターを分析し、グラフを見て推論し、画像を分析し、すべてを人間のように確認して、見ているものが意味をなすかどうかを検証しています。
最後にAIはインターネット検索を行って、参考文献を探しています。なぜなら彼がそれを頼んだからです。そして少し皮肉な返答をします:「あなたの研究は素晴らしいですが、すでに時代遅れです。あなたが取り組んでいる分野で進展を示す他の情報源を見つけました。残念ながら、あなたの論文はもはや最先端の論文ではありません。」
そしてOpenAIのリーダー研究者が彼に尋ねます:「もし今AIがあなたのためにしている同じレビューを自分でやらなければならないとしたら?」彼は答えます:「それは非常に時間がかかるでしょう。特に2015年に自分が何をしたのかを理解し直し、それからやっと文献検索をして自分が言っていることがまだ意味をなすのか確認し、最後に同じ結果について話している新しいものがあるかどうか確認する必要があるからです。」AIはすでにそれをすべて行い、何が起きているかを示しました。これは単に驚異的です。
あなたが知りたいことがあり、AIと会話を始めると、AIがあなたよりも多くのことを知っているとしたらどうでしょう?そのため、多くの人が「人々は仕事を失うのか、彼らには何もすることがなくなるのか?」と質問してきますが、私は仕事を失う可能性は非常に低いと思います。これらのツールは実際、良い質問をして良い回答を得るために、私たちがより賢くなる必要があることを意味しています。AIが言っていることをより良く評価できる人々、そのような人々こそが際立つでしょう。
OpenAIの動画の直後に現れたコメントはこれです:「はい、そうです。もう何が起きているのか理解できません。これらの指示は私にとって非常に複雑です。」なぜなら、本当に今や事態は高度なレベルになったからです。
例えば、「私はスーパー科学者ではないけど、このような知性を活用するために何ができるだろう?」と疑問に思うかもしれません。ビジネスでも、小さな市場や小さなパン屋さんを持っているなら、ビジネスの運営についてAIに助けを求めることができます。AIがあなたの問題を解決するわけではありませんが、行動の状態に入れてくれて、考えさせてくれます。
彼らが話している2番目の例はもっと日常的なものです。研究者は「私について知っていることに基づいて」と言っています。なぜなら今やChatGPTでは、AIがあなたの会話を見ることができる機能を有効にして、会話履歴に基づいて自分自身についてAIに質問することができるからです。
「私について知っていることに基づいて、ニュースを読んで、私が最近示した二つの興味に基づいて、私にとって関連性があり、おそらく私がまだ知らない新しいことを教えてください。興味深い統計やグラフも含めてもいいです。あなたが見つけたことで私のブログにポストするための下書きを書いてください」と彼は続けます。
AIは機能し始め、彼のメモリを観察し、ウェブで検索を行い、ある時点で見つけたことを示し始めます。そしてそれは、水中の音波がサンゴの回復を速めているという、この男性の興味に非常に特化した話題です。彼はコメントします:「この情報は知っていましたが、これは本当に良いことです。なぜならこの情報は良く、これは私が非常に興味を持っていることだからです。」
つまり、ツールを使用するAIは、個人的にあなたを助けることもできるのです。「私はスーパー科学者ではないし、超賢い人間でもないから、もう私の人生は終わりで、パルメイラスがワールドカップを持っているかどうかをChatGPTに聞くだけになるのかな」と思う代わりに、あなたは「キャリアを向上させるにはどうすればよいか、将来もっとお金を稼ぐにはどうすればよいか、社会をより良くするために何ができるか」といった質問もできます。そして、スーパーインテリジェンスとのシンプルな会話が、世界中で起きていることや科学論文、研究、重要で関連性のある情報につながる提案を見つけ、より高度なレベルへと導くかもしれません。
続いて、彼らはこれらのモデルがテストや試験でどのような成績を上げているかについて話し始めます。それは単純に非常にクレイジーです。これらのテストは簡単なテストではなく、極めて複雑で難しいテストです。ここの2025年のAimコンペティションでは、O4 MiniがPythonをツールとして使用するだけで、テストの99.5%を正解しました。これが何を意味するか理解していますか?難しいテストをAIに解かせて99.5%正解するというのは、平均をはるかに上回っています。
何度も言ってきましたが、繰り返す価値があります。ここでの98%、88%、99%、92%というパフォーマンスは、AIがすでに平均的な人間をはるかに上回っていることを示しています。Code Forcesという最も難しいコンペティションの一つでは、以前のモデルA1 OneとA3 Miniと比較して、新しいO3モデルと新しいO4 Miniは2700ポイントという結果を出しており、これは以前のモデルよりもはるかに高いです。
科学の質問でも同様で、ツールを使用せずに83%、81%の正解率を記録しています。そして彼らはこう説明します:「AIはどのように機能するのか、どのように科学の問題を解決するのか?」
そして彼らは、図が非常にシンプルな古典的な数学の問題を紹介します。特定の状況が発生する可能性がいくつあるかを知るために順列を作る必要があります。AIはこの特定の問題を解決しようとするとき、何をし始めるのかを示しています。
非常に興味深いのは、AIが総当たり法(力任せの解決法)を提案することです。コンピューティングの分野ではこれは、可能なすべての可能性をテストすることを意味します。このケースでは問題の規模が小さいので、この解決法を提案することができるわけです。
AIは概念的には正しいが非常に非効率的なfor文を作成します。しかし、自分が総当たり法の解決策を作ったことに気づき、結果を見つけたことを認識し、より効率的な第二の解決策を自ら提案します。今度は改良されたコードで同じ目標を達成します。
研究者はさらにコメントします:「私たちはそのように訓練していません。この行動は学習した情報から自然に現れました。あなたが何かを尋ねると、AIは答え、自然に自分の答えを改善します。」これは研究の観点から非常に興味深いことです。
スケール法則について話している人々、つまり現在存在するものの技術を変えることなく、より多くの計算、より多くのメモリ、より多くのニューロンで単純に容量を増やすことで、AIがスーパーインテリジェンスになると信じている人々は、創発的なものが現れ始め、知性がこれらの能力の増加から自然に生まれ始めるという原則に基づいています。そしてそれはすでに起こっています。
最初の頃、スケールを増やすことが解決策になるとは信じていなかった人々がいましたが、それはすでに解決されました。GPT-3がその証拠であり、今や私たちは推論モデルにいます。
最終的にAIは解決策を提示し、何をしたのかを説明します。私はこの回答を理解できません。私はコメントした人と同じレベルで、もう理解できません。しかし、私はこれについて恐れることはありません。なぜなら、時に私たちが最初に見ただけでは理解できない知識は、単に初めて見ているからであり、その分野の人はすでに理解しているからです。AIが全く知らないことを吸収して一貫した回答を与える速度は超人的です。一度でもこれを理解してください。
例えば「AIは知的でもなく人工的でもなく、単なる数学や統計に過ぎない」と批判する人がいるなら、一瞬考えてみてください。AIが持つ幻覚の限界や推論の問題があっても、このような問題を読んで解決策を提示するのにかかる時間は超人的です。こんなに速く効率的に、こんなに広範な分野でこのような回答を出せる人間はいません。あなたが非常に得意な分野では何か些細なことに素早く答えられるかもしれませんが、これらのモデルが支配できる深さと量の分野を支配できる人間はいません。
コードのベンチマークでも同様に、以前のモデルOne highとO3 mini highと比較して、このバージョンのO3 highとO4 miniは、コードやコード編集において非常に高いパフォーマンスを発揮しています。O4 mini highは少し劣りますが、それでも以前のモデルよりも優れています。
ここでは、SW Lancerというベンチマークで、フリーランサーとして稼げるドル額を評価しています。基本的には、エクササイズを解決するにつれて、その解決策には特定のドル額が支払われるというものです。ここではO3が$65,000を獲得し、O4が$56,000を獲得しました。チャットボットに一つの質問をするだけでこれだけのお金が稼げるなら、それは素晴らしいと思います。私たちが今話しているレベルの事柄を理解してください。高度に知的なプロセスを機械的に行うために自動化されたAIを配置するのは非常にクレイジーです。
この別のケースでは、研究者は自分が解決に苦労している問題を示し、AIにコードが何故うまく動作しないのか、何が間違っているのかを理解するよう求めています。AIがまず行うのは、研究者が間違っていると言ったことが本当に間違っているかどうかを確認することです。AIは研究者のプログラムを取り、計算をやり直し、「はい、確かにここにエラーがあります」と確認します。
そして、AIはライブラリ内で他の可能な解決策を探し始め、期待される答えが正しくないことがわかっているので、そのエラーが発生している理由を見つけようとします。ある時点で、AIは何が起こっているかを単純に見つけ、すべての検証を行い、エラーを特定し、そのエラーを解決するための解決策を実装し、研究者は単に座って観察しているだけで、実際には何もしていません。
一部の人々はこれを怠惰と呼びますが、他の人々はこれを賢さや知性と呼びます。このモデルがマルチモーダルであり、視覚的なもの、視覚的なものでも作業することが興味深いです。彼らは視覚的な数学、視覚的なものを使用した科学など、視覚的に解釈されなければならないグラフや表などの一連のテストを行っています。
ここでも、ベンチマークはすべて非常にクレイジーで80%以上です。彼らが出した最悪のベンチマークでも75%、72%の正解率です。これらは通常の人間が達成できない値です。しかし、視覚的なベンチマークでは95%、94%という驚異的な数字を出しており、これは私たちが想像もつかないほどの視覚的理解力です。
人間の専門家レベルの最後のテストでは、AIが人間レベルのテストを支配し始めたことに気づいたときに作成されたテストですが、8%から13%の正解率から14%から24%のレベルに上昇しました。Deep Researchにのみ負けています。それは本当に深い研究で、通常よりもはるかに多くの時間を費やして回答を作成します。
O3モデルは単に素晴らしく、20%から24%、O4 Miniは14%から17%で、ツールを使用するかどうかによります。価格に関しては、以前のモデルと非常に似ていますが、はるかに賢くなっています。興味深いことに、モデルの価格はそれほど上がっていませんが、彼らが持つ能力と回答の質はすべてのケースで上昇しています。これは単に信じられないことです。
テストによっては、彼らは単によりよい回答を与え、例えばAED 2025とGPAテストでは、回答の質が高いのに大幅なコスト削減があったなど、絶対的に少ない費用で済んでいます。
O1モデルとO3モデルに関して彼らが示している最も興味深いことの一つは、回答の質が一定のように上昇しているということです。O3モデルはO1モデルの継続であり、計算時間を増やすと知性が直線のように上昇し続けます。その直線は若干傾斜しており、指数関数のように見えますが、その指数関数は非常に微妙です。
これが指数関数であるなら、この線の次の部分で何が起こるかを想像できます。それは上昇し続け、ますます加速し始めるでしょう。これはスケール法則が非常に正しいかもしれないことを示しています。
最後に、彼らはCodexのチームを招き、オープンソースコードの部分を持ち込み、人々がこれらのソリューションを家に持ち込み始めることができるようにコードを提供しました。彼らはここで、ある人がO3 Miniを使って解決した問題を紹介しました。それは画像を取り、それをASCIIコードに変換するというものでした。画像をピリオドやカンマ、文字A、文字Bなどに変換すると、その画像は実際の画像のように見えますが、実際には多くの文字やテキストです。
彼はその画像のスクリーンショットを取りました。作者はここでO3と言っていますが、実際にはO3 Miniです。なぜならO3はまだリリースされていなかったからです。彼は自分のプラットフォームに入り、CodexのコードをここでO3 Miniと実行し、その画像をAIに送り、彼らは何をしてほしいかを説明し始めます。
そして研究者は「ウェブカムを使用して、ASCIIコードを使用したビデオを作るために、同じレベルの統合を行ってください」と言います。そしてモデルは考え、処理を始め、ある時点でカメラを開きます。カメラはASCIIコードのように表示され、テキストが画像を例示しており、彼らが撮影され、カメラがすべてをASCIIコードで表示しています。これは単に信じられないことです。
そして「でもBob、これはいつ解放されるの?」と聞くかもしれません。来年ではなく、有料アカウントではすでに解放されています。O3はここにあり、O4 Miniもここにあります。私たちは今からこれらすべてを使用することができます。まだ無料プランでは利用できないので、PlusプランかProプラン以上が必要です。まだあなたに表示されていない場合は、すぐに表示されるでしょう。
APIでこれを使用する価格はいくらですか?実際、これはかなりアクセスしやすい価格です。まったく法外に高くなく、非常に価値があります。このものが1100万トークンあたり$11.100で見たとき、私はほとんど椅子から落ちそうになりました。しかし落ち着いてください、そういうわけではありません。
A4がこれらの価格で表示されている理由はわかりませんが、この値を見たとき、私は何も理解できませんでした。価格は非常に安く、このスーパーインテリジェンスに対して非常に妥当です。O3は入力で100万トークンあたり$10、出力で100万トークンあたり$40です。
O4 Miniを見たとき、100万トークンあたり$11.100、出力で100万トークンあたり$4,400となっていました。「これは可能じゃない、非常に高い」と思いました。しかしキャッシュが0.275だったので、「なぜこの法外な値なのか?」と思いました。詳細な価格がここにあるので、他のテーブルを見て何が起こっているか見てみましょう。
ここでは$1.10であり、$1100ではありません。ここでは$4.40であり、$4400ではありません。ありがたいことに、これを見たときにほとんど心臓発作を起こすところでした。しかし真実はこれです。A4 Miniは非常に安価で、だからこそ私たちが使用できるのです。そうでなければ利用できないでしょう。
これは複雑でしたね。ここで作業を始めたい場合、Open AI Codex CLIのオープンソースコードがここにあります。アクセスしてダウンロードすれば、チームがデモンストレーションしたプログラムを使用できます。非常に近い将来、これよりも見栄えの良いインターフェースのバージョンができるでしょうが、それは時間の問題です。
今日起きた興味深いことの一つは、Sergio Sacaniが「あなたはずっとChatGPTを間違って使っていた」というクリップを出していたことです。このクリップでは、ChatGPT、人間、すべてのこのテクノロジーについて話しています。Sacaniが共有した例は非常に興味深いものでした。彼は現在、科学分野で最もカリスマ性のある人物の一人で、関連情報を人々に伝えることができます。彼が人工知能について話し、人間について話し、自分の生活でこれらのAIモデルをどのように使用しているかを語っているという単純な事実は非常に刺激的で、これらのツールが本当に革命的であることを私たちに認識させます。
このインタビューで彼らが話していることの一つは、Proモデルが無料モデルよりもはるかに高度であり、20ドルのPlusモデルよりも高度であると言っていることです。そして興味深いことに、私が本当に知らなかったもっと高度なモデルが実際に存在します。ここに3月19日のOne Proと呼ばれる特定のモデルがあり、使用したい場合は、これが有料アカウントで使用されるモデルです。有料アカウントはプレビューを使用しないので、これらのモデルを使用する際にはこれらの詳細に十分注意する必要があります。
ここで少なくとも一つのテストを行わずに終わらないようにしましょう。ここに私たちの最も高度な知性モデルであるO3を置きましょう。インターネットで人工知能のトレーニンググラフを探します。これはAIをトレーニングするときのAIのエラーを分析する典型的なグラフです。これはTensorboardのグラフです。GPT O3に送り、「これは何を示しているのか、このグラフは何について話しているのか」と尋ねましょう。
これが私たちが初めてO3モデルを使用する瞬間です。彼が持っているグラフィカルツールをテストしています。人工知能という難しいテーマを置いています。そして私のAIはミナス・ジェライス州の人のように「さあ、このテンサーボードのグラフを分析しましょう」と答え始めます。そして、累積報酬、エピソードごとの報酬の合計などのメトリクスを説明し始めます。彼女はすべてを説明し、解釈しています。曲線は急速に上昇し、その後安定します。彼女は何が起こっているかを解釈し始めます。
曲線が急速に上昇し、その後安定したというのは、AIをトレーニングする典型的な結果です。彼女は最小化しようとしている損失を評価し始めます。そして彼女はここで政策の損失が強調されていないことを指摘し、政策の更新、ネットワークのスコアリングが安定していることを示しています。だから彼女はここで非常に技術的なレベルで技術的なことを説明しており、あたかもミナス・ジェライス州の人が話しているかのようで、最後には「何か質問があれば準備ができています」と言って終わります。
皆さん、私はあなたたちが理解していることを願っています。メッセージを受け取ったことを願っています。なぜなら今や事態はクレイジーになったからです。この人工知能の世界で何が起こるか見ていきましょう。私たちは地球上で最も驚異的な知性の時代に入りつつあります。私はこのことについて特に動画を作ることも考えていますが、今、事態は深刻になり、これから先は、ツールをどう使いこなすかがインテリジェンスの鍵となります。
私たちがこの変化を自分の目で見ることになるとは、誰が想像したでしょうか。人類は過渡期にあります。2025年は新世代の幕開けです。今から始まる時代の始まりなのです。エージェントの年、ADIの年です。
このようなビデオをこれからも見続けたいなら、チャンネルをサポートしてメンバーになってください。メンバーは知的エージェントの独占動画と先行公開動画にアクセスできます。ぜひ「いいね」をお願いします。ありがとう!


コメント