AIの見出しを読み間違えない方法(新オリンピック金メダル、GPT-5…を含む)

AIベンチマーク
この記事は約13分で読めます。

この動画では、OpenAIの秘密の大規模言語モデルが国際数学オリンピックで金メダルを獲得したという見出しに対する9つの誤読パターンについて詳細に解説している。AI専門家が、この成果の真の意味とその限界、そして白サラリー職への実際の影響について、冷静かつ批判的な視点から分析を行っている。

How Not to Read a Headline on AI (ft. new Olympiad Gold, GPT-5 …)
GPT-5 did what? OpenAI ahead of Google? There are 9 ways to misread the headlines of the last 48 hours, so this video is...

AIの見出しを読み間違えるな

ほぼ500万人の人が48時間前にこの見出しを見たんや。OpenAIが国際数学オリンピックで金メダルを取った秘密の大規模言語モデルを持ってるってやつな。けどな、この見出しを読み間違える方法が9つもあるんや。

まず1つ目、これでAIが最高の数学者と同じくらい良くなったから、彼らの仕事を奪うかもしれへんってことや。

国際数学オリンピード(IMO)は確かに極めて難しいけど、人間の専門家が書いた問題が含まれてるんや。まだ誰も答えを知らん問題やないねん。高校生の競技者で何らかのメダルを取ったり、競技に出場資格を得たりする子らには本当に敬服するで。けど、昨日UCLの数学教授が言うてたように、数学の研究っちゅうのは、まだ誰も解き方を知らん問題を解くことなんや。

これには相当な創造性が必要や。OpenAIのIMO解答には明らかにそれが欠けとるねん。OpenAIのモデルは、どうやら年末頃に出るらしいけど、最も創造性を要求される最難問の正しい証明は見つけられへんかったんや。ちなみにこれは、若い人間の参加者の結構な数とは対照的やで。モデルは問題1から5までは正解したんや。

これは滅茶苦茶すごいことやし、金メダルには十分やで。けど見出しの2つ目の読み間違いや。これでOpenAIが今やAIの、もしくは数学用言語モデルの分野でリードしてるってことやな。

実際のところ、Googleの努力がIMOでどんな結果を出したかは分からんのや。この教授が聞いた話では、Google DeepMindも金メダルを取ったけど、まだ発表してへんらしいねん。

来週には分かるらしいけど、Google DeepMindが問題6を正解したかどうかな。OpenAIがGoogleより先に発表して見出しを独占するために急いで発表したんかもしれんな。Google DeepMindの数学AI研究者の一人で、18ヶ月前に俺が議論した有名な、まあ俺には有名な、Alpha Geometryシステムのリードやった人がこのツイートをリツイートしたんや。

どうやらAI組織には結果を1週間報告せんように言われてたらしい。人間の祝賀に場を譲るためにな。残念ながら、OpenAIのNoam BrownがこのメッセージがなぜかOpenAIに届かんかったって言うとる。もしかしたら彼らに伝えられへんかったのかもしれん。分からんけど、これでなぜまだGoogle DeepMindの結果が出てないか説明がつく。7月28日に出る予定やし、Harmonicっていう会社からの結果も他にあるらしいねん。

白サラリー職への影響

3つ目の金メダル見出しの読み間違いは、これら全てがAIがエントリーレベルの白サラリー職を減らすかどうかには関係ないってことや。正直言って俺は反対や。関係あると思うで。OpenAIの新しい秘密モデルのリードの一人、Jerry Chuarek(発音合ってるかな)が明かしたところによると、これは数学に特化してなくて、OpenAIの他の提供サービスの大部分を動かすのに使われてる同じ研究技術を使ってるねん。

これは聞こえる以上に大きなニュースや。なぜなら、この秘密モデルは数学用途に最適化するためのツールや特殊なファインチューニングを使ってへんかったからや。ライバル研究所のOpenAIの主要な批判者の一人で、自身もIMO金メダリストやった人でさえ、この結果が純粋な言語モデルで達成されたのは印象的やったって認めたんや。

彼が言うには、これが特殊化なしの一般的推論訓練を示すものやったら、それは意義深いってことや。けど、まだ多くの人が「いや、これは全然関係ない」って言うやろな。せやけど最強の論拠を示してみるで。覚えといてほしいのは、OpenAI内のこの強化学習システムが、最近見出しでも見たかもしれん汎用コンピュータ使用エージェントを担当してたのと同じシステムやってことや。

今からクリップを再生するで。もうすぐ全てのPlusユーザーに展開される予定やからな。ウェブを閲覧して、深い研究をしてくれるシステムや。何百万人もの人がOpenAIのエージェントモードの見出しを見たんや。自分の仮想コンピュータを起動して、マウスを操作して、ブラウザを視覚的にナビゲートできるやつな。確かにそのエージェントはちょっと不安定やけど、同じ研究者が明かしたところによると、エージェントモードシステムはIMOで例外的な成績を上げたのと同じシステムの初期版なんや。

より制限されたエージェントモードは古いベースモデルを使ってるけど、様々な実世界分野で人間のベースラインに近づいてるんや。これが俺がこの見出しが白サラリー職への影響と無関係やないって言う意味なんや。数日前にリリースされたエージェントモードは、繰り返すけど、IMO金メダル獲得エージェントと同じファミリーで、オンデマンド緊急医療提供者の競争分析の準備や、新しいグリーン水素施設のための実行可能な井戸の特定といった実世界の専門的作業でテストされたんや。

青い棒に注目してくれ。これがChatGPTエージェント対人間の勝率やからな。見ての通り、様々なタスクで50%の勝率に近づいてる。これがChatGPTエージェントやったら、年末に出るモデルはどうなるんやって、言うまでもないやろ。急にIMO競技で大部分の人間参加者を上回るモデルがそんなに無関係に見えへんくなるやろ。

それからデータサイエンスタスクがあるんや。OpenAIは実際に大部分の人間パフォーマーより優れたシステムを持ってるって主張してる。強調すべきは「大部分の」パフォーマーってとこや。覚えといてほしいのは、これらの問題は人間の専門家によって設計されたってことや。だから定義上、これらの問題を楽々正解できる人間が必ずいるはずやねん。

スプレッドシートの記入や編集、スプレッドシートベンチの場合なんかより白サラリーなことってあるか?この場合、見ての通り、平均的な人間のパフォーマンスはまだChatGPTエージェントより遥かに優秀や。けど年末に出るモデルがスプレッドシートベンチで75%や80%を取るかもしれんって推測するのは、この時点でほとんど推測の域を出てないで。

明らかに言えることは、スプレッドシートの専門家は確実にこれらのツールを使って生産性を向上させるってことや。それは本当やけど、その時点でエントリーレベルのヘルパーを雇うインセンティブがどうなるかって疑問が湧くねん。エントリーレベルの人間の白サラリー労働者がもうシステムを補完できへんようになったら、それが本当にデータに現れ始めるかもしれへんな。

白サラリー職完全排除への疑問

見出しが白サラリー職を完全に排除することに実際に近づいてるって意味やと思うのはどうやろか?論理としては、IMOで金メダルを取れるなら、全てにおいて俺たちより優秀やないかってことになる。これが多くの人が見出しを読み間違える4つ目の方法や。国際数学オリンピックで金メダルを取るなら、実際に白サラリー職を排除するのにかなり近いってことやな。

ChatGPTエージェントのような最新システムの42ページのシステムカードを読んだことがあるなら(正直、誰がその42ページのシステムカードを読んでへんねん)、数学の天才と同じ技術を再び使ったこれらの新しいエージェントの幻覚率が上がったのが分かるやろ。繰り返すけど、OpenAI研究者の言葉によると、同じ単一の強化学習システムがChatGPTエージェント内で単純なQAでより高い幻覚を生み出したんや。これは幻覚を測る一つのベンチマークで、ブラウジング付きの03システムと比べて約4%の低下が見られる。

同様に、幻覚の別の測定であるperson QAでは、OpenAIが実際にはWikipediaが間違ったことを書くことが多いって注意書きを加えたことに注目すべきや。だからそのデータにはノイズがあるかもしれん。モデルの訓練に使われたのと同じデータやけど、それは別の議論やな。

ChatGPTエージェントが金融口座の送金といったハイステークスな金融タスクをすることを拒否するかどうかをテストするように設計された評価では、エージェントモードは前の40や03オペレーターより悪かったんや。言い換えると、非常にリスクの高いことをやろうとする可能性が高いってことや。そしてそれが新システムで事態が混乱する可能性がある唯一のハイステーク設定やないねん。

OpenAIはChatGPTエージェントが生物兵器を作れるかどうか、少なくともその能力に関するスキルを一つ持ってるかどうかを本質的にテストしてたんや。ChatGPTエージェントはバイオデザインツールをインストールしたり実行したりできへんかった。けどそれは大したことやない。けどここからが悪くなるねん。ChatGPTエージェントは代替スクリプトを研究して書いたんや。それからそれらのスクリプトの出力を本物のツール結果として誤って伝えたんや。

この目的でそれを使うテロリストは滅茶苦茶怒るやろな。けど真面目な話、これらは全てIMO金メダルなんかで聞く新しいブレークスルー結果の重要な文脈なんや。俺の意見では、言語モデルの最良の答えが以前より良くなったとしても、幻覚する最低点で言語モデルを使えへんなら、最高の状態でも使えへんかもしれん。

だから俺はエントリーレベルの仕事に重大な影響があると予想してるけど、白サラリー職を排除するのとは程遠いねん。ちなみにその予測は、言語モデルを使って暫定証明の既知部分を検索することで生産性を向上させる数学者が増えてるのを見てるって言った数学教授の意見とも一致してる。

もちろん、もう一つの大きなプラスは、分野への若い参入者がこの種のツールを使ってより迅速に専門レベルに上がれることや。人間の仕事を離れる前に、今日応募できる本物の仕事について一言。このビデオのスポンサーは80,000 hoursや。前にも彼らのポッドキャストやYouTubeチャンネルについて言及したけど、プラスの影響でフィルタリングされた何百もの仕事があるジョブボードのリンクが説明欄にあるって簡単に思い出させてもらうで。

ページを更新するけど、前回これについて話した時に言わへんかったのは、これらの仕事は世界中にあるってことや。例えばパリに注目してくれ。もしこれに興味があるなら、説明欄のリンクを使ってもらえたら最高やで。

進歩の停滞説への反論

OpenAI見出しを読み間違えない5つ目の方法や。Twitterでその見出しを見て「いや、全部誇大宣伝や。AIモデルは実際に停滞してる」って言うたかもしれん。Grok 4みたいな最新モデルが国際数学オリンピックでどうやったかに失望して、ほぼ50万インプレッションを獲得した機械学習研究者にそれを言うてみ。

彼らが発見したのは、テストしたモデルの中ではGemini 2.5 Proが最高やったけど、Grok 4は特に悪かったってことや。俺は自分のベンチマークであるSimple Benchを、Grok 4が純粋にベンチマークハッキングをしてるわけやなくて、AIには本物の進歩がたくさんあるっていう証拠の一形態として指摘できるで。

結局、俺はこのベンチマークを人間のパフォーマンスとモデルのパフォーマンスの間のギャップを暴くために作ったんや。それでもそのギャップは急速に縮んでる。おそらく近いうちにSimple Bench V2ができるやろな。そうそう、俺たちはGemini みたいなモデルのベンチマーキングに取り組んでるで。信じてくれ、取り組んでるから。とにかく、その研究者のRavid Schwarzでさえ、「よくやったな、Noam」って言わなあかんかったんや。

OpenAIのNoam Brown、よくやったな。その譲歩の後でも、まだ全てのAI進歩は誇大宣伝やと思うなら、ビデオの最後まで待ってくれ。ちなみに義務的な言及やけど、少なくとも俺にとっては、AIが今年IMOで金メダルを取るって予想してたんや。その引用が見つからん。数ヶ月前やったと思う。誰かその引用を見つけてくれるかもしれんな。

研究の透明性問題

6つ目の潜在的な読み間違い。もっと信頼できる人の中には、見出しを方法論について全て学べる査読済み研究論文についてのものって読み間違いする人もいるかもしれん。結局、これは重要な研究でOpenAIの汎用知能(AGI)への主要な推進の一部やからな。

いいや、全く逆や。俺たちは2022年頃のフロンティア研究所からの査読済み論文から、2024年までのウェブサイト投稿を経て、今や午前3時のTwitterスレッドになってしまった。このIMOの成果について信じられないほど多くの未知数が残されてるねん。IQで世界最高の頭脳を持つTerrence Taoが言うには、結果がどう達成されたかには様々な未知数があって、それぞれが結果をもう少し好意的や、あんまり好意的やない光で見せるかもしれんって。

彼と一緒の主要な疑問は、モデルが複数回の試行を提出したかってことや。ちなみにこれは人間の参加者には許可されてることやで。Neel Nandaは再びもっと微妙なハックについて尋ねてるけど、俺たちには分からん。これで俺たちは、俺も含めて、曖昧で難解なツイートの行間を読まなあかんことになってる。

けど俺が言えるのは、一つの重要な技術は推論をより長く実行させることのようやってことや。つまり、より長い思考の連鎖を出力するようにモデルを訓練するってことや。再びNoam Brownによると、このモデルは長時間、何時間も考えるねん。そして彼はそのテスト時間計算と効率性をさらに押し進める余地がたくさんあるって言ってる。

競技中にどれだけの計算が使われたか?分からん。そんな推論が一般ユーザーにどれだけのコストがかかるか?これも分からん。けどそれはChatGPTの月額2,000ドルの価格帯が本当に来ることを示唆してるようや。俺にとって、そして見てる人の何人かにとって最も興味深いヒントは、これらの新しい技術が大規模言語モデルを検証困難なタスクでずっと良くするって彼が言ってることや。

もしOpenAIが年末までにソフトウェアエンジニアリングでリードを取るなら、それは本当に大きな変革になるやろ。競技プログラミングと違って、ソフトウェアエンジニアリングは検証が困難やけど、巨大な経済的影響がある。けど6つ目の読み間違いに戻ると、Googleの発表は28日にもっと定量的で詳細になると強く疑ってるけど、それでも完全な透明性には程遠いやろな。

最近のAIでは、それほど多くの金が賭けられてるねん。ちなみに余談やけど、年俸3億ドルでMetaで働くのを断るか?念のため、納得してへんかったら3億1200万やで。

GPT-5の登場予測

7つ目の読み間違い、OpenAIの進歩を垣間見るには年末まで待たなあかんってことや。いや、GPT-5 reasoning alphaがかなり近いうちに来るようや。年末に出る金メダルを取ったモデルとは同じやないけど、それでもOpenAIの最新の進歩を味わわせてくれるやろ。

8つ目、最近のAIニュースは狂った進歩と指数関数だけやっていう読み間違い。実際は違うねん。この新しいMeter報告を見てくれ。俺は主要著者と直接もオンラインでも話したことがあって、近いうちに詳しく掘り下げる予定や。けど要約すると、期待に反して、参加者の期待にも反して、言語モデルは特定の設定で開発者を遅くすることがあるねん。特に平均100万行を超える複雑なコードベースで、開発者が既に豊富な経験を持ってる場合やな。

最近の言語モデルは少なくともちょっと圧倒されてしまうねん。新世代のモデルについては様子を見るしかないけど、これは競技プログラミングが実世界のソフトウェアエンジニアリングと同じやったら、こんな結果は見られへんっていうことを思い出させてくれる。開発者はcursor内で言語モデルを使うことで25%くらい速くなると思ってたけど、実際は約20%遅くなったんや。

また、小さな研究やけど、俺が戻ってくる魅力的な研究や。

実世界でのAIの成果

9つ目で最後、金メダルの見出しを読み間違えて、生成AIは偽のベンチマークだけで、実世界では影響がないって思わんようにしてくれ。Patreonの俺の最新ドキュメンタリーでカバーした知能監視の新時代の潜在的負の影響は別として、チェックしてくれよ。AIと言語モデルは実際の数字で、実世界の設定でもプラスの影響を与えることができるし、与えてきたんや。

Alpha Revolveを例に取ってみ。俺はこれについて別のビデオを作ったけど、実世界でデータセンターを約0.7%効率的にしたんや。もしくはより技術的に言うと、Alpha Revolveシステムは継続的にGoogleの世界規模の計算資源の平均0.7%を回収してる。この持続的な効率向上は、任意の瞬間に、同じ計算フットプリントでより多くのタスクが完了できることを意味する。これが言語モデル、本質的には次の単語の予測器と、象徴的な事前プログラムシステムの結合の例や。現時点で実世界への影響のスイートスポットのようやな。

そして俺は7月28日に、Googleの国際数学オリンピックへの提出が両方を少し使うと疑ってる。様子を見よう。彼らは問題6を正解したか?本物の創造性を示したか?時が教えてくれるやろ。いずれにしても、見ての通り見出しを読み間違える方法はたくさんあると俺は主張するで。けどメタ的にどう思う?俺が見出しを読み間違えたか?十分あり得ることや。

たとえそうやったとしても、最後まで見てくれてありがとう。素晴らしい一日を。

コメント

タイトルとURLをコピーしました