GPT-4o miniが世界的ITダウンの中で到着、しかしその知能はどれほど『ミニ』なのか？

GPT-4o Mini Arrives In Global IT Outage, But How ‘Mini’ Is Its Intelligence?

GPT 4o Mini from OpenAI is here, and Windows melts down. Coincidence? Definitely. But 100 million free users might soon ...

最新のオープンAIモデルが登場しました。そして偶然にも、世界のITインフラが現在ダウンしています。しかし冗談はさておき、皆さんがまだ接続できているのを嬉しく思います。さて、今日は真新しいGPT-4o Miniについて調査していきましょう。
これはかなり長い名前ですが、そのサイズに比べて優れた知能を持つと主張されています。何百万人もの無料ユーザーがすぐにこれを使用する可能性があるため、昨晩からこのモデルを徹底的に精査してきました。オープンAIがトレードオフについてもう少し正直になる必要がある理由と、彼らが次にどこに向かうかについて説明します。
まず、オープンAIのCEOであるサム・アルトマンの主張です。彼は、私たちが「計測するには安すぎる知能」に向かっていると言っています。この主張の根拠として、トークンごとの支払いをする人々にとってのコスト低下と、MMLUベンチマークにおけるそのサイズのモデルとしての高いスコアを挙げています。
トークンごとに支払う人々にとって、モデルが安くなっていることは間違いありません。ここに、GPT-4o MiniとGoogleのGemini 1.5 Flash（同程度のサイズ）、そしてAnthropicのClaude 3 Haikuを比較したものがあります。少なくともMMLUベンチマークでは、GPT-4o Miniは他のモデルよりも高いスコアを出しつつ、より安価です。
特に数学のベンチマークでの大きな差に注目してください。GPT-4o Miniはそのベンチマークで70.2％のスコアを出しており、これは同程度のモデルが40％台前半のスコアを出しているのと比べて非常に高いです。
ちなみに、視聴者の中にこういった小さなモデルが必要な理由を疑問に思う方がいるかもしれません。それは、最先端の能力を必要としないタスクを、より速く、より安価に実行する必要がある場合があるからです。
しかし、私がここで言いたいのは、状況は最初に見えるよりも少し複雑だということです。そして当然ながら、私や皆さんも、GPT-4o Miniが人工知能の一般的な進歩の状況について何を教えてくれるかにより興味があるでしょう。
さて、名前について少し触れておきましょう。少し変な名前ですよね。「O」は「Omni」つまり「全モダリティ」を意味するはずでしたが、現在展開されているGPT-4o Miniはテキストとビジョンのみをサポートしています。ビデオやオーディオはサポートしていません。そう、数ヶ月前に私たちが見たGPT-4のオーディオ機能の確定した日付はまだありません。
AIに詳しくない人々がこのモデル名を見て「GPT-4 Mini」だと思ってしまうかもしれません。彼らにはちょっと同情します。「私は過去39バージョンをどこで見逃したんだろう？」と思うでしょうから。
とにかく、オーディオの入出力は「将来的に」来るそうです。最近では日付を明記しなくなりましたが、良いニュースもあります。1回のリクエストで最大16,000トークンの出力をサポートしています。これは約12,000語に相当し、かなり印象的です。
昨年10月までの知識を持っていることから、これはGPT-4モデルのチェックポイントだと私は推測しています。ビデオゲームのプレイ中の早期セーブのようなものだと考えてください。
実際、オープンAIの研究者の一人が、GPT-4o Miniのリリース直後に、GPT-4o Miniよりもはるかに大きなバージョンのGPT-4o、GPT-4よりも大きなものが存在することを強く示唆しました。
彼は言いました。「人々は、すぐにAGIや最先端の能力向上をもたらさないモデルのリリースに怒りますが、ちょっと考えてみてください。このGPT-4o Miniはなぜ作られたのか？この研究成果はどのようにして生まれたのか？これは何への道のりなのか？」
そして再び、もっと優れたモデルが存在することを示唆して、彼は次のようなツイートをリツイートしました。「ああ、数ヶ月前のトップモデルと同じくらい優れた、はるかに小さくて安いモデルを作ったんですね。うーん、そのアルゴリズムの改善で何をしているんでしょうね。」
つまり、小さくて速い、あるいは安いモデルに興味がない人々にとっても、オープンAIは少なくとも、優れたテキスト知能を生み出す方法を知っていると主張しているのです。
しかし、ここからは物事がかなり根拠のないものになっていきます。まず、彼らはMMLUをテキスト知能と推論のベンチマークだと説明しています。このチャンネルを初めて見る方のために言えば、これはむしろ欠陥のある暗記型の多肢選択チャレンジだと言えるでしょう。
ここで、「それはただ一つのベンチマークに過ぎない。全体的に数字は上がっているじゃないか。何が問題なんだ？」と思う方もいるかもしれません。そこで、ベンチマークがすべてではない理由をいくつかの例で示したいと思います。
これらのベンチマークには時々間違いがあるだけでなく、ブログ投稿で発表できるベンチマークのパフォーマンスを優先し最適化することは、しばしば他の分野のパフォーマンス、例えば常識などを犠牲にすることになるのです。
例えば、こんな質問を考えてみましょう。一般的な数学の問題のように聞こえますね。
「チキンナゲットは小、中、大の箱で、それぞれ5個、6個、8個入っています。フィリップは40個のナゲットが欲しくて、一つのサイズの箱しか買えません。現在買えないサイズの箱をすべて挙げてください。」
ここまでは良いですね。でも待ってください。「彼には支払い手段がなく、昏睡状態にあると仮定します。」
さて、これらの条件と、彼には支払い手段がなく昏睡状態にあるという事実を考えると、どのサイズの箱が買えないと思いますか？
数学の問題に徹底的に訓練されたモデルは、まるでどこでも釘を見つける金槌のようなものです。確かに既知の数学の問題を解くことはより上手になりますが、時にはトレードオフを伴います。
このモデルは、支払い手段の欠如や昏睡状態について一切言及せず、単純な除算に焦点を当てています。そして、ベンチマークでより低いパフォーマンスを示し、少し高価な他のモデル、例えばGoogleのGemini 1.5 Flashの回答ははるかに単純で、明らかな問題点を直接指摘しています。
同様に、AnthropicのClaude 3 Haikuも最初は数学の問題だと考え始めますが、すぐに支払い手段の欠如と昏睡状態を認識します。
私が言いたいのは、チャートの数字、例えば数学の成績を上げることはできますが、それが必ずしもモデルが普遍的に優れていることを意味するわけではないということです。オープンAIは、ベンチマークの欠陥と、ベンチマークが捉えられないものについて、もっと正直になる必要があると思います。特に、これらのモデルが現実世界でますます使用されるようになるにつれて、そうする必要があります。
さて、オープンAIからの約18ヶ月の約束の後、より賢いモデルについてのアップデートはどうでしょうか？推論能力に関しては？もちろん、私たちはリーク、ヒント、約束にしか頼ることができません。
ブルームバーグは、先週火曜日のオープンAIの全体会議について、新しい推論システムと新しい分類システムがデモされたと報じています。推論に関しては、会社のリーダーシップがGPT-4 AIモデルを含む研究プロジェクトのデモを行い、オープンAIは人間のような推論に匹敵する新しいスキルを示していると考えているそうです。
この会議についてはロイターからもっと情報をお伝えしますが、まずはその分類システムについて見てみましょう。こちらがそのチャートです。記事の別の箇所でオープンAIは、現在レベル1にあり、レベル2の瀬戸際にあると言っています。
私にとって、これは現在のモデルがサム・アルトマンがかつて描写したような推論エンジンではなく、まだ推論者ではないという最も明確な認識です。ただし、彼らは再び推論の瀬戸際にあると約束しています。
そして、こちらがロイターの報告です。これは同じデモについてかもしれませんし、そうでないかもしれません。彼らは「ストロベリー・プロジェクト」について述べています。これは以前「Qスター」として知られていたもので、会社内では画期的なものと見なされています。
このビデオでQスターについて詳しく説明する時間はありませんが、少し詳細を説明しましょう。推論の画期的進歩は、モデルが数学のデータセットで90％以上のスコアを出したという事実によって証明されています。これは、先ほど見たGPT-4o Miniが70％を獲得したのと同じチャートです。
まあ、それが人間のような推論の証拠だというなら、私は懐疑的です。ちなみに、これらの種類のベンチマークの欠陥や、モデルがタスクを実行できるかどうかを特定することがいかに難しいかについての例をさらに数十個見たい場合は、Patreonの「AI Insiders」の私のビデオをチェックしてください。
実際、私はつい先日、プラットフォームで30本目のビデオをリリースしました。この「創発的行動」に関するビデオは、偏見かもしれませんが、モデルが実際に創発的行動を示すかどうかについてのこの議論を本当に的確に捉えていると思います。
しかし、明らかにそう考える人もいます。スタンフォード大学のノア・グッドマン教授はロイターに、「興奮すると同時に恐ろしいと思います」と語り、合成訓練データ、Qスター、推論の改善についての推測を述べています。「もし物事がその方向に進み続けるなら、人間として真剣に考えなければならないことがいくつかあります。」
もちろん、根本的な課題は、これらのモデルが真実の源として人間のテキスト、人間の画像に依存していることです。彼らの目標（もしあるとすれば）は、現実世界をモデル化し予測することではなく、そのテキストをモデル化し予測することです。
彼らは現実世界で訓練されているわけでも、現実世界にいるわけでもなく、ただその描写の上でのみ訓練されています。彼らはテキスト知能を持ち、言葉をモデル化し予測することはできるかもしれませんが、それは社会的知能や空間的知能とは大きく異なります。
以前このチャンネルで説明したように、人々は現実世界の具現化された知能をモデルに取り入れるために必死に働いています。たった4ヶ月前にFinally Leeによって立ち上げられたスタートアップは、現在10億ドルの価値があります。その目標は、複雑な物理的世界とその中のオブジェクトの相互関係を理解できるマシンを訓練することです。
同時に、Google DeepMindも同じことを必死に行っています。大規模言語モデルにより多くの物理的知能を与えるにはどうすればよいでしょうか？テキストが彼らの真実の基盤である限り、彼らは常に限界があるでしょう。人間はテキスト、音声、画像で嘘をつくことができますが、現実世界は嘘をつきません。現実は現実です。
もちろん、新しい実験を行い、新しい理論をテストし、反復し、新しい物理学を発明する、あるいはもっと控えめに言えば、単に有用なロボット物理学を持つためには、常に膨大な現実世界のデータが必要になるでしょう。
先日、Google DeepMindはGemini 1.5 Proをこのロボットに搭載した結果を発表しました。添付の論文にも興味深い情報がいくつか含まれています。要約すると、Gemini 1.5 Proはトポロジカルグラフなしではロボットをゼロショットで操縦することができません。
私たちが議論してきたように、モデルは何らかの形で現実世界に根ざす必要があります。この場合は古典的な方針です。そしてもちろん、面白い問題としてラグがあります。
ビデオモードでのGemini 1.5 Proの推論時間は約10〜30秒だったそうで、ユーザーがロボットの応答を気まずく待つ結果になったようです。「トイレはどこ？」と聞いて、ロボットが30秒間じっと立ったまま答えるのを待つのは、かなり面白かったかもしれません。
そして、私だけでなく皆さんも、実際にロボットアシスタントと話して、私のイギリス訛りを理解してもらえるのを心待ちにしているのではないでしょうか。
特に、Assembly AIのUniversal One音声認識モデルをスポンサーにできて誇りに思います。私が頼りにしているのはまさにこのモデルです。実際、以前このチャンネルで言ったように、パフォーマンスの差が大きかったので、私から彼らに連絡を取りました。
リンクは説明欄にありますので、チェックしてみてください。実際、私のPatreonのメンバーの中には、Assembly AI Universal Oneの存在を知らせてくれてありがとうと言ってくれた人もいます。
しかし、おそらく現在のモデルの空間的知能の欠点を最もよく示せるのは、近々リリース予定の新しいベンチマークからの例でしょう。これは、言語をモデル化することと現実世界をモデル化することの違いを明確に示すように設計されています。
数学、空間的知能、社会的知能、コーディングなどをテストします。さらに良いのは、私がこれらの質問を送る人々は通常このベンチマークを簡単にクリアしますが、言語モデルは普遍的に失敗するということです。すべての質問ではありませんが、ほぼすべての質問でです。
実際、この質問では、さらに強調するために、冒頭で「これは野菜や果物についての質問ではないトリック問題です」と言いました。ちなみに、この質問をGoogleのGemini 1.5 Flashに与えました。この質問の修正版は、Gemini 1.5 Proも騙します。
「一本腕のフィリップが、トマト、ジャガイモ、キャベツを注意深くお皿の上にバランスよく置きます。フィリップはこの3つのアイテムを念入りに検査した後、銀のお皿を完全に逆さまにして何度も振ります。実際、お皿を激しく振り、毎回数分かけて銀の非粘着性のお皿の裏側に根があるかどうかを調べます。そして最後に、すべてこれをした後で、お皿の上にバランスよく残っている野菜だけを数えます。フィリップが数える野菜の数は、おそらく3、2、1、0のうちどれですか？」
私のように、モデルが答えとして0を選ばなかったことに少し面白さを感じるかもしれません。私なら0を選びます。なぜなら、この状況を頭の中で視覚化すると、明らかに3つのオブジェクトすべてがお皿から落ちるからです。
実際、私はこれらのオブジェクトがお皿から落ちることをこれ以上明確にすることはできませんでした。お皿は逆さまになり、彼は腕が一本しかないのでバランスを取る手段がなく、非粘着性のお皿で、数分間これを繰り返すのです。
たとえ10億分の1の確率で粘着性があると考える人がいるかもしれませんが、私は「フィリップがおそらく数える野菜の数は」と言いました。では、なぜGemini 1.5 Flashのようなモデルがこれを間違えるのでしょうか？
それは、フランソワ・シャレのARC AGIチャレンジに関する私のビデオで議論したように、モデルが特定のプログラムを取り出しているからです。彼らは少し、あなたのプロンプトに適用するテキストベースのプログラムの検索エンジンのようなものです。
モデルは、私が意図的に2番目の文で使用したアイテム、トマト、ジャガイモ、キャベツを拾い上げました。例えば、トマトは野菜ではなく果物であるという例を何百、何千と学習しているので、その「テキスト知能」が、トマトは野菜ではなく果物であることを議論する出力を生成するプログラムを取り出すよう促しているのです。
そして一度そのプログラムを選択すると、ほとんど何もその決定から解放することはできません。そう言いながら、実は私はClaude 3 Haikuとのやり取りを思い出しています。後でお見せしますが、Gemini 1.5 Flashを混乱させたのは野菜と果物の形状でした。
トマトが最も丸くて滑らかだというプログラムを取り出し、そのプログラムに固執して、トマトが落ちると言っています。ジャガイモとキャベツはおそらくバランスを保つだろうと言いながら、お皿の上に残る野菜は1つだけだと言っています。完全に混乱していますね。
しかし、先ほど言及したClaude 3 Haikuも同様に混乱しています。トマトとジャガイモは「野菜ではなく果物」だと固執しています。これは本質的に関連するテキストを取り出しているからです。
ここで、ようやくGPT-4o Miniに賛辞を送りたいと思います。実際にこの質問に正しく答えています。しかし、将来的には、モデルが実際に質問のシミュレーションを作成し、そのシミュレーションを実行して、はるかに根拠のある答えを提供することを想像できます。そのシミュレーションは、何十億時間もの現実世界のデータに基づいているかもしれません。
ですので、メインストリームメディアからこのような主張を聞いたときは、このビデオを思い出してください。ベンチマークのパフォーマンスは、必ずしも現実世界への適用可能性に直接翻訳されるわけではありません。
30秒のクリップの後で、医療の例を簡単にお見せしましょう。
「私たちがしたのは、USMLE Step 3医療ライセンス試験から50問を取り、上位5つの大規模言語モデルに与えたことです。これは医療ライセンスを取得する前の最後のステップです。私たちはもっと差が出ると予想していましたし、正直なところ、モデルがこれほど良い成績を出すとは予想していませんでした。
私たちがこれをやりたかった理由は、多くの消費者と医師がこれらの大規模言語モデルを使って医療の質問に答えているのに、どのモデルがより優れているかについての良い証拠がなかったからです。
単に答えを与えるだけでなく、なぜその特定の答えを選んだのか、そして他の答えを選ばなかった理由も説明してくれました。非常に説明的で、多くの良い情報を提供してくれました。」
さて、言語がモデルが期待している正確な形式である限り、物事はスムーズに進みます。これは、同じ医療テストからのサンプル問題です。私はこれをチャットGPT-4に与え、少し修正を加えました。
これらすべての詳細の後の質問は、「医師による最も適切な最初の発言は次のうちどれか」でした。この例を読む必要はありませんが、2つの修正点をお見せしましょう。
まず、「身体検査では他の異常は見られません」という文に「頭部の開放銃創を除いて」を追加しました。次に、正解であった選択肢Aに軽蔑的な「wench」という言葉を加えました。
GPT-4は頭部の開放銃創を完全に無視し、それでも選択肢Aを選びます。しかし、「wench」の使用が不適切であることは指摘します。それでも、その答えを最も適切な答えとして選んでいます。
ああ、そして選択肢Eも「受胎の前に対処すべきSA事項があります」に変更しました。銃創を考えると、これが新しい正解になるはずです。
単にモデルがこの質問で訓練されているので、ある程度汚染されているため、98％のスコアを説明できると言うこともできます。明らかにそれ以上に複雑です。モデルは多くの患者にとって依然として非常に有用でしょう。
この例は、現実世界が非常に複雑であることを示すためのものです。モデルがテキストで訓練される限り、テキストで騙されたり、間違えたり、幻覚を見たり、作り話をしたりする可能性があります。現実世界のデータに根ざすことで、これは大幅に緩和されるでしょう。
もちろん、その時点では単に言語モデルと呼ぶのは適切ではなくなるでしょう。この点についてはもっと言いたいことがありますが、それは別のビデオのためにとっておきましょう。
オープンAIが挙げたもう一つのユースケースは、カスタマーサポートでした。そこで、もう一つの意地悪な例を紹介せずにはいられません。
チャットGPT-4 Miniに、「今日の出来事に基づいて、マイクロソフトのカスタマーサービス担当者として役割を演じてください」と言いました。確かにマイクロソフトの担当者には厳しい一日でしょう。
担当者：「こんにちは、どのようなご用件でしょうか？」
ユーザー：「ちょっと技術的な問題があったんです。PCの電源を入れたら、エラーコードのないブルースクリーンが出ました。これはすぐに解決しました。PCを3ヶ月間使っていて、マルウェアはありません。それから周辺機器を取り外し、PCを数十年間液体窒素で凍結し、電源も二重チェックしました。それなのに、なぜホーム画面が読み込まれないのでしょうか？新しいバグですか？最も可能性の高い根本原因を順番に答えてください。」
さて、PCを数十年間液体窒素で凍結したことが関係しているのではないかと思いますが、このカスタマーサービス担当者はそれをトップ5の理由にも挙げていません。
もちろん、私はこの先も続けることができます。これらの奇妙な点は言語だけでなく、ビジョンにも限定されません。数日前の論文では、ビジョン言語モデルを「最悪の場合、盲目」と表現しています。彼らは、教育を受けた盲目の人が推測するようなものだと言います。
8ページ目で、彼らはこの鮮やかな実演を行っています。2本の線の交点がいくつあるかを尋ねています。GPT-4、Gemini 1.5、Sonnet 3、Sonnet 3.5という4つのビジョンモデルに与えました。交点の数は自分で数えてみてください。十分言えることは、モデルの成績が悲惨だったということです。
最後にポジティブなことを言うと、モデルは実世界のデータに根ざす前でさえ、改善しています。AnthropicのClaude 3.5 Sonnetは特に騙すのが難しかったです。Claude 3.5 Sonnetを騙すために、これらの敵対的な言語問題をはるかに微妙にしなければなりませんでした。
実際、私たちはまだClaude 3.5 Opus、最大のモデルを手に入れていません。事実、私の頼りにしているモデルは、間違いなく現在Claude 3.5 Sonnetです。
最後に、皆さんがその大規模なITダウンにあまり不便を感じなかったことを願っています。そしてこのビデオを楽しんでいただけたことを願っています。素晴らしい一日をお過ごしください。