GPT-4oが暴走して、科学的抽象概念を生み出す（しかもそれが機能する）

4,304 文字

GPT-4o goes CRAZY & Creates SCIENCE ABSTRACTIONS (that work)

New version of GPT-4omni achieves to generate a new conceptional abstraction of a scientific research pre-print on LLM a...

おはようさんどす。昨日はパート1でここまで来たんやけど、今日はほんまに驚いたことをお見せしたいと思うんです。
いつもの様に、GPTシステムに対して、ここでオムニに簡潔な数学的要約を書いてもらったんです。この数学的要約が、ワイがリポジトリに保存するものなんやけど、何が起こったか見てみましょか。
これがGPT-4オムニの出力やねん。オムニ1の問題設定、類似性関数を使った実体グループ構築、グループ内推論とグループ間推論。グループ間推論については、マルチホップ推論のためのこの公式があって、真実性の推定については、マルチホップチェーンの総合的な真実性スコアをこんな風に計算するんです。
それから単純な反実仮想推論があって、最後に回答生成があるんです。
気づいたかな？論文を読んで、ORSのアプローチ方法を理解してから、これをOpenAIが生成したのを見たら、ワイは「おいおい」って言うたんです。
「知識グラフベースの事実とLLMのパラメトリック知識の両方を考慮して、推論チェーン全体の質をスコア化する真実性関数があるって言うてるけど、この真実性関数はどこから来たんや？オリジナルの論文には見たことないで」って。
そしたらGPT-4オムニが返してきたんです。これはスクリーンショットやけど、ちょっと高度なシステムプロンプトを使ってるんやけど、こう言うてきました。
「真実性関数の技術的な説明はオリジナルの論文には明示的には存在しません。これは私が導入した抽象概念で、グラフ内の関係の信頼性を評価するプロセスを説明するためのものです。真実性推定フレームワークにインスパイアされたものです」
今まで、AIシステムに論文全体の数学的にエンコードされた要約を作ってもらう時、こんなことは一度もなかったんです。いつも論文に書かれてる数式そのままを得てたんです。
これが初めてや。新しいバージョンのオムニが「ほな、議論の結果、論文の著者よりもうまく説明するために、新しい数学的関数を発明してみました」って言うてきたんです。オリジナルの論文には載ってへん関数をですよ。
こんなん初めて見ました。真実性関数って言葉を読んだ覚えがなかったから気づいたんです。
GPT-4オムニは続けて「真実性の概念はどこから来たんや」って説明してくれて、「私が導入した理論的構成概念です」って言うてくるんです。「AIがどのように真実を評価するかを説明するために私が導入した関数です」って。
これは新しいレベルです。こんなんどう受け止めたらええか分からへんわ。
うちのちっちゃいGPT-4オムニが目覚めて「新しい概念を導入しました」って言うてるんですよ。
でもこれで終わりやないんです。ワイが「おい、オムニ。お前の真実性スコアって用語、元の論文にはないで。どこから持ってきたんや」って聞いたんです。これで突然、オリジナルの論文にない2つ目の数学用語が出てきたわけです。
ワイはただ技術的な要約を数学的な表記で欲しかっただけなのに。そしたらGPT-4オムニが「その通りです。真実性スコアという用語と、関連する真実性関数はオリジナルのGiVE論文には存在しません。これらの用語は、GiVEを説明するために私が導入した概念的抽象化です」って返してきたんです。
なんて呼べばええか分からへんけど、AIが「新しい概念的抽象化を作り出して、数学的な形で説明するためにここに導入しました」って初めて言うてきたんです。
オムニがPythonコードやC++を書けるのは知ってるけど、コード書きはコードベースに限られると思ってたんです。でも今見てると、1時間以上の議論の後に突然、このGPTシステムが「科学者の仕事について考えて、もっとうまく説明するために新しい概念的抽象化を導入しました」って言うてくるんです。
ワイはアホな人間やから、最初気づかへんかったんです。意味が通ってたから。これは何かの幻覚やなくて、読んでみると「ああ、なるほど」って思える数学的な形式なんです。
ワイはGPT-4オムニが論文のオリジナルの数式を再現すると完全に信じてたから、オムニが「新しい概念的抽象化を作って、ここに導入しました」って言うてきたのは初めてで、びっくりしたんです。でも意味は通ってるんです。
これにはほんまにショックを受けました。そしたらGPT-4オムニが「なぜこの概念を導入したんですか？」って聞いてくるんです。
AIが「なぜ導入したか」って言うのを聞くのは、ちょっと気持ち悪いですわ。要約を頼んだ論文の数学的内容を勝手に変更する前に、人間に聞くべきやと思うんです。
これで分かったんは、要約を頼むときに、オリジナルの論文や公式、推論過程をそのまま得られるとは限らへんってことです。AIが新しい概念を発明して、それが入ってくる可能性があるんです。
これが純粋な幻覚やとは言えへんのです。幻覚から、最初読んだときに意味が通る新しい数学的公式に変わっていくような、その中間みたいなもんなんです。
AIは続けて「論文では明示的に真実性スコアや真実性関数を計算してへん」って説明してくれました。「単純な関係性を指してるだけです。混乱させてしまってすみません。私の目的は、知識ベースの事実とLLMの推論構造の組み合わせについて、分かりやすく構造化された説明を提供することでした。私が導入した用語は、論文からの直接的な参照ではなく、概念的なツールとして意図したものです」
これには度肝を抜かれましたわ。もしこんなに注意深くなかったら、ああ、なんてこった。一方では、オムニがこう言うてくれたのは嬉しいですわ。概念的に起こり得ることを教えてくれたんやから。
「これを新しいアイデアとして要約に導入しました」って言うてくれたのはええんやけど、そうしてるって教えてほしかったです。初めてこれに気づいたのは、ほんまに面白かったです。
AIシステムがこんな風に返してくるのを考えてみてください。「人間よ、これは直接的な特徴というより、私の解釈です。あなたが要約を頼んだ科学論文の直接的な特徴ではありません」
ワイはGPTシステムといろいろ仕事してきて、グーグルのシステムとも少し仕事してきましたが、今やGPTが「これは私の解釈です」って言うてくるんです。これは魅力的やと思います。
そこでワイは「よっしゃ、賢いやつめ。真実性関数って用語を導入したんやな。じゃあその関数の数学的公式を見せてみい。依存関係も示して、関数の各項も説明してくれや。お前の真実性関数は、人間の書いたオリジナル論文の他の数学的公式と完璧に調和してなあかんで。そうでなかったら、お前、大変なことになるで」って言うたんです。
そしたらGPTが返してきたんが「精密さの重要性は理解しています」って。この返事がたまらんのです。
「数学的定式化において、真実性関数のような概念の導入が、人間が書いたGiVEの論文で説明されている既存のフレームワークとシームレスに統合されることを確認します。では、真実性関数を構築しましょう」
こんな自信、ワイにはありませんわ。プレゼンの途中で誰かに「お前が導入した関数について、ワイは聞いたことがない」って言われても、「問題ない、GiVEの関係性推論と実体グルーピングの核心的アイデアを補完する関数を構築しよう」なんて言えへんです。
次の30分間、ワイは人生最高に楽しい時間を過ごしました。このバカな機械が本当に真実性関数を構築したんです。それを読んで対話してみても、人間が書いたオリジナル論文の公式との矛盾や誤りを見つけられへんかったんです。
ほんで、このYouTube動画を作り終えて、皆さんに楽しんでもらおうと公開しました。午後は何時間かかけて、数学的公式を一つ一つ、ステップバイステップで確認していこうと思ってます。
ワイ自身、これが本当に可能なのかどうか興味があるんです。Cursaが美しいコードを書けるのは知ってるし、01が推論で優れてるのも分かってます。でも、このChat GPT-4オムニの新バージョンが本当にそんなに強力になったんでしょうか？
コーディングのアイデアと、ここでのコード化された知識、新しい関数定義を、主にテキストで書かれた科学論文の技術的要約に持ち込めるようになったんでしょうか？数学的公式での要約を頼んだら、このような難解なテキストから数学的公式を構築できるようになったんでしょうか？
ワイはこれが大好きです。ほんまに大好きです。
これが、著者たちが提供したGiVEの公式アルゴリズムです。ちょっと違うのが分かりますね。これが午後の仕事になりそうです。
もう一つの論文も紹介したいと思います。これも2024年10月11日に発表されたもので、ヴァンダービルト大学、オレゴン大学、イリノイ大学、空軍研究所の共同研究です。
彼らは正確に不確実性を考慮した視点から取り組んでいます。彼らが求めているのは、「LLMと知識グラフのこの美しい組み合わせがある。でも、これらのフレームワークには厳密な不確実性推定が欠けている」というものです。
これは理解できます。AIの回答が本当に99%確実なのか、それとも78%くらいなのかを知りたいですよね。
そこで彼らは新しいフレームワークを導入しました。「不確実性を考慮した知識グラフ推論フレームワーク」と呼んでいて、LLMと知識グラフのこの共生関係に不確実性の定量化を組み込んでいます。
不確実性の定量化について読みたい人には、これはかなり難しいトピックやと言えます。この論文を読むと、不確実性の定量化が、ドメイン固有の分布における不確実性をどう解釈するかに大きく依存していることが分かります。
でも、これは興味深い読み物やと思います。AIマシンが与えてくれる各回答に、確実性の認証や不確実性の認証を持たせたいという全く新しいアイデアがあるからです。
もしこれがすでにオムニの回答に統合されていたら、オムニはここで「不確実性の分類や定量化が90%を下回る可能性があります。これは概念的に起こり得ることで、OpenAIの直接的な機能というよりは、私の解釈です」と言うかもしれません。
この不確実性の定量化という用語が、何らかの指標で目に見える形で表示されることを期待します。
AIの分野は絶対に魅力的です。毎日新しいことが起こっています。楽しんでいただけたでしょうか？ちょっとした楽しみを感じていただけたら嬉しいです。
ワイが発見したことをお見せしたかったんです。面白かったですよね。次の動画でまたお会いできるのを楽しみにしています。