OpenAI o1完全版が誤って早期リリース!?実際に試してみた!

AIに仕事を奪われたい
この記事は約3分で読めます。

1,559 文字

OpenAI o1 FULL Was Accidentally Released Early?! Let's Test It!
Looks like ChatGPT o1 was released early last night for a brief couple of hours. I was able to prompt it a few times bef...

今日は2024年11月2日なんですけど、昨晩数時間ほど、OpenAIのo1モデル、つまりo1ミニでもo1プレビューでもない完全版o1が、アメリカ西海岸の深夜に短時間だけ利用可能やったみたいです。実は今、私はサンフランシスコの実家にいて、システムがダウンする前に何回かプロンプトを試すことができたんです。
まず最初に、最新の知識アップデートがいつやったかを聞いてみたら、2023年10月って答えが返ってきました。これは、Twitterで「このリンクをクリックしたら使えるで」って漏洩があった時のことなんですけど、今はもうそのリンクは使えへんようになってます。
ちなみに、モデルo01って表示されてるリンクをクリックしても、実際にはChatGPTしか表示されへんかったです。せやから、2019年に撮影されたM87ブラックホールの画像を使って試してみました。Chain of Thoughtを使って考えてるのが見えますが、これはo1ミニやo1プレビューではできへんかった機能です。実際に画像も正確に認識できてて、なかなか興味深い結果でした。
次に、2023年のPUTNAM数学コンペの問題を解かせてみました。これ、アメリカとカナダの大学生向けの数学コンペで、平均点が0点っていうぐらい難しい試験なんです。世界中のトップクラスの大学生が挑戦するような試験ですわ。
最初の3問をo1モデルに解かせてみたんですけど、1問目はわずか18秒で解けました。以前、o1プレビューでも同じテストをライブ配信でやったことがあるんですけど、確か18秒よりもずっと長くかかった気がします。
答えはn=18で、これは実際の試験の正解と一致してました。2問目は少し時間がかかりましたが、最終的に正解のプラスマイナス1/n!にたどり着きました。
3問目が特に面白かったです。かなり長く考えてから、2019年のPUTNAM試験のA3問題に似てるって言い出したんです。最小半径がπやって言うてましたけど、実際の答えはπ/2でした。2019年の試験問題を確認してみたら、正弦関数とかπに関係する問題ちゃうかったんで、なんでそんなこと言い出したんか謎でした。
最後に、超知能がどうやって人間を欺いたり出し抜いたりする可能性があるかについて聞いてみました。AIの安全性とアライメントに関して特に興味のある部分なんですけど、予想通り、この質問には反応を示しませんでした。考えてる様子は見えたんですけど、最終的にエラーが出て応答が返ってきませんでした。
総じて、o1は確かにo1プレビューやo1ミニよりもパワフルで優れたモデルやと感じました。反応速度も速いし、考える時間も十分取れてる感じがしました。20万トークンのコンテキストウィンドウがあるって聞いてますし、画像やスクリーンショットを与えても情報を理解して良い応答を返せるのは印象的でした。
正式リリースの時にもっとテストしたいと思ってます。OpenAIには怒られへんことを願ってますけど、もし怒られても申し訳ないです。2025年の数ヶ月は大きな変化が起こると思います。今見た限りでも、かなりいろんなことができるようになってるんです。
完璧かって言うたら、そうじゃないです。どのモデルも完璧じゃないし、多分永遠に完璧なモデルはできへんと思います。でも、特定の分野では人間より優れた能力を発揮することはできると思います。例えば私なんか、あのPUTNAM試験の問題なんて解けへんですからね。
すんません、ちょっと疲れてて話が散漫になってるかもしれません。これらをテストするために朝4時半に起きたもんで…とりあえず今回はこれぐらいにしときます。参考になれば幸いです。今後もテストを続けていきたいと思いますので、また次回お会いしましょう。

コメント

タイトルとURLをコピーしました