OpenAIが新しいChatGPTモデルを密かにリリース、そして驚愕の性能

https://www.youtube.com/watch?v=uh4baKXL6K4

皆さん、最近AIの相棒が少し違う感じがしませんか。もしかしたら、より早く、鋭く、的確になったように感じていませんか。実は、あなただけではありません。OpenAIが大々的に宣伝することなく、密かに大規模なアップデートを展開していたのです。ご心配なく、私がその詳細な情報をお伝えします。
先週、私はChatGPTが何か違うように感じ始めました。応答がより正確で、速く、全体的に優れているように思えたからです。そして、私だけではなかったことがわかりました。
ソーシャルメディア全体で、ChatGPTの明らかなアップグレードについて話題が沸騰していました。しかし、ここで注目すべきは、OpenAIが大きな発表をしなかったことです。全てが控えめに行われ、ついに小さな驚きを投下しました。彼らはXに登場し、さりげなくChatGPTに新しいバージョンのGPT-4oモデルが統合されたことを述べたのです。そう、私たちが使っていたモデルを、大々的な宣伝もなく更新したのです。
メッセージは簡潔でした。先週からChatGPTに新しいGPT-4oモデルが導入されました。皆さんがお楽しみいただけていることを願っています。まだ試していない方は、ぜひお試しください。気に入っていただけると思います。以上です。大々的なリリースも、華々しい発表もありません。ただ1つのツイートだけ。これぞ典型的なOpenAIですね。
さて、この新しいモデルの何が特別なのか気になっているでしょう。詳しく見ていきましょう。GPT-4oの更新版、通称GPT-4o最新版は、基本的に既存のものを微調整し最適化したものです。しかし、ここで興味深いのは、OpenAIが全ての情報を明かしているわけではないことです。この新しいモデルの正体について、多くの憶測が飛び交っています。
一部の人々は、これがOpenAIのより大きな戦略の一部であり、GoogleやAnthropicのように異なるサイズのモデルを展開する計画ではないかと考えています。また、GPT-4o大型版についての噂もあり、この最新のアップデートがその方向への一歩ではないかと考える人もいます。しかし、正直なところ、私はそれほど確信していません。はっきり言えることは、もしこれが全く新しいモデルだったら、おそらくもっと大々的に発表していたでしょう。
さて、この新しいモデルは実際何ができるのでしょうか。私が見た限り、また他の人々が報告していることによると、特に複雑な推論や創造性を必要とするタスクにおいて、確実に能力が向上しています。ChatGPTをコーディングの助けや難しい問題の解決に使っている方なら、少し鋭くなったことに気づいたかもしれません。さらに、処理速度も向上しています。これは常に嬉しい進歩です。
しかし、現実的に言えば、まだ完璧ではありません。まだいくつかの奇妙な瞬間があります。例えば、あるテストでは、本、9個の卵、ノートパソコン、ボトル、釘を安定した方法で積み上げるよう求められました。その解決策は、ボトルの上に9個の卵を置くというものでした。真面目な話、誰がそんなことをするでしょうか。つまり、まだ修正すべきバグがいくつかあります。しかし、全体的にこのアップデートは確実に前進です。
話題を変えて、多くの話題を呼んでいる「プロジェクト・ストロベリー」について触れてみましょう。プロジェクト・ストロベリーの全体的な考え方は、モデルの推論能力を飛躍的に向上させるための新しいポストトレーニング手法かもしれないというものです。一部の人々は、ChatGPTで見られる改善が、この謎のプロジェクトの最初の一端を示しているのではないかと推測しています。
さて皆さん、新しいGPT-4o最新モデルの最もクールな機能の1つは、多段階推論の扱い方です。基本的に、これはAIが単に結論を出すのではなく、答えを出す前に段階的に考えを巡らせる時間を取っているということです。これは非常に大きな進歩です。より正確で思慮深い応答につながるからです。まさに私たちが求めているものですよね。
この新しいモデルは、特にLMCISリーダーボードと呼ばれるものでAIコミュニティに大きな衝撃を与えました。LMCISリーダーボードをご存じない方のために説明すると、これはAIモデルのオリンピックのようなものです。様々なタスクで異なるモデルを競わせるのです。新しいChatGPT-4o最新モデルは、このリーダーボードで圧倒的な成績を収めました。1,314ポイントという、これまでで最高のスコアを記録したのです。これは、Google、Anthropic、Metaなど、業界の大手を上回る性能を示しています。
この新しいモデルを使ってみたいと思っている方もいるでしょう。実はとても簡単です。OpenAIは既にChatGPTのウェブサイトとアプリの両方で、古いGPT-4oを新しいバージョンに置き換えています。つまり、ChatGPTを開くだけで準備完了です。無料プランを使っている場合、メッセージ制限に遭遇するかもしれません。しかし、プラスプランを利用していれば、モデルの能力を本当に試すことができます。
ただし、プラスプランの月額20ドルを払う準備ができていなくても心配しないでください。制限に達する前に、新しいモデルの能力をよく理解することができます。そして、メッセージが尽きたら、GPT-4oミニに切り替えることができます。完全に同じではありませんが、それでもかなり強力です。
もう1つ興味深いのは、OpenAIがこれらのアップデートをテストしている方法です。LMCISチャットボットアリーナのような場所に、ランダムな名前で実験的なモデルをこっそり忍ばせているのです。人々は新しい技術をテストしていることに気づかないのです。例えば、ChatGPT-4o最新モデルは、「匿名チャットボット」という名前でテストされ、ユーザーから11,000以上の投票を集めました。これは多くの人々が知らずにテストプロセスに貢献していたということです。OpenAIのアプローチがいかに巧妙かを示しているのではないでしょうか。
さて、今後の展望はどうでしょうか。このアップデートを見る限り、OpenAIはChatGPTの改良と強化を続けると予想できます。彼らは明らかに、推論、創造性、そしてより頭脳を必要とするタスクをさらに向上させることに焦点を当てています。そして、近い将来、プロジェクト・ストロベリーからさらなる進展が見られるかもしれません。
話題を変えて、あまり注目を浴びなかった新しい、かなりクールなAIモデルについて話しましょう。Falcon Mumber 7Bと呼ばれるもので、アブダビのTechnology Innovation Institute（TII）によってリリースされました。TIIはAI、量子コンピューティング、ロボット工学など、最先端技術で常に一歩先を行くことで知られています。そして今、この新しいモデルを発表しました。オープンソースで、Hugging Faceで利用可能です。これは大きなプラスポイントです。
しかし、本当に際立っているのは、それが構築されている新しいアーキテクチャです。私たちのほとんどがTransformerモデルがAIの世界を支配していると慣れ親しんでいる中、Falcom Mum 7Bは何か異なるものを導入しています。Mum State Space Language Model（SSLM）アーキテクチャです。基本的に、この新しいアプローチは従来のTransformerモデルの堅実な代替案として急速に注目を集めています。
さて、なぜこれが重要なのでしょうか。Transformerは素晴らしいものですが、特に長いテキストを扱う際にいくつかの欠点があります。基本的に、Transformerはコンテキストを把握するために、テキスト内の全ての単語を他の全ての単語と比較する注意機構に依存しています。しかし、テキストが長くなるにつれて、このプロセスはより多くの計算能力とメモリを必要とします。リソースが追いつかないと、モデルは遅くなり、長いテキストの処理に苦戦し始めます。
ここで、SSLMの出番です。Transformerとは異なり、SSLMは単語同士を比較するのではなく、テキストを処理する際に状態を継続的に更新します。これにより、メモリや計算能力を大幅に増やすことなく、はるかに大きなシーケンスを処理できるのです。
Falcon M 7BはSSLMアーキテクチャを使用しており、これは元々Carnegie MellonとPrinceton大学の研究者によって開発されました。このモデルの本当にクールな点は、入力に基づいてパラメータを動的に調整する能力です。これにより、テキストのどの部分に注目し、どの部分をスキップするかを知ることができます。
Falcon M 7Bは、Meta Llama 38bやllama 318b、Mistral 7Bのような重量級モデルと比べてどうでしょうか。TIIがテストを行い、その結果は非常に印象的でした。大量のテキストを扱う際、Falcon M 7Bは単一の24GB A10 GPUを使用して、Transformerモデルよりも長いシーケンスを処理できます。これは理論的に、テキストをトークンごとまたはチャンクに分割すれば、無限のコンテキスト長を処理できることを意味します。
そして再び、Falcon M 7Bが頂点に立ちました。Mistral 7Bのスライディングウィンドウ注意アーキテクチャを上回り、メモリ使用量を増やすことなく、一定の速度で全てのトークンを生成します。これは、大規模なAIタスクに取り組む人にとって非常に重要です。モデルが高速で効率的であることを意味するからです。
そして、業界標準のベンチマークに関しては、Falcon 7Bは健闘しています。ARC、Truthful QA、GSM 8Kのようなテストでは、主要なTransformerモデルを凌駕するか、同等の性能を示しました。確かに、MLUのようないくつかのベンチマークではトップの座を獲得できませんでしたが、それでも最高レベルのモデルと肩を並べています。
しかし、皆さん、ここが興味深い部分です。これはFalcon M 7Bの始まりに過ぎません。TIIはモデルの改良と能力の拡張に大きな計画を持っています。彼らはSSLMだけに留まらず、AIにおけるイノベーションを続けるためにTransformerモデルの境界も押し広げています。
AIに興味がある方、あるいは将来何が起こるか気になる方は、Falcon M 7Bに注目してください。既に名を馳せ始めており、TIIの継続的な努力により、さらに良くなるでしょう。さらに、4500万回以上のFalconモデルのダウンロード数を誇るTIIは、AI界の重要なプレイヤーであることを証明しています。
さて皆さん、もしこの内容が面白いと思ったら、ぜひいいねボタンを押して、チャンネル登録をお願いします。視聴いただきありがとうございます。いつものように、次回の動画でお会いしましょう。皆さん、お元気で。