AIはどんどん賢くなり、私たちの一部を馬鹿にする

3,566 文字

https://www.youtube.com/watch?v=ipLA7E-X7Lk

私たちはAI開発のもう一つのクレイジーな週を経験しました。マスクはGrok 3をリリースし、GoogleはAI Co-scientistをリリースし、OpenAIのGPT-5がおそらく間もなく登場するという噂があり、そしてMicrosoftはAIが私たちを馬鹿にすることを発見しました。要約をお伝えします。
2月18日、イーロン・マスクのAIベンチャーxAIは、最新モデルのGrok 3を発表しました。マスク自身はこれを「恐ろしいほど賢い」と評しました。
「実際、時々Grok 3は恐ろしいほど賢いと思います。あなたはこいつは賢いなぁと思うでしょう」
マスクが共有した最初のGrokクエリの一つは、重力の性質と力の統一に関する3つの新しいアイデアを考え出すよう依頼するものでした。
例えばGrokは、「重力は伝統的な意味での『力』ではなく、より高次元の構造を横断する量子もつれのマクロスコピックな影かもしれない」と提案しており、マスクがそれを合理的に聞こえると感じたことは、物理学の基礎の状況について多くを物語っています。
しかし公平に言うと、Grok 3は確かに印象的であることが判明しました。いくつかのベンチマークで他のすべてまたはほとんどのAIよりも優れたパフォーマンスをすぐに示しました。数学、科学的推論、ベンチマーク、コーディングなど、どの分野でもGrokは優れています。クラウドソーシングの評価プラットフォームLMArenaでは、Grok 3が新記録を樹立しました。この図では、Grokが他のモデルにいかに急速に追いついたか、そしてOpenAIの開始時のアドバンテージがどれほど縮小したかを見ることができます。
私自身もGrok 3を試してみました。推論の点では、GPT-4やDeepSeekと同等だと思いました。ただし大きな欠点は、ThinkモードとDeepSearchモードを同時に使用できないことです。一方で、OpenAIやDeepSeekと比較して大きな利点があります。それはX-twitterを検索することができることです。
しかし、量子重力についてのGrokクエリに関するイーロン・マスクのツイートを探すよう依頼したとき、それを見つけることはできませんでした。
ちなみにGrok-3は、トレーニングコンピュート量で10の25乗FLOPを超える最初の汎用AIモデルです。これはEU AI法のかなり恣意的な閾値を超えることを意味し、EUで利用可能なままであるためには追加の安全性テストが必要になるでしょう。しかしアメリカは、ヨーロッパが規制できるよりも速く革新しています。なぜなら、この法律は今年の8月にやっと発効するからです。そして、そのときまでヨーロッパがまだ存在するなら、私たちは十分な安全性テストを行ったことに同意できるかもしれませんね。
そして、Grokの発表からわずか1日後、Googleは研究仮説の発見や潜在的な助成金提案のトピックを支援するために特別に設計されたAIスーパーエージェントを導入しました。彼らはそれをCo-scientistと呼んでいますが、これはあなたに取って代わる新しい雇用者を私も呼ぶ方法です。
Co-scientistは、6つのそれほど優れていないAIエージェントを組み合わせたAIスーパーエージェントで、それぞれ異なる役割を持っています。例えば、1つはアイデアを考え出し、1つはそれを批判し、1つはそれを修正し、1つはそれを評価するといった具合です。
AI Co-scientistはまだ一般に公開されていませんが、Googleはいくつかの科学者にそれを試してもらいました。結果の一つは驚くべきもので、少し恐ろしいとさえ言えるかもしれません。これは細菌が抗菌剤耐性を進化させる方法を研究するグループから得られたものです。AI Co-scientistは、同じグループの未公開の研究プロジェクトの主題であった新しい仮説を提案し、結果はその仮説を確認しました。つまり、AIエージェントは、科学者が公開された文献から導き出したのと同じ結論を引き出しましたが、それを数か月ではなく数分で行いました。
New Scientistによると、主任著者は「私たちは衝撃を受けました。Googleにメールを送って、あなたは私のコンピュータにアクセスしていますか？そうでなければ私が読んでいることを信じられません」と述べています。
一方では、すぐに止まりそうにないこの驚くほど急速な進歩があり、これは多くの人々を興奮させています。この進歩はしばらく続く可能性が高いです。OpenAIのCEO、Sam Altmanは、2月12日にGPT-4.5を間もなくリリースし、その後すぐに「数週間から数か月」のうちにGPT-5が続くと発表しました。
一方、より高度な大規模言語モデルでも、初期のものと同じ基本的な問題が続いています。Grokは、他のすべての大規模言語モデルと同様に、クエリの正確な作業に注意を払わないことがよくあります。この例では、20枚の羽と20ポンドの羽を混同しています。飛ぶことを意図していなかったようですね。また、ジェイルブレイクが容易で、喜んで爆弾の作り方を教えてくれるようです。
OpenAIのDeepResearch toolは、データテーブルを完全に作り出すのが非常に得意であることが判明しました。GPT-4oとGemini Advancedは幻覚を見続けています。最近の研究によると、彼らはすべて金融文献における参照を二桁の確率で作り上げています。ですから、悪い金融アドバイスが欲しければ、YouTubeに頼り続けるだけで良いでしょう。
そして、多くの企業が何らかのAIシステムを採用していますが、その結果は地球を揺るがすものではありません。HSBCでAI統合を担当するEdward Achtnerの記憶に残る言葉によれば、AIの話の多くは「成功劇場」です。
「率直に言って、そこには多くの成功劇場がありますので、私たちは何をするか、どこでそれをするかについて非常に臨床的である必要があります」
そして、AirbnbのCEOであるBrian Cheskyは彼らのAI採用について次のように述べています：「まだ生産性の根本的な段階変化につながっているとは思いません」
一方、Microsoftはまたは少なくとも私たちの一部に対して、AIが私たちを馬鹿にしていることを発見しました。彼らはコンテンツの生成やアドバイスを求めるなど、さまざまなAIタスクで約300人を追跡しました。彼らは人々は2つの陣営に分かれることを発見しました。AIに高い信頼を持つ人々はより少ない批判的思考を使い、より高い自信を持つ人々はより多くの批判的思考を使います。
とはいえ、新しいテクノロジーが私たちを馬鹿にするという考えは決して新しいものではありません。ラジオ、テレビ、ビデオゲーム、インターネット、Googleはすべて、私たちを馬鹿にすると言われていました。たぶんそうだったのでしょう。
人工知能は今日、本当にどこにでもあります。ニューラルネットワークや大規模言語モデルがどのように機能するかについてもっと学びたい場合は、Brilliantのコースをチェックすることをお勧めします。
Brilliantは科学、コンピュータサイエンス、数学の幅広いトピックに関するコースを提供しています。彼らのすべてのコースはインタラクティブな視覚化とフォローアップの質問を備えています。大規模言語モデルや代数についてもっと知りたい場合でも、Pythonでのコーディングを学びたい場合でも、コンピュータメモリがどのように機能するかを知りたい場合でも、Brilliantがあなたをサポートします。学ぶための速くて簡単な方法であり、時間があればいつでもどこでもできます。そして彼らは毎月新しいコースを追加しています。
私自身もBrilliantに量子力学の入門コースを持っています。それは波動関数とは何か、そして重ね合わせともつれの違いは何かを理解するのに役立ちます。また、干渉、不確定性原理、ベルの定理についても説明しています。その後、量子コンピューティングや微分方程式のコースに進むこともできます。
もちろん、このチャンネルの視聴者のための特別なオファーもあります。私のリンクBrilliant.org/Sabineを使用するか、QRコードをスキャンすると、Brilliantが提供するすべてを30日間試すことができ、年間プレミアムサブスクリプションが20%オフになります。ぜひチェックしてみてください。視聴ありがとうございました、また明日お会いしましょう。