マヌスがベータプレミアムプランを発表、OpenAIが画像生成機能をリリース、Gemini 2.5が驚きの性能を見せるなど、盛りだくさんのニュース

AGIに仕事を奪われたい
この記事は約15分で読めます。

8,935 文字

https://www.youtube.com/watch?v=HOl8QZoUTME

皆さん、この前の週は人工知能界隈で最近では最も激動の週の一つでした。OpenAI、DeepSeek、Manus、Googleなどから新しい発表があり、他にもたくさんのニュースがありました。最新情報をまとめて、何が起きたのか理解していきましょう。
それでは始めましょう。いつものようにいいねをくれた皆さん、登録してくれた皆さんに感謝します。特に、このAIチャンネルをサポートしてくださるメンバーの皆さんには特別な感謝を。メンバーの方々は、インテリジェントエージェントに関する限定動画にアクセスできることを忘れないでください。
まず最初に、すでに影響を与え始めているニュースがあります。Manus AIが進出してきており、良いニュースと悪いニュースがあります。良いニュースは新しいことがたくさんあるということで、悪いニュースについては後ほど説明します。
ゆっくり見ていきましょう。TwitterでのManus AIの投稿によると、「3週間前にManusをクローズドベータで公開し、Manusに対する愛情に驚きました」とのことです。皆さん、このサービスがリリースされてまだ3週間なのに、何年も前からあるような気がしませんか?すでに古いニュースのようになってしまいました。
彼らは今日、Manusコミュニティとのベータテストについていくつかの最新情報を共有したいと言っています。まず、モバイルアプリをリリースしました。App Storeで見ると「Manus AI」という名前で、Butterfly Effectという企業のものです。iPhoneをお持ちの方はすでにアプリが利用可能ですが、Androidではまだリリースされていないようです。
二つ目のニュースは、より長いコンテキストとより優れたマルチモーダル機能が追加されたことです。
三つ目のニュースは、「ManusはすべてのタスクでClaude 3.7によって動作し、3.5へのフォールバックはありません。Anthropic AIに感謝します」とのこと。興味深いことに、ManusはAnthropicのインフラを使用している中国企業のようです。アメリカの企業との協業は興味深いですね。結局のところ、米中間の対立はそれほど本物ではなく、良いビジネスがあれば国境に関係なく協力するということを示しています。
四つ目のニュースは、「より安定したサンドボックス。e2bとtobに感謝」と、より効率的になっていること。そして、「プレミアム購読プランのベータテスト。限定された無料アクセスを維持します」とあります。
私はこのベータプランに参加しようとしましたが、まだ成功していません。皆さんの中で成功した方はいるでしょうか?コメント欄で教えてください。私が到達できた最も近い段階はログインするところまでです。無料アカウントとして表示され、理論上は1000クレジットがあり、標準の労力か自動労力を選択するボックスと、ファイルを添付するオプションがあります。
しかし、Starterプランにアップグレードしようとすると($9で、OpenAIの倍の価格です)、またManusプロは月額$9でOpenAIプロと基本的に同じ価格ですが、アップグレードボタンをクリックすると、「関連サービスはベータ段階にあり、より良い体験と価値を提供するために、価格や特典は将来的に進化する可能性があります」と表示されます。値上げするのか値下げするのかは言及されておらず、単に「進化する可能性がある」とだけ述べています。
続行しようとすると、「許可が拒否されました」というメッセージが表示され、アカウントがアクティブ化されていないとのこと。つまり、アクティベーションが必要なのですが、私はまだ成功していません。皆さんの中でアクティベーションに成功した方がいれば、コメントで教えてください。アクティベーションができれば、有料プランを取得できるはずです。これがすぐに解決されるバグなのか、意図的なものなのかはわかりません。
彼らの投稿を締めくくると、「インフラのスケールアップと全ユーザー対応のために24時間体制で取り組んでいますが、この開発段階ではManusへのアクセスを一時的に制限せざるを得ませんでした。また、ユーザーにより良い価値を提供するために現在の使用率を最適化しようとしています」とのことです。最後に「このベータ段階での皆様の忍耐と継続的なフィードバックに非常に感謝しています。これにより、すべての人にとってより良いManusを構築し続けることができます」と述べています。
つまり、Manusは少し高めの価格設定で登場しつつありますが、彼ら自身が述べているように「より良い価値を提供するよう努めている」ので、将来的には価格が下がるかもしれません。彼らはすでにオープンソースコードを提供する意向を示しています。「Manusの秘密」に関する私の動画で説明したように、彼らは「browser-use」というオープンソース技術を使用しています。その動画を見ればすぐに試すこともできます。
今週のもう一つの重要なニュースは、Gemini 2.5 Proのリリースです。詳細については別の動画で説明していますので、そちらをご覧ください。使い方やテスト結果などをより詳しく紹介しています。このモデルは多くの注目を集め、多くの人が現在最高のモデルの一つだと言っていますが、一部の人々はそれほどでもないと言っています。半分の人が良いと言い、半分があまり良くないと言っているので、各自がテストして自分に合うかどうか確かめる必要があります。
ベンチマークでは非常に良いスコアを獲得しています。特にHumanidの最新テストでは高得点を記録しています。これは、AIがあらゆるテストで80〜90%のスコアを出し始めた後に考案されたテストです。つまり、Gemini 2.5 Proは推論、科学、数学が得意で、高度なコーディングもできます。プロンプトを書くだけで、ゲームや私たちが好きなものをすべて作ることができます。
Google AI Studioに入り、Gemini Pro 2.5を選択すると、最も気に入った機能の一つが「Google検索によるグラウンディング」です。これは、Googleの検索機能をネイティブに使用できるようになったということです。コードを見ると、「Google Search」というツールが表示され、これは素晴らしいです。Googleは特にAPIをテストするための無料クレジットを提供する傾向があるので、この「Google検索によるグラウンディング」機能を含め、多くのことをテストできます。この機能は1日あたり500リクエストまで無料で、それ以降は1000リクエストあたり35ドルのコストがかかります。Googleの検索は非常によくできており、今日も検索のリーダーであり続けているので、活用することをお勧めします。
次のニュースはQWENのQVQ Maxで、画像や動画、写真に基づいて推論を行うモデルです。現在のモデルはテキストに基づいて推論を行いますが、このモデルではビデオや画像を送信すると、それらの画像に基づいて推論を行います。デモでは、2つの画像を送信し、それらの画像に関する質問をして、2つの画像の関係を尋ねています。モデルは推論を始め、2つの写真を見て、「最初の画像は秋の東湖のパノラマ写真で、2番目の画像は冬の写真です。両方とも東湖の写真である関係があります」などと回答します。
同様に、画像に基づく数学的推論も可能で、画像に計算や知りたい情報を含めることができます。例えば、「欠けている項を見つけられますか?」と8つの数字が表示されていて9番目が欠けている問題で、推論モデルが画像上で推論し、最終的に欠けている数字が10であるという結論に達します。
もう一つ重要なのは動画理解です。例えば、カタツムリの絵を描いている人の動画をアップロードし、動画を分析して説明するように質問すると、モデルはその動画に基づいてキャプションを作成します。開始シーン、描画、色付けのステップバイステップの説明を生成します。
別の例では、ゲームの動画を分析し、そのゲームのコードを作成するよう依頼すると、コードを生成してゲームを実行します。これらはすべて動画や画像に基づくビジョンツールを使用しています。試してみたい場合は、QVQ Maxモデルを有効にするか、Thinking機能を有効にしたQWEN 2.5 Maxモデルを使用することで、無料でビデオのパイロットを作成できます。
今週最も衝撃的なニュースは、OpenAIがリリースした「For All Image Generation」で、テキストで画像、漫画、インフォグラフィック、チュートリアルなどを生成できる機能です。これについては2つの動画を作成しました。1つは何であるかを説明し、もう1つはその使い方を紹介しています。詳細を知りたい方はそれらの動画をご覧ください。
興味深いのは、いくつかの画像を送信し、「これらの画像からBobという名前の漫画のキャラクターを作成して」というような単純なプロンプトを送ることで、コメント欄でも「プロンプトを書くのがどれだけ簡単になったか」「多くの情報を与える必要がなくなった」「物事がどれだけシンプルになったか」という声が上がっています。会話を続けていくことで、キャラクターを生成し、そのキャラクターとの会話を通じて漫画やインフォグラフィック、画像などを作成できます。AIと会話することで、長編の素晴らしいものを簡単に作成できます。
これはOpenAIが最近リリースした中で最高のものであり、このAPIバージョンがリリースされて自動投稿生成プログラムを作成できるようになることが待ち遠しいです。それは私たちの生活を大幅に簡単にするでしょう。
この「Images for All」機能は、Plus、Pro、Team、およびFreeアカウントで利用可能ですが、実際にはFreeアカウントは過剰な使用により現在ブロックされています。サム・アルトマンは投稿で、すぐに解決すると述べていますが、現時点ではフリーユーザーには解放されていません。しかし、良いニュースは、Plusプランのユーザーがアクセスできること、そしてSoraでも利用可能であることです。一部の人々は、Soraの方が制限や安全対策が少ないため、生成に適していると言っています。
画像生成に関して、IDGも画像生成サイトとして、OpenAIとほぼ同時に非常に類似したツールをリリースしました。例えば、クリエイティブなデザインを持つリアルな写真や一貫したデザインなど興味深い機能があります。同じパターンや同じタイプの色使いで複数の画像を生成できるのは素晴らしいです。これにより、漫画を作成したり、スタイルを作成したりすることができます。例えば、あるイメージを作成し、それを別のイメージの中のフレームに変換するようなことができます。
IDGはOpenAIよりも多くのツールを持っているので、何をしているのかをより明確に、より多くのオプションで編集できます。IDGの興味深い点の一つは、OpenAIと似たようなことをしていることです。例えば、特定のスタイルを選び、そのスタイルに基づいて他の画像を生成するといったことがOpenAIと同様にできますが、ここではより多くのオプションがあり、画像生成に慣れている人々はOpenAIと比較してより多くのコントロールを感じるでしょう。
IDGでは様々なスタイルの画像を生成でき、テキストを多く含む素晴らしい画像やクリエイティブなものが作れます。例えば、「brogram」というコーヒーショップのロゴを作りたい場合、ロゴの作り方がわからない人でも様々なロゴのオプションを生成してくれます。
つまり、このツールはOpenAIと基本的に同じことをしますが、より多くのオプションとより多くのコントロールがあります。サイズ、色、スタイルをプラットフォーム上で簡単に制御でき、単に選択して作業を開始できます。ブランドを作成したら、広告を作成することもでき、使用可能な多くのデザイン提案を提供します。
IDGを使ったことがない場合は、少なくとも試してみることをお勧めします。特に詳細な作業と細かいコントロールが可能で、画像の拡大、背景の置き換えなどができます。先ほど述べたように、OpenAIと大きく異なることはなく、基本的に異なる企業による異なる名前の同じツールですが、試してみる価値はあるでしょう。
また、今週起きた興味深いことの一つは、OpenAIの主要モデルがArc AIの新しい挑戦的なテストバージョン2で75%から4%に落ちたことです。理解できていない方のために説明すると、昨年、Arc Prizeと呼ばれる知能テストを解決できた人に100万ドルの賞金を提供するプロジェクトがありました。これは人間にとっては非常に簡単なテストですが、AIにとっては非常に複雑なものでした。年末にはOpenAIが75%の効率でこの問題を解決しましたが、多額の費用がかかりました。
しかし今、彼らは「いや、このテストは簡単すぎた。今度は本当に難しくする」と言っています。実は前回のテストでも難しかったのですが、新しいArc AI 2は大幅にテストのレベルを上げています。人間は簡単に解くことができますが、OpenAIのO3のような高度に開発されたシステムでさえ明らかに失敗しています。
フランソワ・ショレ(このプロジェクトの中心人物)とそのチームはArc AI 2をリリースしました。同じフォーマットに従いながらも、チームが言うには「システムの本物の知性を測るためのより強力な信号」を提供するものです。ショレはAIが暗記ではなく、その場で推論することを望んでいます。だからこそ、少し複雑なテストを設定しています。これは「記憶されたスキルではなく、一般的な流動的知能を測定するためのAIベンチマーク」です。
現在のAIは多くのデータを受け取り、それを記憶して正しい答えを出すことがありますが、これは推論ではなく記憶に基づいています。「人間が簡単だと思うが、AIには難しい、前例のないタスクのセット」とショレはXで説明しています。このベンチマークは「現在のAIシステムがまだ持っていない機能—シンボルの解釈、多段階の構成的思考、コンテキスト依存ルールの適用」に焦点を当てています。
このベンチマークは400人の参加者とのライブテストセッションで人間のパフォーマンスに対して完全に調整されました。複数の人々が確実に解決できたタスクのみが保持されました。平均的なテスト参加者は事前トレーニングなしで60%を達成し、10人の専門家パネルは100%を達成しました。一方、OpenAIのAIは現在4%しか達成していません。
テストの例として、古い画面と新しい画面を比較してみましょう。古い画面では、色付きのオブジェクトがあり、穴のないものは黄色、1つの穴があるものは緑、2つの穴があるものは青、3つの穴があるものは赤というロジックでした。新しい画面でも同様のロジックがあり、質問は「このケースをどう解決するか」です。2つの穴があるものは青のままで、4つの穴があるものはピンク、5つの穴があるものは黄色になりますが、表示されていない穴の数の色は不明です。もし何か理解できたことがあれば、コメントで教えてください。
彼らは「現在のAIモデルは新しいパターンに苦戦している」と述べています。これは、AIが今まで見たことのないものに直面すると問題が発生することを意味します。初期テスト結果は懸念すべき状況を示しています。最も先進的なシステムでさえパフォーマンスが悪いです。GPT-4.5、Claude 3.7 Sonnet、Gemini 2などの純言語モデルは0%のスコアです。思考連鎖推論を持つモデル(Claude 3.7 Sonnet Thinking、o1、O3 mini)でも0〜1%しか達成できません。
OpenAIのO3モデルは特に顕著なパフォーマンス低下を示し、Arc AI 1での75%からArc AI 2では約4%に落ちました。2024年のArc Prize受賞者であるTeam Architectsも同様に53%から3%へと急落しました。
また、タスクごとのコストも評価されています。思考連鎖が長くなると、1回の回答に$1,000もかかることがあります。これは非常に高価です。我々は二段階で考える必要があります:まずAIがそれらの問題を解決できるか、そして低価格かつ短時間で解決できるかどうかです。
彼らは「特定のモデル、特にa Highはまだ広範なテストが不足しているか、予測に依存しているため、実際のパフォーマンスはより高い可能性がある」と述べています。効率性が重要な指標となり、Arc AI 2は新しい効率性指標を導入します。このベンチマークは問題解決能力だけでなく、その能力がどれだけ効率的に展開されるかも評価します。コストは初期指標として機能し、人間のパフォーマンスとAIのパフォーマンスの直接比較を可能にします。
「力任せの検索(ブルートフォース)は最終的にArc AIを解決できるかもしれないが、検索のためのリソースと時間が限られている」と彼らは述べています。「ブルートフォース」とはAI分野の技術用語で、すべての可能性をテストし、最も効率的なものを評価することを意味します。問題は、これには通常多くの時間がかかり、我々は次の10分や次の年のための迅速な回答を求めているということです。
「これは真の知性を表現しない」とArc Prize Foundationは説明します。「知性とは効率的に解決策を見つけることであり、網羅的に見つけることではない」。このような定義については深く考える価値があるかどうかはわかりませんが、真実はコストパフォーマンスです。ブルートフォースかどうかは問題ではなく、問題は時間です。
人間の知性とAIの間の効率性のギャップは顕著です。人間の専門家パネルはタスクあたり約$17で100%のタスクを解決しますが、OpenAIのo1モデルはタスクあたり約$200を費やして4%の精度しか達成していません。財政的に言えば、現時点ではAIは人間よりも高価です。
Arc Prize 2025は100万ドルの賞金で発表されました。もし100万ドル(現在のレートで約5百万レアル)を獲得したいと考えているなら、これがやるべきことです。Arc Prizeコンペティションは、Arc AI 2と共に発表され、総額100万ドルの賞金を提供しています。85万ドルのメインプライズは、非公開評価セットで85%の精度を達成する必要があります。追加の報酬には、12万5千ドルの保証された進捗賞と、まだ発表されていない17万5千ドルの賞金が含まれています。コンペティションは2025年3月から11月までKaggleで行われるので、この85万ドルを獲得するまでに年末までの時間があります。
Arc Price.orgの公開スコアボードとは異なり、Kaggleのルールでは、エントリーごとに約50時間のコンピューティングパワーに参加者を制限し、インターネットAPIの使用を禁止しています。これは興味深いルールであり、多くの有能な人々をこの競争から排除することになりますが、モデル自体のアーキテクチャを検証する意図があるのであれば理解できます。
2019年のオリジナルArc AIベンチマークは、AIの最も難しいテストの一つと考えられ、推論モデルの台頭を示しましたが、どちらのバージョンもAGI(人工知能一般)の達成を示すとは主張していません。開発チームによれば、両方のベンチマークはAGIに到達することなく未解決のままである可能性があります。
ショレはAGIが達成されたと言うことを好まない人物の一人ですが、私はAGIはずっと前に達成されていると考えています。現在、人々が懸念しているのは、人間レベルのAGIを作成することです。
個人的には、ショレの視点をあまり共有しておらず、このような色付きのテストは好きではありません。特に私は心理学の初期訓練を受け、知能テストに多く取り組んできました。人々がこれを知能と言うために使用する原則は非常に曖昧です。人間がこれらの能力を持っていると主張することは理解できますが、人間がこれらを解決できる理由は非常に不明瞭で不気味なものです。これは科学ではなく、推測と観察です。技術的には、これは非常に曲がりくねった環境にあり、AIがこれを解決できれば少なくともいくつかの結論を導き出せるということに同意しますが。
このテストについてどう思いますか?AGIが起こるかどうかを確認するための良い方法だと思いますか?ショレは最初のテストはディープラーニングへの挑戦だったと述べ、それは機能したかどうかを確認するためのものだったが、機能し、75%の解決策を達成したと言いました。そして今、この新しいテストは推論モデルへの「じゅうたん引き」だと述べています。2025年末までに誰かがこれを解決できるかどうか見てみましょう。
この過去の週についてどう思いましたか?本当に素晴らしかったですね。私はOpenAIのこの画像生成に今でも驚いています。非常に複雑だったものを信じられないほど簡単なものに変え、画像生成を超シンプルなものに変えました。
皆さんの考えをコメントで教えてください。このようなビデオを続けて見たい場合は、チャンネルをサポートするためにメンバーになってください。メンバーはインテリジェントエージェントに関する限定動画にアクセスできます。いいねをお願いします。

コメント

タイトルとURLをコピーしました