AIモデル評価

GPT-5

新しいGPT-5.4推論テスト

OpenAIの新モデルGPT-5.4が登場し、その推論能力を科学的なテストで検証した結果が報告されている。テスト内容は独自の因果推論テストであるエレベーターパズルで、0階から50階まで20回未満のボタン操作で到達する最短経路を見つけるという...
Google・DeepMind・Alphabet

Gemini 3.1 Proは史上最も賢いモデルだ

Google最新モデルGemini 3.1 Proのベンチマーク結果は圧倒的な数値を叩き出す一方、実際の使用感では深刻な問題を抱えている。AIインテリジェンス指数では歴代最高スコアを記録し、ARC AGI 2での78%達成など知識面での優秀...
GPT-5

ChatGPT 5.1の実力テストと2025年最高のAIはどれか

OpenAIが新たにリリースしたChatGPT 5.1の性能を実際にテストし、ゲーム制作、ウェブサイト構築、SVG描画、3D生成など多様なタスクで評価を行った。さらにAIエージェント機能を用いた旅行計画の実験も実施し、航空券やホテル検索にお...
Google・DeepMind・Alphabet

Gemini 3.0 Pro:史上最高のモデル!最もパワフルで最も安価、そして最速のモデルがCanvasに登場!

Googleの次世代モデルGemini 3.0 Proのリリースが間近に迫っており、最終チェックポイントのテストが進行中である。このモデルはGemini EnterpriseやモバイルアプリのCanvas機能を通じてアクセス可能となっており...