AIモデル評価

新しいGPT-5.4推論テスト

OpenAIの新モデルGPT-5.4が登場し、その推論能力を科学的なテストで検証した結果が報告されている。テスト内容は独自の因果推論テストであるエレベーターパズルで、0階から50階まで20回未満のボタン操作で到達する最短経路を見つけるという...

2026.03.06

GPT-5

Google最新モデルGemini 3.1 Proのベンチマーク結果は圧倒的な数値を叩き出す一方、実際の使用感では深刻な問題を抱えている。AIインテリジェンス指数では歴代最高スコアを記録し、ARC AGI 2での78%達成など知識面での優秀...

2026.02.22

Google・DeepMind・Alphabet

OpenAIが新たにリリースしたChatGPT 5.1の性能を実際にテストし、ゲーム制作、ウェブサイト構築、SVG描画、3D生成など多様なタスクで評価を行った。さらにAIエージェント機能を用いた旅行計画の実験も実施し、航空券やホテル検索にお...

2025.11.18

GPT-5

Googleの次世代モデルGemini 3.0 Proのリリースが間近に迫っており、最終チェックポイントのテストが進行中である。このモデルはGemini EnterpriseやモバイルアプリのCanvas機能を通じてアクセス可能となっており...

2025.11.14

Google・DeepMind・Alphabet