
8,124 文字

わずか4ヶ月で実現した進歩は驚くべきものです。私たちは本当に時代の境目に立っています。つい数日前、OpenAIはChatGPTに二つの新しいモデル、o3とo4 Miniをリリースしました。彼らはこれらが今までで最も賢く、最も性能の高いモデルであり、様々なツールや全てのソーシャルネットワークに完全にアクセスできると主張しています。そしてソーシャルメディア上では、専門家たちがこのモデルについて大いに盛り上がっています。なぜならこのモデルは非常に賢く、以前はできなかった多くのことができるからです。
今日は、これが実際にどういう意味を持つのかを説明します。一緒に複雑なテストをたくさん行い、その結果を見ていきましょう。このモデルに関する一般的な熱狂は大規模なもので、次々と記録が更新されています。ここ数日、私はこのモデルをテストして、どれほど優れているのか、あるいは劣っているのかを正確に確認してきました。この動画では、ChatGPTで実現できる本当に印象的で興味深い機能をいくつか紹介します。
詳しく掘り下げていきますが、今までAI(人工知能)に成功させることができなかった完全に狂気じみたテストをChatGPTが今やこなせることがわかるでしょう。本題に入りましょう。もし動画を気に入っていただけたらいいねをするか、まだの方はチャンネル登録をお願いします。また、月曜から金曜まで最高のテックニュースのまとめを無料でメールでお送りするニュースレターを設定しました。登録は簡単です。リンクは全て動画の説明欄にあります。
それでは最初のテストです。ChatGPTがあなたの現在地や単に写真の場所を見つけるのがどれだけ驚異的かをご覧ください。これはソーシャルネットワーク上で大きな反響を呼びました。この例をご覧ください。ここでは、ユーザーが自分の写真を載せただけでAIに自分がどこにいるのかを尋ねており、AIは驚くほど正確に場所を特定しています。写真を見ただけでは「どこにいるのかわからない」と思うかもしれません。別の例では、Googleマップの写真を詳細情報なしに投稿し、AIはGPS座標まで含めて正確な場所を特定しています。
これが私たちの最初の例です。これは私が最近パリで撮った写真で、レストランのメニューです。この例のために撮ったものです。ChatGPTのインターフェースに写真をコピーし、アップロードします。モデルはo3を選択しています。これが最も強力なモデルで、この二つのモデルの最も印象的な機能の一つが見られるでしょう。実際、このモデルはこのような例から強化学習によって訓練されています。つまり、写真からこのように場所を見つけるように訓練されているのです。
シンプルなプロンプトを入力します:「このレストランの名前は何ですか?どこにありますか?」スマートフォンで撮影した写真で、メタデータなどはないことを確認しました。モデルが考え始めます。私はo3を選びました。o4 Miniよりも少し性能が高いからです。そして特に、ツールの呼び出しパワーを見ることができます。ツールの呼び出しとはさまざまなツールにアクセスできるということですが、すぐにその意味がわかるでしょう。
ご覧のように、画像を開いて画像の特定の部分にズームしています。上部をズームし、考えています。本当にすべての手順が見えます。最初の部分をズームして「名前はまだ見えない」と言っています。上部のタイトルを見ても何も見つからず、下部も確認しています。メニューのフッターを見ても、レストランの名前はまだ見えないと言い、おそらくメニューの中央に印刷されているかもしれないと推測して、そこを見ています。これはかなり印象的です。人間のように振る舞うAIが、画像のあらゆる部分を本当に見て、どこにあるのかを知るための手がかりを探しています。
そして、返答までの思考時間は1分22秒です。「メニューはレストラン「La Flottille」のものです」。はい、確かにそのレストランでした。どうやって見つけたのか知りたいですね。最後の思考のステップを見てみましょう。彼は実際に一番下で何かを見つけました。「中央に太陽や星のような小さなエンブレムがあるのに気づきました。ディズニーランドのカンティーナのようなものです。でも「La Flotti croque monsieur」という名前のプランもあります。これはベルサイユの「La Flottille」レストランを示唆している可能性があります」。そして、このレストランが緑色のパネルを使用していることを知っており、周りの緑色のパネルを見てこのレストランだと判断しました。
これは驚くべきことです。ただ、下部のフッターのおかげで名前を見つけたように見えるかもしれないので、画像を修正してフッターを完全に削除し、もう一度テストを行いましょう。新しいチャットを開いて同じではないことを確認し、同じプロンプトを貼り付けます。レストランの情報をフッターから削除したので、うまくいくかどうか見てみましょう。
再び画像を分析し始めました。今回はより苦労しているようです。しかし、手がかりを見つけました。「このレストランのメニューには緑色の枠があります。これはベルサイユ庭園の特徴です」と言っています。知りませんでしたが、どうやらそうですね。まだ確信はないようですが、ロゴを見つけました。そこでインターネットに行って、おそらくそのレストランのロゴと比較しています。星型の花のモチーフがロゴに対応する可能性があるとわかりました。これは最初の例ではしませんでした。インターネットで検索して比較する必要があったのです。別のツールを使用したわけですが、どれだけ強力かがわかります。
メニューが本当にそのレストランのものであることを確認するために5つの異なるサイトを調べました。そして同じレストランを特定できました。レストランの名前を完全に削除したにもかかわらずです。このような例はたくさんあります。Xを見ていると、このAIが場所を特定できる能力は本当に驚異的です。
最後にもう一つ例を見てみましょう。手順は省略しますが、Googleマップからこのスクリーンショットを撮りました。ソフィア・アンティポリスのロータリーで、ニース近くにあります。他の情報なしでこの場所を特定できるか試してみます。同じプロンプトを使って画像を送信し、思考の過程を見てみましょう。
今回はかなり苦戦しています。3分ほど考え続けていますが、彼がやっていることを見るのは非常に興味深いです。最初は看板を分析するという考えから始めました。画像のいたるところをズームし始めましたが、あまりうまくいきませんでした。途中で「看板に集中するのは間違いだったかもしれない、他の領域を拡大して見てみよう」と考えを変えています。いろいろな場所を見始め、他の看板を見つけましたが、それを読むことはできませんでした。
そして「テキストを読むことはできないが、背景の山を観察することで場所を推測できるかもしれない」と考えました。これは本当に興味深いです。背景の山を見始め、この場所がヴァルボンヌ近くのソフィア・アンティポリスのビジネスパークであると推測しました。実際にそこです!彼は看板で「can」という単語が見えると言い、あまり見えない看板を解読することに成功しました。そして、それがその場所の近くにあると仮定し、考え続けました。アイデアが浮かぶと、インターネットを使い始め、その場所についての検索を始めました。
4分5秒後、彼は場所を正確に特定しました。非常に印象的です。もし写真や画像があれば試してみてください。画像を与えて「これはどこですか?」と尋ねれば、驚かれることでしょう。
次のテストに移りましょう。先ほど言ったように、先日パリにいてルーブル美術館を訪れました。皆さんもご存知かもしれませんが、エジプトに関する展示があり、そこでヒエログリフの写真を撮りました。これが画面に表示されているものです。そこで、ChatGPTがこの石碑を解読してその意味を教えてくれるかという考えが浮かびました。実際に展示の前で、スマートフォンを取り出し、GPTを開いて写真を撮り、これを解読するように頼みました。
当時はo3はありませんでしたが、その答えに驚きました。今回はo3でこの画像を与え、何ができるか見てみましょう。画像をコピーしてChatGPTに戻り、プロンプトエンジニアリングの技術に従ったプロンプトを用意しました。「あなたは古代ヒエログリフの翻訳を専門とするエジプト学の専門家です」と伝えています。プロンプトの続きはそれほど重要ではありませんが、送信してみましょう。AIが何をするか見てみましょう。
すぐに画像分析ツールを使い始め、画像を分析し始めました。彼の思考を詳細に見るために開いてみましょう。先ほどと同様に、画像のさまざまな部分を見て、ズームし、考え始め、各シンボルを分析し始めています。「画像には横たわるジャッカルが表示されており、おそらくアヌビスに関連している」と言っています。
私はエジプト学の専門家ではありませんが、ChatGPTの知識を信頼できると思います。彼は多くの推測を続けており、それを読むのは非常に興味深いです。私にはよく理解できませんが、「詳細を確認し、検索を使用して碑文のテキストを確認する」という彼の言葉に安心します。実際、インターネットに行って情報を確認しようとしているのです。これにより、彼が言うことに安全性の層が追加されます。彼は「Hieroglyph translation decree」などの検索を始め、この種の石碑の既存の翻訳を見て、自分の分析と一致するかを確認しようとしています。思考のモードとしては非常に興味深いです。
彼が考えている間、ソーシャルメディアではo3がAGI(人工汎用知能)に達したのか、あるいは少なくともプロトAGIなのかという大きな議論があることをお知らせします。これを見ると、人々がこの疑問を持つのは当然だと思い、この理論を簡単に否定することはできません。あなたにこの写真を与えて、この石碑を分析するように頼んだとしたら、どうしますか?おそらく同じことをするでしょう。写真を取り、各部分を見て、推測し、インターネットで情報を探す、つまり図書館で本を探すか、何であれ、この全過程を行うでしょう。
これを見て、ChatGPTなどの言語モデル(LLM)は単なる言語モデルなのか、それともその背後にもっと多くのものがあるのか、あなたはどう思いますか?私の意見では後者です。確かにこのAIは主にテキストを扱いますが、テキストでほとんど何でもできる、少なくとも私たちが思っているよりもずっと多くのことができるし、ほとんどのことができるという事実に気づいてください。いずれにせよ、最近のAIの進歩を見ればあなた自身で判断できるでしょう。
わずか4ヶ月前、私たちはAIの分野では石器時代のような状態でしたが、今は非常に速いペースで発展しています。彼の思考を見ると、時々彼が考えていることや言っていることは非常に奇妙です。例えば「アネミスの寄贈石碑が存在するようです」と言い、「これについてもっと情報を探してみます」と続け、「Let’s go」と言っています。なぜこんなことを言うのでしょうか?本当に人間のように、あるいは少なくとも楽しんで検索している知性のように見えます。このようなものを見るたびに驚きます。o3や思考するモデルの思考を見ると、しばしばこのようなことが起こります。
おそらく計算能力の制限で停止したようなので、単に「続けて」と言いました。残念ながらOpenAIの計算能力は無限ではありません。彼は5分以上考え続け、さらに6分考えました。これはかなり重いタスクですが、驚くほど成功しました。
彼は石碑を迅速に特定し、石碑の番号と私が求めていた翻訳部分を提供してくれました。「王が与える贈り物、偉大な神、シオトの主、彼の聖域に住む者へ」と1行目を翻訳し、石碑の各行を翻訳してくれました。正直、これはかなり印象的です。次回、博物館などを訪れる際、ChatGPTアプリをインストールしていれば、スマートフォンを取り出して写真を撮り、何でも尋ねることができます。かなり驚かれることでしょう。
この動画が30分になるわけではありませんが、ChatGPT o3ができる別の例を見てみましょう。ソーシャルメディアで広く共有されているのは迷路を解くことです。この人は例を示しています。入力としてこの画像、かなり複雑な迷路を与え、これがo3の結果です。赤い線で迷路を解いているのが見えます。この人は200×200の迷路で一発で成功したと言っています。これは小さなことではなく、大きな組み合わせ問題です。よくやりました。これは彼に渡す非常に良いテストです。あなたがこれを解くのにどれくらいの時間がかかるでしょうか?繰り返しますが、AIは多くのことができます。過小評価しないでください。
別の例を見てみましょう。Googleで「ボートの写真」と検索してこの写真を見つけました。「ChatGPT o3に別のことを頼もう」と思いました。このボートの場所、所有者、モデルを見つけてもらうのはどうでしょう?休暇中に車、ボート、バイク、何でも見かけて「これは何だろう?」と思うことがあるかもしれません。同じように、スマートフォンを取り出して写真を撮り、ChatGPTにすべて尋ねることができます。
画像を与え、「このボートのモデルは何ですか?所有者は誰ですか?現在どこにありますか?」と尋ねました。結果を見る前に、私のプロジェクトについて30秒お話ししたいと思います。私は実生活での人工知能の習得方法を教えています。起業家、コンテンツクリエイター、従業員、学生、または引退した方でも、アイデアのブレインストーミングや自動化、文章作成、分析など、AIを使って何でもできるように教えます。この講座では理論ではなく、実際のパワー、スピード、レバレッジについて話します。
実用的なツールボックスとしてこのトレーニングを設計しました。このようなデモを詳細に見て、すべての仕組みを一歩一歩説明します。だけでなく、AIの全体を教えます。すべてのLLM、画像生成ツール、ビデオ、AIでコードを書くためのツール、AIエージェントなど、AIのすべての分野をカバーします。すでに1000人以上が参加し、フィードバックは本当に素晴らしいです。これが私を続けさせる理由です。リンクは説明欄またはビデオの下のコメントにあります。ぜひ見に来てください。失望することはないでしょう。レースに参加し続けたいのであれば、今が乗船するときです。
では、写真を送信し、結果を見てみましょう。2分48秒で完了、悪くないですね。彼が言うには、これは間違いなく115mのスーパーヨットで、2021年に発表されたプロジェクトEnzoだそうです。所有者については、納入時には億万長者のMichael Lee Chinに所属し、その後カナダのビジネスマン、Patrick Dovigiに売却されたようです。カナダの視聴者の皆さん、こんにちは!多くの方が見ているのを知っています。
かなり詳しいことがわかります。所有者と、2025年4月23日(この動画を撮影している日)の現在位置も教えてくれました。これは本当に最新の情報です。ボートの現在地を教えるために最新の信号を探しに行ったのです。現在マイアミにあることがわかり、座標も示されています。正確かどうかはわかりませんが、インターネット上にはOSINT(オープンソースインテリジェンス)という分野があり、画像から多くの情報を収集して人々の位置を推測します。これをたった2分でやってのけたのは本当に驚くべきことです。
Patrick Dovigi、もしかしたらあなたも視聴者かもしれませんが、それはとても考えにくいですね。でもあなたが現在マイアミにいて、あなたのボートもそこにあることがわかっています。最後の興味深い一文も面白いです。「フランスのコートダジュールから撮影したようです」と言っています。つまり、この写真が撮られたときはコートダジュールにあったようです。かなり詳しく教えてくれましたね。もっと質問を続けることもできます。
最後のテストとして、5ページの子供向け本を作るように頼んでみましょう。各ページには短いテキストとかわいいイラストが含まれるべきで、ページは互いに一貫性を持っている必要があります。ここではChatGPTの一貫性をテストしたいと思います。簡単に一貫性のある本を生成できるでしょうか?各ページ全体の画像を生成してください。
o3が私のために作った本がこちらです。子供たち、特に小さな子供たちにとって非常に興味深い画像付きの小さな本ができました。お子さんがいれば、試してみてください。o3にアクセスして、教えたいコンセプトなどについて、このような画像本を作成するよう依頼してみてください。ここでは適当に指示しましたが、もっと深く掘り下げることもできます。
これでまた素晴らしいテストを完璧にo3が通過しました。4つか5つの例を見ましたが、実際にはもっとたくさんあります。今やあなたが何か作業に直面したとき、常に頭の中で「o3ならこれができるだろうか?」という小さな音楽が鳴るべきです。人々は新しい機能を発見し続けています。もし最新情報を追いたいなら、Twitter(X)に来ることをお勧めします。そこで最新のリリースを分析しています。例えば、DeepSeek R2がもうすぐリリースされることが最近わかりました。これは大きな変化をもたらす可能性があります。私はそれをカバーし続けるでしょう。
この数日間でこれらのモデルを使用する機会はありましたか?これまでの経験はどうでしたか?コメント欄で教えてください。業界からのフィードバックによると、かなり驚異的なようです。いつものように、私はAIの最高のニュースとツールに注目し、皆さんと共有し続けます。それは約束します。
この動画を楽しんでいただけたなら、いいね、シェア、チャンネル登録を忘れないでください。さらなるコンテンツのために接続したままでいてください。また、AIの世界ではあまりにも多くのことが起きているため、YouTubeチャンネルですべてをカバーすることはできないことをお伝えしたいと思います。すでに毎日一つの動画を作っていますが、常に動き続けている状況すべてをカバーするのは難しいです。
もし本当にすべての最高の技術について最新情報を得たいのであれば、ニュースレターを設定しています。また、トレーニングも設定しています。AIの使用方法を教えます。今見てきたことすべてをトレーニングで見ています。これらのツールの使い方を見るだけでなく、もっと深く掘り下げます。これらのツールだけでなく、ビデオ作成ツール、AIでコーディングするためのツール、エージェントなど、AIのすべての分野を本当にカバーしています。
AIの学習をさらに進め、世界を変えるこの技術について最新情報を得たいなら、ぜひお越しください。私たちは本当に新しい近代産業革命を経験しています。リンクは説明欄またはビデオの固定コメントにあります。今回は以上です。いつものようにありがとうございます。また明日、次のニュースや技術でお会いしましょう。
もしこの人工知能に関する分析に興味を持ち、この魅力的な分野の進歩についての理解を深めたいなら、私の人工知能専用X.comページをチェックしてみてください。そこでは私たちの日常を変え、未来を形作る人工知能の最新イノベーションと具体的な応用についての詳細な分析を見つけることができます。


コメント