新しいClaude Haiku 4.5、Andrej KarpathyのNanoChat、MicrosoftのMAI Image-1、そしてAIの最新情報

AIニュース
この記事は約18分で読めます。

本動画では、2025年10月における最新のAI関連ニュースと技術動向を包括的に紹介している。MicrosoftによるMAI Image-1という新しい画像生成モデルのリリース、NVIDIAの小型スーパーコンピュータDGX Sparkの発売、AnthropicによるClaude Haiku 4.5の公開、そしてOpenAIとTeslaの元研究者であるAndrej KarpathyによるNanoChatという独自LLMを訓練できるオープンソースプロジェクトについて詳述している。さらに、投稿者自身がArduinoとスマートフォンを組み合わせたロボット制御プロジェクトの進捗を実演し、MQTT通信とPythonを活用した遠隔制御システムの構築過程を具体的に解説している。技術的な実装例を交えながら、AI技術の民主化と実用化に向けた最新動向を伝える内容となっている。

NOVO Claude HAIKU 4.5, NanoChat do Andrej Karpathy, MAI Image-1da Microsoft e Novidades da iA
Aprenda Inteligência Artificial! ▸ Aprenda Agentes iA: ▸ Seja MEMBRO:

Microsoft MAI Image-1と画像生成AIの比較

みなさん、新しいニュースが次々と届いていますよ。ついにMicrosoftも独自の画像生成モデルを出してきました。NVIDIAからはミニサーバーの新製品、Anthropicからは小型モデルのClaude Haiku 4.5がリリースされました。そしてOpenAIの元スタッフでTeslaでも働いていたAndrej Karpathyが、私たち自身の人工知能を作れるコードを公開しました。

それから、私たちの小さなプロジェクト、あのロボットのプロジェクトも見ていきましょう。動いているんですが、素晴らしい出来なんです。それでは始めましょう。

いつもいいねを押してくれた皆さん、チャンネル登録してくれた皆さん、本当にありがとうございます。このAIチャンネルをスポンサーしてくれているチャンネルメンバーの皆さんには特別な感謝を。メンバーの方々は、WhatsApp統合、MCP、PDFやドキュメントの読み取りなど、様々なことを教えるインテリジェントエージェントの限定動画にアクセスできることを覚えておいてください。

そして、ご覧のとおり、ボブことジャスティン・ビーバーが髪を切りました。ようやくスケジュールに少し時間ができて、これを切ることができたんです。

私たちのプロジェクトはすごいことになっています。最後までお付き合いください。いい感じになってきているのが分かると思います。

さて、皆さん、見てください。Microsoftが最近このモデル、MAI Image-1をリリースしました。LM Arenaで利用できます。基本的には画像生成モデルなんですが、今回はMicrosoftのもので、これまでこういうことをやっていなかった企業ですからね。

彼らはボーナスとして3枚ほど画像を載せていて、見られるようになっています。砂漠にいるロードランナー、テキストを書くことを示す画像もあります。そのことは考えていなかったんですが、今見てみる価値がありそうですね。そしてここには、とても控えめに通りを歩いている人がいます。

この控えめな広告のサイズを見ると、あまり目立とうとはしていないことが分かります。でも彼らはこう言っているんです。「私たちはここにいます」と。

それで私は何をしたか。LM Arenaに行っていくつかテストをしてみました。このプロンプト、ワニとジャガーのもので、カンガセイロの帽子をかぶったジャガーがアコーディオンを弾き、ヴィオラ・カイピーラを弾くジャガーと音楽対決をしているというものです。このプロンプトを実行して何が起こるか見てみました。

皆さん、気に入ったところもあれば、あまり気に入らなかったところもあったんです。でも、例えば素晴らしいと思ったところ。このアコーディオン、見てください。乾燥した気候で、世界の果てのような場所にあるので、少し古くて年季が入っているのは理にかなっています。これは非常に強いポイントだと思いました。

もう一つ気に入った強いポイントは、このタイプの画像でこのプロンプトを使った全ての生成の中で、これが最もリアリスティックで、実世界のものに最も近く、まるで本物のジャガーと本物のワニのようでした。

でもいくつか弱点があります。例えばこのバイオリン、見てください。ワニの中に入っちゃっているんです。それで、このバイオリンがどうやってそこに入ったのか、どうしてこんな風になっているのか、誰にも分かりません。分かりますよね。おかしなことになっています。変なところがあるんです。

違いが分かるように、例えばNano Bananaではこの画像がとても気に入りました。とても良くできていますが、それほどリアリスティックではありません。分かりますか。少しアニメ調で、もう少しアニメーションレベルに近いですが、両方とも素晴らしいです。これがNano Bananaで、こちらがMicrosoftのMAI Image-1です。

次に別のプロンプトを入れました。カンガセイロの帽子をかぶり、オウムと一緒に歩く、アコーディオンを弾くジャガーが、バイーア州のペロウリーニョの通りを、ヴィルグリーノ・ランピオンのスタイルで歩いているというものです。

そうしたらこの画像が生成されて、本当に素晴らしいと思いました。この画像はとても良いです。でも小さな問題があります。このジャガーには6本の足があるんです。歩くために使う4本の足があり、アコーディオンを弾くために使うボーナスの足がさらに2本あります。でもオウムはとても良くできていて、帽子もとても面白いし、ここは本当にペロウリーニョに見えます。とても良い画像です。

6本足のジャガーを生成してしまったので、もう一度同じものを生成するよう頼みました。そうしたらこの画像が生成されて、これもとても良くできています。オウムはコンゴウインコに見えます。今度はジャガーの肩にちゃんとオウムがいるはずなのに、押しつぶされたオウムが現れていますが、風景や照明はとても良く、とても興味深いです。

そしてここでも、同じプロンプトで生成した他のバージョンとは違って、かなりリアリズムを感じました。他のバージョンも素晴らしいんですけどね。例えばAnanimous Botがこの素晴らしい画像を同じプロンプトで生成しました。Nano Bananaがこの画像を生成して、これはスタイル的にかなり似ています。見てください。奥にある家、通り、照明がNano Bananaととても似ています。

でも例えばCoinimadのものもとても良いですが、Queenimのものはよりアニメーション風に見えます。City Drinkのものもとても良いですが、より絵画のように見えます。ここにあるこれらの画像は全て、このプロンプトで得られた最高の生成結果です。つまり、ここで皆さんが見ているのは最高の最高の最高なんです。これについてどう思うかコメントしてください。

ここでテキスト生成をしてみましょう。これは考えていなかったことです。ここに追加しました。「バイーアへようこそ」というテキストの看板を置いてください。あそこにクラシス(アクセント記号)があります。何が起こるか見てみたいです。ポルトガル語でテキストを入れるかどうか見てみたい。さあ、見てみましょう。

皆さん、見てください。完璧です。「バイーアへようこそ」です。テキストはポルトガル語で、正しく書かれています。間違えるかもと心配していたクラシスも正しくできています。オウムはコンゴウインコのように見えますが、ここにアコーディオンを弾いている私たちのジャガーがいます。そしてこれがペロウリーニョです。素晴らしい。どう思ったかコメントしてください。

NVIDIAのDGX Sparkと新しいハードウェア

次のニュースです。NVIDIAがDGX Sparkをリリースしました。

DGX Sparkとは何でしょうか。この砂色の小さなブロック、コンピュータの横にある小さなものです。これは自宅や事務所内でローカルにLLMを実行するためのスーパーコンピュータで、クラウドで何かを実行する必要がありません。

そして最も注目すべきは、128GBのGPUという素晴らしい構成です。その通りです、皆さん。32Bや70Bのような小さなモデルよりもはるかに大きなモデルを中に入れることができます。かなり大きなものがここに収まります。

2016年の旧バージョンと比較すると、エネルギー効率を見てください。これは3,200Wを消費していましたが、今や2025年の新しいDGXは240Wしか消費しません。つまり、非常に少ないんです。

2016年の古いものは129,000ドルでした。新しいものは今4,000ドルです。価格が少し下がったことが分かりますね。

では、これで私たちは一台買って家に持てるようになったということでしょうか。結局、価格がかなり下がったわけですから。まあ、そうは思いません。なぜなら、この4,000ドルに税金、通貨換算、輸入などを加えると、だいたい40,000レアルくらいになるからです。

そしてそれがだいたいこの価格でした。Googleで簡単に検索してみたところ、AliExpressで46,000レアル、他の場所では60,000レアルで販売されています。私たちの財布には少し高すぎると思います。

アメリカ人が4,000ドルでこれを買うのは、私たちが4,000レアルの製品を買うようなものですが、40,000、60,000となると高すぎ始めます。そしてここには120,000レアルで2台売っているところもあります。

だから分かりません。このようなものはまだブラジル人の財布には合っていないようで、いつか手が届くようになるかどうかも分かりません。でも私たちは希望を持ち続け、いつか良い価格で手に入ることを期待しています。

AnthropicのClaude Haiku 4.5

次のニュースです。AnthropicがClaude Haiku 4.5をリリースしました。

これは非常に興味深いです。なぜなら、Haiku 4.5モデルは、より安価でより高速な小型モデルだからです。他のモデルと比較した場合のパフォーマンスを見てください。

プログラミングテストで77%を獲得したSonnet 4.5と比較して、Haikoは73%を獲得しました。Sonetの古いバージョンであるSonnet 4を少し上回っています。つまり、Haikuは古いバージョンのSonetを置き換えていると言えます。これは素晴らしいことです。なぜなら、特にAPIをClaude Codeや他のプログラミングモデルで使用している人にとって、かなり安価だからです。

まだ見ていない方、まだテストしていない方は、テストすることをお勧めします。

Andrej KarpathyのNanoChat

次のニュースですが、これはかなり興味深いです。見てください、すごいですよ。Andrej Karpathy、この方はOpenAIとTeslaの元研究者です。彼の簡単な経歴を見てください。Teslaでディレクター・オブ・AIを務め、OpenAIでチームを設立しました。重要なことすべてに関わっています。

彼は、生成AIのチュートリアルでYouTubeで最も視聴されているチャンネルの一つを持っています。特に、自分のPCでGPT-2バージョンを作る方法を教えるチュートリアルがあるからです。

そしてここで彼はこの長文を投稿しました。翻訳された部分を読んでみましょう。私が書いた中で最も狂気じみたリポジトリの一つである、NanoChatと呼んでいる新しいリポジトリを立ち上げることにわくわくしています。

ここで「狂気じみた」という言葉は、クレイジーな、そのような意味で使われています。それが彼の言いたいことです。

プリトレーニングのみを扱っていた以前の類似リポジトリNano GPTとは異なり、これについては先ほど説明したように、これらのことを教える方法を示していますが、NanoChatは最小限の依存関係で単一のコードベースにある、シンプルなChatGPTクローンのゼロからの最小限かつフルスタックのトレーニングおよび推論パイプラインです。

つまり、いつかゼロからChatGPTを作れるようになるのだろうかと疑問に思っているなら、トレーニングから、トレーニング後、チャットとのテスト、会話まで含めて、今やその方法があります。それがこのNanoChatです。

クラウドでGPUを初期化し、単一のスクリプトを実行すると、わずか4時間でChatGPTに似たWebインターフェースで自分のLLMと対話できます。

皆さん、彼は私たちのために全部やってくれたんです。再生ボタンを押すだけです。私の意見では、かなりクリーンなコード約8,000行です。

そしてここで彼は、ここにあるすべてのこと、行われたすべてのことを説明しています。トークナイザーをトレーニングし、Transformerのプリトレーニングを行い、ユーザーとアシスタント間の会話の中間トレーニングを行い、地球の知識を持つチャットモデルの評価を行い、オプションの強化学習モデルがあり、自分自身の開発をしたい人のためのこれらすべてがあります。

これは誰もが自分の人工知能を持てるようにドアを開いています。

そして彼はこうコメントしています。8台のH100 GPUで約4時間かかり、約100ドルかかります。分かりますよね。NVIDIAの8台のH100 GPUを用意する必要があります。これは非常に優れたGPUです。

トレーニング時間である約4時間レンタルすることになります。そして100ドル、私たちにとっては約500レアルかかりますが、自分のデータで、欲しいものすべてでゼロからトレーニングされた自分の小さなモデルを手に入れることができます。

そして彼は、12時間トレーニングすれば、GPT-3が出る前の昔のGPT-2、私たちが最初にテストしたモデルの品質を超えるとコメントしています。

1,000ドル、約40時間のトレーニングに相当する金額を使いたいなら、より一貫性が出始め、簡単な数学問題やコードを解決でき、多肢選択テストを行えるようになります。

つまり、皆さん、1,000ドル、約5,000レアルで、自分のデータでトレーニングされた自分のモデルを手に入れることができます。

この場合、すでに有用なモデルです。そして彼はこうコメントしています。彼の目標は、強力なベースラインスタック全体を、まとまりがあり、最小限で、読みやすく、ハッキング可能で、最大限フォーク可能な一つのリポジトリにまとめることです。

NanoChatは、まだ開発中のLLM101Nの最終プロジェクトとなります。このLLM101Nとは何でしょうか。これは、人々に人工知能の作り方を教えるために彼が開発しているコースです。

この人は現在、地球上で最高のAI教育者です。なぜなら、彼は人工知能に精通しているだけでなく、OpenAIで働き、Teslaで働き、これらのモデルを作成し、長い間これらのことを教えてきたからです。

以前のNano GPTと同様に、研究リポジトリやベンチマークになる可能性もあると信じています。決して完成されたものでも、調整されたものでも、最適化されたものでもありません。実際、まだかなりやるべきことがあると思いますが、全体的な骨格が十分に良好な段階に達しており、GitHubで公開でき、そこですべての部分を改善できると信じています。

理解していただけましたよね、皆さん。NanoChatはここにあります。

GitHubに行けば、このコードが見つかります。NanoChatで、始め方、クイックスタートの方法などが説明されています。コードをダウンロードし、すべてのセットアップを行い、インストールします。

彼はここにNanoChatのデモ画面も載せていて、会話をしたり、チャットしたりしています。元気ですかと尋ね、彼が答え、チャットを作り、トレーニングし、ゼロからトレーニングされた人工知能を持つためのプロセス全体を行うことを示しています。

それで、自分のモデルをトレーニングする気になりましたか。基本的なテストを行うのに500レアル、自分のGPT-2を作るのに5,000レアルかかります。でも少なくとももう100万ではありませんよね。DeepSeekのトレーニングはDeepSeekを作るだけで500万ドルかかりましたから。つまり、5,000は最高で、5,000なら文句は言えません。

何かを得ているわけで、進歩しています。興奮したかどうかコメントしてください。もしトレーニングを実行することに決めたら、どうだったか、良かったかどうか、トレーニングプロセスをどのように行ったかコメントしてください。知りたいですから。

Arduinoとスマートフォンの統合プロジェクト

さて、皆さん、配達をしたり、散歩したり、様々なことができる小型車を制御するために行っている私たち個人のプロジェクトに関して、私は主要部分、つまりArduino内にスマートフォンを統合することを行いました。これは私たちのFrog、2020年、2021年、2022年のチャンネルのプロジェクトで使っていた古いArduinoです。

さて、私が何をしたか、実際にはどのように機能しているか。私はこの小さなOTGアダプターを使用しています。これにより、Arduinoをスマートフォンに接続できます。

ご覧のとおり、Arduinoは電源が入っていません。小さなランプも点灯していませんが、ここに接続するとすぐに、ライトが点滅し始め、いろいろなものが点滅し始めます。見てください。小さなLEDが点滅していますが、もう止まりました。ほら、通信しています。つまり、これは機能しているということです。

ここに接続したら、コントローラー内で何が起こっているか。次のようなことです。これが私のスマートフォンです。これが私のスマートフォンです。告白しますが、文字が少し汚いです。有線の私のスマートフォン、分かりますか。私のArduino。

了解です。Arduino。私のスマートフォンには、Pydroidと呼ばれるアプリケーションが実行されています。

このPydroidは私の生活を楽にしてくれました。Android Studioに行く必要も、コードを回したりコンパイルしたりする必要もありません。モバイル用のものを開発しているときは、かなり面倒なプロセスです。

ここではPythonで直接コードを書いて実行し、Arduinoを制御することができます。

了解ですか。これを機能させるために、Kivyという、Yを使ったKivyというライブラリを使用しています。このKivyはハードウェアとの統合を行います。加速度計、カメラ、シリアルポート、スマートフォンに搭載されているすべてのものを使いたい場合、このKivyを通じて実現できます。グラフィック部分も、最高とは言えませんが、できます。

そしてこのKivyと、USB Serial 4A、つまりAndroid用という別のライブラリを組み合わせることで、このライブラリを使ってArduinoと通信できます。

了解、この部分は最高ですが、例えばここから、私のコンピュータ、ノートブック、PCからコマンドを送信するにはどうすればよいでしょうか。そこで、MQTTと呼ばれる会話用の非常に古いプロトコルである技術を使用しました。MQTTサーバーがあり、この場合はMosquittoを使用していますが、そこに会話トピックを作成します。例えば、Arduinoと会話する、というようなトピックです。

私のコンピュータはこのサーバー、このトピックに書き込むことができます。このトピックにメッセージを送信でき、私のスマートフォンはこのトピックを読むことができます。つまり、誰かがそこに書いたものすべてを私のスマートフォンが読むのです。ゼロと書かれているのを読めば、Arduinoのランプを消します。1と書かれているのを読めば、Arduinoのランプを点けます。

同様に、私のスマートフォンがこのトピックに書き込みたい場合、私のコンピュータがそのトピックを読んでいれば、メッセージを交換することもできます。つまり、この全体の物語の裏で起こっているのはこういうことです。

そして最も重要なのは、このMosquittoサーバーには、test.mosquitto.orgと呼ばれるアドレスがあり、これは無料のオープンサーバーで、トピックごとに会話してメッセージを送ることができ、すべてが素晴らしく機能します。何もインストールする必要はありません。

もちろん、最終プロジェクトでは彼らのサーバーを使用する価値はありません。なぜなら、テスト専用のオープンサーバーで、検証を行うためだけのものだからです。

しかし、私たちのテストにはもう素晴らしいでしょう。何が起こっているか見てください。私はPC内、コンピュータ内のn8nにいます。ここにMQTTの小さなブロックを置き、あのテストサーバー、test.mosquitto.orgを設定しました。

ここに非常に正確に設定されていて、すべてが機能しています。システムと通信できるように会話したいトピックをここに入れます。

そして今、Pydroidでプログラムを実行します。非常に正確に実行します。コードは説明文に残しておきます。USBを使用する許可を求められます。許可するだけです。

皆さん、見えるかどうか分かりませんが、ここにすべてがうまくいけば点灯する小さなランプがあります。何をするか。n8nに来て、数字の1を送信します。ほら、ここに数字の1と書かれているのが見えますか。すべてが機能し、すべてがうまくいけば、ランプが点灯します。見てください。送信します。送りました。ほら、ほら、ほら。点灯しました。

点灯したと思います。ここに見えていますよ。ほら、点灯しました、皆さん。非常に正確に。この小さなランプを見てください。今度はゼロと入力します。消えなければなりません。さあ、やってみましょう。消えるか見てみましょう。見てみましょう。

消えました、皆さん。念のため2回目のテストです。運ではなかったことを確認するために。見てみましょう。見てみましょう。見てみましょう。点灯しなければなりません。ほら、ほら、ほら、ほら。点灯しました、皆さん。

つまり、この非常にシンプルで基本的なテストで、スマートフォンとArduino間の通信をすでに実現できました。そしてこれは、OTGケーブルと少しのPythonがあれば、インターネットがある地球上のどこでも何でも制御できるということを意味します。

携帯電話会社のチップを入れるだけで機能します。そして今何をするか。ステージ2に進みます。このステージ2では、車とカメラとの接続を始めます。

実際、ここで簡単なテストを行いました。カメラが機能するかどうかを確認するためのカメラテストの小さなプログラムを作りました。

見てください。すべてがうまくいけば、私の画像が表示され始めます。見えますか。これが私です、ほら。私がそこにいます、ほら。

つまり、スマートフォンのPythonでカメラを使用することができ、私たちが好きなすべてのものを使用できています。これからは、メカトロニクス、つまり機械と電子工学の混合が問題になります。あの車をスマートフォンに接続し、この小さなロボットで何ができるかを確認するための創造性が必要です。

おそらく、この統合がどのように行われるか、このようなものがどのように機能するかについて、より詳細にメンバー向けの動画を作成します。なぜなら、もうすぐこのものに人工知能を入れて、ロボットと会話したり制御したりできるようにするからです。

しかし、これをどうやって行うのか疑問に思っているなら、基本的にここで生成したすべてのコードは、ChatGPTとGeminiで作成されました。

すべてバイブコーディングです。非常に高度なことをする必要さえありませんでした。なぜなら、今のこのレベルでは、かなりシンプルだからです。もっと先に進むと、もう少し複雑になります。

どう思ったかコメントしてください。これがうまくいくと信じていたか、うまくいかないと信じていたか。そして今、機能するのを見て、この重要性を視覚化できますか。

地球上のどこでも何でも制御できます。今必要なのはArduinoだけです、皆さん。

それでは、非常に価値のあるいいねを残してください。そして、このような動画を見続けるためにチャンネルをサポートしたい場合は、メンバーになってください。メンバーはインテリジェントエージェントの限定動画や事前公開動画にアクセスできます。

それでは、いいねを残してください。ありがとうございました。

コメント

タイトルとURLをコピーしました