ブラジル人のエンジニアがKaggleのAI競技で50,000ドルを獲得した事例を通じて、小規模でオープンなAIモデルが大手モデルと競合できるレベルに到達していることを解説した動画である。Qwen 3のような無料モデルがARC AGIベンチマークで10%を超える成果を上げ、従来の高額モデルに匹敵する性能を示している現状について詳しく分析している。

ブラジル人がAI競技で5万ドル獲得
皆さん、ブラジル人が人工知能の競技で5万ドルを獲得したんや。しかもこれ、めっちゃ難しい問題を解決しようとする競技でな。何が起こったんか詳しく見てみよか。それと、無料のAIモデルが興味深いレベルの知能に到達してるっていう、Arc Prizeが投稿した内容についても見てみよう。最も困難な賞の一つで結果を出すのは本当に大変やからな。
ほな一緒に見ていこか。いつものように、いいねを押してくれた皆さん、チャンネル登録してくれた皆さん、ありがとうございます。特にこの人工知能チャンネルをスポンサーしてくれてるメンバーの皆さんには感謝してます。メンバーの方々は、インテリジェントエージェントの専用動画にアクセスできて、WhatsApp連携や文書読み取り、PDF読み取り、MCP連携なんかを教えてるし、先行公開動画も見れるんや。
ブラジル人が国際的に注目を集める
ブラジル人が国際コミュニティで注目を集めるのは今に始まったことやないけど、今回は地球上最大級のAIプラットフォームでのことやった。ちょっと見てみてや。新しいコーディングチャレンジの初期結果が出たんやが、これがなかなか厳しい結果やねん。
何が起こったかっていうと、彼らがAのコーディングチャレンジを作ったんや。これを「Kプライス」って呼んでるねん。これは複数段階のAコーディングチャレンジで、DataBricksとPerplexityの共同創設者であるAndy Conwinskyが立ち上げたもんや。つまり、どこかの適当な会社が勝者を見つけるために作った簡単なテストじゃないってことやな。
見てみてや。勝者はEduardo Rocha de Andradeっていうブラジル人のプロンプトエンジニアで、5万ドルの賞金を受け取ることになったんや。そう、5万ドルや。
興味深いのは、勝利そのものよりも彼の最終スコアの方やった。彼はテストの問題のわずか7.5%の正解で勝利したんや。
このタイプのスコアは、チャンネルを見てくれてる人なら知ってると思うけど、知能テストではいつものことやねん。0%、1%で止まってる時期があって、突然一晩で10%に跳ね上がる。10%のラインに到達したっていうのは、誰かが重要で基本的なアイデアや道筋を発見して、正解への方向性が見えてきたってことなんや。
そこからは加速度的に進歩していく。だから今はまだ始まりの段階やねん、7.5%で。私たちは本当に難しいベンチマークを作れたことを喜んでる。ベンチマークは関連性があるなら難しくなければならない。大手研究所がより強力なモデルで参加していたら、スコアは違っていただろうって言ってるな。
小規模モデルが注目される理由
重要なことを言ってるで。有名な大型モデルは使えないっていう制限があるんや。彼らはこう言ってる。「でもそれがポイントなんです。Kプライスはオフラインで限られた計算資源で動作するから、小さくてオープンなモデルを優遇するんです。これが素晴らしい、競争の場を平等にしてくれる」って。
これは、小さなモデルでファインチューニングや他の技術を使ったものが注目を集められるようになったってことやな。
重要なことに、Conwinskyは、テストで90%以上のスコアを出した最初のオープンソースモデルに100万ドルを約束してるんや。皆さん、100万ドルっていうのは、もし獲得できたら、もしこれを見てる人がプロンプトエンジニアリングで勝ち取ったら、人生のお金が確保できるってことやで。500万レアルぐらいになるからな。
国債に投資したら、そのまま置いておくだけで巨大な不労所得が得られるんや。
データ汚染の問題を解決する新しいアプローチ
興味深いのは、例えばSWE-Benchみたいなテストがあって、これはもうずっとネット上にあって、よく知られてるから、データ汚染の問題があるんや。AIがこういうテストを解く時、すでに答えを知ってる可能性がある。SWE-Benchの問題と答えは、おそらくすでに訓練データに含まれてたやろう。
でもKプライスは違うアプローチを取ってる。GitHubにフラグが立てられた問題に対してモデルをテストして、実世界のプログラミング問題を扱う能力を確認してるんや。例えば、SWE-Benchが固定された問題セットを使ってるのに対して、Kプライスは汚染のないSWE-Benchのバージョンとして、時系列エントリーシステムを使って特定のベンチマーク訓練を避けてるんや。
これは非常に興味深いやろ?最高スコア7.5%は、SWE-Bench自体とは大きく対照的や。SWE-Benchは現在、最も簡単なテストで最高75%、最も困難な完全テストで34%のスコアを示してるからな。ここで彼らがコメントしてるのは、75%から34%への違いが汚染に関係してるかどうかは確かじゃないってことや。
Kaggleプラットフォームの紹介
でも皆さんは「この人誰なん?Kaggleに参加するにはどうしたらええん?これ何なん?何の話してるん?」って思ってるやろ。
実は、Kaggleは長い間存在してるプラットフォームで、あらゆるレベルのAI競技を開催してるんや。例えば、「最大のデータサイエンスと機械学習コミュニティでレベルアップしよう」って書いてある。学生、開発者、研究者、その他たくさんの人がいるって説明してるな。
つまり、常に何らかの競技があって、トレーニング用のデータセットがあって、いろんな人が学習してて、チャレンジを作って、LLaMA、DeepSeek、Geminiなんかの重要なモデルがある。そして競技の部分もあるんや。
Eduardo Rocha de Andradeの成果
この特定の競技がConwinsky Prizeやねん。ここでは「私はAndyで、新しいバージョンのSWEベンチマークで90%を超えた最初のチームに100万ドルを寄付します。このベンチマークには、提出を凍結した後に収集したGitHub問題が含まれています」って言ってる。
つまり、GitHubから収集したソフトウェアエンジニアリング問題を出して、人々に解決を試みてもらってるってことや。他の問題と同様に、何が起こってるか説明する記述があって、回答の計算方法を説明する評価方法があって、提出方法やタイムラインもある。
例えば、この場合は3月12日まで提出期限があって、予想は7月9日で、1位から5位までの賞金があったんや。デモンストレーションも用意されてて、参加したければ参加できる。
この場合、もう終了してるから、順位を見ると何が分かるか?Eduardo Rocha de Andradeが金メダルを獲得してて、スコアは0.058242やった。ここで彼が見つけた解法を見ることもできる。何をしたか、説明、提案されたアイデア全てが載ってる。Kaggleの面白いところは、結果をオープンにしなあかんってことや。競技に勝ったら、使った解法を公開せなあかん。
ここでは、例えば彼がQwen 2.5 Coder 32Bモデルを使ったって書いてある。これは皆がすでに使って、テストしたQwenの小さいモデルやな。これは興味深いやろ?彼がやったこと全ての詳細、彼の解法が機能するために起こったこと全てが載ってる。
Eduardo選手の経歴と実績
リーダーボードでメンバーをクリックすると、Kaggle内で彼がやったこと全て、獲得したメダル全ての説明が見れる。例えば、金メダルを獲得するのは初めてじゃなくて、もう9個獲得してる。銀メダルを16個、銅メダルを1個獲得してる。
Kaggle Achievementsでは、20万2千人中10位にランクインしてるんや。地球全体でやで。彼の軌跡を見てみよう。成長して、成長して、落ちた後また成長して、また落ちた後上昇して、成長して、また上昇して、落ちて、落ちて、落ちて、そして最近大きく上昇してトップ10に入ったんや。すごいことやろ?
ここには彼がメダルを獲得した場所の説明もある。これは1日前のConwinsky Prizeでの獲得やけど、2年前のメダルもあるし、1年前、6年前、5年前、6年前、2年前、4年前のもある。つまり、いつメダルを獲得したかの全履歴が分かるんや。
LinkedInを少し探ってみると、Eduardo Rocha de Andradeを簡単に見つけられる。彼はAE Stuのデータサイエンティストで、KaggleのGrand Master競技者や。サンパウロのカンピーナス出身でUSPで学んだ電子工学エンジニアで、カンピーナス大学で機械学習の修士号を取得してる。2023年には52位だったのが、今はトップ10に入ってるんや。
だからブラジル人を応援して、コミュニティでフォローして、皆に伝えよう。この話で興奮してもらえたら嬉しいわ。
Eduardo、もし見てるなら、もしくは彼を知ってる人が見てるなら、連絡してって伝えてくれ。一緒に話をして、Kaggleでのキャリアを築いてAI開発の仕事に就くまでに何が起こったか、皆にもっと詳しく説明できるコンテンツを作れるかもしれん。
Qwen 3の進歩について
もう一つ重要なニュースがあって、これはまさにEduardoがやってることと関係してる。Francoisのことや。チャンネルを見てくれてる人なら、何の話か分かるやろ。彼もAIの大きなプロジェクトの背後にいる人で、例えばKerasっていうAIライブラリを作った人やけど、最近は非常に重要なAIベンチマークを作ったことで注目を集めてる。
彼がこれらの新しい情報についてコメントしてるのを見てみよう。ARC-AGI-1のリーダーボードが更新されたんや。これは最も基本的なバージョンで、もう3になってるし、まもなく4に進むやろうけどな。でもARC-AGIに重要な更新があった。
公式検証で、Qwen 3 32 5B InstructがARC-AGI-1で11%、ARC-AGI-2で1.3%を獲得したんや。
皆さん気づいたかな?QwenはEduardoが使ったのと同じモデルみたいやけど、彼はバージョン2.5を使ってて、ここでは3について話してる。昨日Qwen 3 Coderについて動画を作ったけど、素晴らしいねん。昨日の動画をまだ見てないなら見てほしい。無料のAIがDeepSeekを完全に上回るのを初めて見たからな。
彼らはこうコメントしてる。「これらの数字は他の最先端基盤モデルと一致している。QwenはARC-AGI-1で10%以上のスコアを出したテスト済みモデルの中で最も安価な基盤モデルとして際立っています」
皆さん気づいたかな?小さくて駄目なモデル、小さなモデル、無料だから誰も使いたがらないモデル、これらが知能を持ち始めて、ARC-AGIで優秀なスコアを出せるようになってるんや。
コスト効率の良いAIモデル
コストはこうなった。ARC-AGI-1で11%を達成するのに1タスクあたり0.003ドル、ARC-AGI-2では1タスクあたり0.004ドルやった。
リーダーボードに載せてある。上にいくほど知能が高い。つまりo1 Previewが超知能で、o1-mini high、o1 Proも超知能やけど、左にいくほど安い。
10%のところを見ると、Qwen 3 32 5Bが10%を超えて、最も安価に10%を超えたモデルの中に位置してる。次に10%を超えたのはGPT-4oや。皆さん分かってる?無料の超安価なモデルがGPT-4oやo1-miniと同等になってるんや。
これは、これらのモデルを使うのが好きな人、特に自分のマシンで無料で動かしたい人には素晴らしいニュースや。もちろん、この32 5Bバージョンは少し大きくて、ほとんどの人のコンピューターには入らないけど、32、16、8のバージョンは動く。
もし自分のコンピューターで小さなモデルを動かしたことがないなら、Ollamaを使って試すことができる。ここではDeepSeek、Gemini 3N、Qwen 3が見つかる。モデルのサイズを選べる。0.6B、1.7B、4Bなど。自分のコンピューターで動くか不安なら、0.6Bから始めよう。これは小さなモデルで、CPUでも含めてどんなPCでも動く。
自分のコンピューターで速く動いたら、1.7、4、と段階的に上げていけばいい。やることはOllamaをインストールして、インストール後にこのコマンドを実行する。「ollama run qwen3」とか、0.6Bなら「ollama run qwen3:0.6b」や。簡単で基本的、自分のコンピューターで完全に無料でAIが動く。電気代だけかかる。
他のモデルの紹介
他の優秀なモデルが欲しければ、Gemini 3やGemini 3Nを使える。3Nの方が知能は高いけど、Gemini 3を薦める。理由は3には視覚ツールがあるし、重要なのはツールとthinkingがあってエージェントを構築できるからや。
エージェントを作る時は、こういう細かいことが違いを生むから注意が必要やねん。
まとめ
どうや?興奮した?5万ドルを獲得したくなった?今日なら5万ドルは基本的に25万レアルで、小さなアパートや狭いロフトぐらいは買える。何も買わなくても投資して、1年間全ての支払いを済ませて、Kaggleの挑戦を続けてもっと賞を獲得することもできる。
どう思うかコメントしてくれ。こういう動画を見続けるためにチャンネルをサポートしたいなら、メンバーになってくれ。メンバーはインテリジェントエージェントの専用動画と先行公開動画にアクセスできる。いいねを押してくれ。ありがとう。


コメント