最先端のAIモデルが新たなAGIテストで予想以上に低いスコアを記録し、人工知能と人間の能力差が改めて注目されています。OpenAIやGoogleなど大手テック企業が開発した最新モデルでさえ、人間には簡単なこのテストで一桁台のスコアしか達成できないという結果が明らかになりました。この記事では、新たに登場したAGIテスト「ARC-AGI-2」の詳細と、主要AIモデルが示した意外な結果について解説します。
新たなAGIベンチマーク「ARC-AGI-2」とは
AGI(汎用人工知能)には様々な定義がありますが、ARC Prize Foundationは「人間にとって簡単だがAIにとって難しいタスクのギャップ」に着目した独自の測定方法を採用しています。同団体は2019年に最初のテスト「ARC-AGI-1」を発表し、昨年末にはOpenAIのo3モデルがこのテストで高得点を獲得したことで話題になりました。
今回新たに登場した「ARC-AGI-2」は、さらにハードルの高いテストとなっています。このテストはさまざまな色のブロックから視覚パターンを識別し、正しい「解答」グリッドを生成する一連のパズル問題で構成されています。一見すると単純に見えるこれらの問題は、AIがこれまで見たことのない新しいパターンに適応する能力を測定することを目的としています。
人間とAIの圧倒的な成績差
このARC-AGI-2テストの特筆すべき点は、人間とAIの成績差が非常に大きいことです。テスト結果によると:
OpenAIのo3-lowモデル:ARC-AGI-1で75.7%のスコア、ARC-AGI-2ではわずか4%
OpenAIのo1-proや DeepSeekのR1などの「推論型」AIモデル:1%〜1.3%のスコア
GPT-4.5、Claude3.7Sonnet、Gemini2.0Flashなどの非推論モデル:約1%のスコア
対照的に、ARC-AGI-2のすべての問題は、少なくとも2人の人間が2回未満の試行で解決できることが確認されています。この結果は、現在のAIモデルとヒトの知能の間に依然として大きなギャップが存在することを示しています。
AIが苦戦する3つの能力
ARC-AGI-2は、AIが特に苦戦する3つの認知能力に焦点を当てて設計されました。これらの能力は人間にとっては直感的であるにも関わらず、最先端のAIシステムにとっては大きな壁となっています。
記号的解釈の難しさ AIシステムは視覚的なパターンを超えた意味を持つ記号の解釈を必要とするタスクに苦戦しています。AIは対称性の確認やミラーリング、変換などを試み、接続要素も認識しますが、記号自体に意味的重要性を割り当てることができないのです。つまり、人間が無意識のうちに行っている「この形はこういう意味を表している」という解釈がAIには難しいのです。
構成的推論の限界 AI推論システムはルールの同時適用や、相互に作用する複数のルールの適用を要求するタスクに苦戦します。対照的に、タスクが一つ、あるいは非常に少数のルールしか持たない場合、これらのシステムは一貫してそれらを発見し適用することができます。複数の条件や規則を組み合わせて推論する能力が、現在のAIにはまだ十分に備わっていないのです。
文脈依存のルール適用の課題 AI推論システムは文脈に基づいて異なる方法でルールを適用する必要があるタスクに苦戦しています。AIシステムは基礎となる選択原理を理解するよりも、表面的なパターンに固執する傾向があります。人間が状況に応じて柔軟にルールを解釈・適用できるのに対し、AIはより機械的な処理に留まりがちです。
テストの新たな評価視点:効率性とコスト
ARC-AGI-2はAIの能力を測定する新しい次元として、問題解決の効率性(特にコスト)も評価対象に加えています。例えば、人間のテスターにタスクごとに17ドルを支払った一方で、同じ作業に対してo3-lowはOpenAIに200ドルのコストがかかると推定されています。
今後はAIがタスクを解決できるかどうかだけでなく、どれだけの効率やコストでそれを実現できるかという点も重要な評価基準となります。能力と効率性の両方が知能の評価において不可欠な要素となるのです。
ARC-AGIテストへの批判的見解
一方で、このようなテスト方法に対する批判的な意見も存在します。一部の専門家からは、ARC-AGIテストが実際には知能の非常に狭い側面(主にパターン認識)しか測定していないという指摘があります。また、テストが制約のある空間で行われることに対する批判や、実世界の知能とは異なる側面を評価しているという意見もあります。
しかし、このようなテストは完全ではないにせよ、現在のAIモデルが直面している認知的な課題を明らかにする上で重要な役割を果たしているといえるでしょう。
ARC Prize 2025の開催 ARC Prize Foundationは2025年のARC Prizeを開催することを発表しました。この大会はKaggle上で3月から11月にかけて実施され、賞金総額は100万ドルに達します。85%以上のスコアを達成した場合はグランプリとして70万ドルが用意されています。
この大会のルールでは、インターネットAPIの使用が制限され、提出ごとに約50ドルの計算資源しか使えません。また、賞金獲得には大会終了時に解決策をオープンソース化し公開する必要があります。これにより、AGI研究の透明性と進歩を促進することが期待されています。
結論:AGIへの道のりはまだ遠い
ARC-AGI-2テストの結果は、現在のAIモデルが印象的な能力を示す一方で、人間の認知能力との間には依然として大きなギャップが存在することを改めて示しました。特に記号的解釈、構成的推論、文脈依存のルール適用といった分野では、AIはまだ人間に追いついていません。
ただし、AIの進化は急速に進んでいます。昨年のARC-AGI-1で高いスコアを記録したことを考えると、いずれAIは今回のARC-AGI-2でも高いスコアを記録する可能性があります。AGIの実現に向けた道のりはまだ遠いかもしれませんが、こうしたベンチマークとそれに挑戦する研究開発により、確実に前進しているといえるでしょう。
記事を書いた人
- IT関連の時事ネタ、気になるAIサービス、ローコード・ノーコードなど、新しく気になるサービス・情報を発信していきます。
- エンジニアの継続的な学習と成長を促進し、新しい挑戦へのお手伝いをします
応援していただけるとスゴク嬉しいです!