投稿

記事を共有する:

AI技術の急速な進化に伴い、企業は新たなベンチマークの開発に迫られる

AI チャット アプリのみで構成された携帯電話の画像。(画像ソース: Solen Feyissa、Unsplash)
AI チャット アプリのみで構成された携帯電話の画像。(画像ソース: Solen Feyissa、Unsplash)

人工知能(AI)が急速に進化する中、テクノロジー企業はAIモデルのテストと評価方法を再設計する必要に迫られています。最新のAIモデルは既存のベンチマークの限界を超えており、新しい、より高度な評価戦略が求められています。OpenAI、Microsoft、Meta、Anthropicなどの企業は、AIエージェントが人間の代わりにタスクを自律的に実行するための計画を発表しています。しかし、これらのモデルが実行すべきタスクの複雑さから、従来のベンチマーク、例えば選択式の質問などではもはや十分ではありません。

現在のベンチマークでは高度なAIに対応できない

現在、AIモデルは標準化されたテスト(ベンチマーク)を使用してその能力が評価され、さまざまなシステムのパフォーマンスを比較しています。しかし、最近のAIの進展により、最新のモデルは既存のテストで90%以上の精度を達成できるようになり、これらのベンチマークの限界が明らかになっています。Metaの生成AIリーダー、Ahmad Al-Dahleは、「業界のペースは非常に速い。これらのシステムの一部を測定する能力が飽和し始めている」と述べています。

より複雑で現実的な課題への対応が必要

この課題に対応するため、Meta、OpenAI、Microsoftなどの企業は、AIの知能を測るための独自の内部ベンチマークを開発しています。しかし、これには、異なるモデル間で結果を比較することができるかどうかについて業界内で懸念が生じています。AIの安全性センターのディレクター、Dan Hendrycksは、「それらが公開されない限り、ビジネスや社会全体が進展を理解するのは難しい」と警告しています。

新しいベンチマークと評価方法

現在使用されている伝統的なベンチマーク、例えばHellaswagやMMLUは選択式の質問を使用して知識を評価していますが、研究者たちはこれらの方法が時代遅れになりつつあると指摘しています。OpenAIのMark Chenは、「私たちは、人間が書いたテストの多くがもはやモデルの能力を測る良い指標ではなくなっている時代に突入している」と述べています。これに応じて、SWE-bench Verifiedのような新しいベンチマークが開発され、AIが現実的なソフトウェアの問題を解決できる能力を評価しています。このベンチマークは、AIモデルにコードリポジトリとエンジニアリングの問題を提供し、それを解決するよう求めるもので、推論能力を必要とします。

推論と計画能力の重要性

高度なAIモデルを評価する際に重要な要素は、それが複数のステップにわたるタスクを計画し、推論できるかどうかです。MicrosoftのEce Kamarは、推論の重要性について「これらのシステムを測定する新しい方法を発見しており、その中でも推論は重要なフロンティアです」と述べています。Microsoftは、AIモデルが人間のように推論できるかどうかを評価するための内部ベンチマークを開発しています。

AIが「推論」しているのか「パターンマッチング」しているのか

現在のAIモデルが本当に推論しているのか、それとも単に訓練データに基づいてパターンをマッチングしているのかについては議論があります。IBM ResearchのRuchir Puriは、AIは特定の領域では推論できるが、現在のモデルが人間レベルの推論を示しているのかどうかは疑問だと指摘しています。「それらは本当に推論しているのか、それともただの繰り返しなのか?」とPuriは問いかけます。OpenAIのMark Chenは、推論というのは非常に広い概念であり、同社はAIの推論がユーティリティ、パフォーマンス、能力の向上に寄与しているかどうかを重視していると述べています。

外部団体によるAIベンチマークの取り組み

企業内部の取り組みに加えて、外部団体も新しいベンチマークの作成に取り組んでいます。9月には、Scale AIとHendrycksが「Humanity’s Last Exam」というプロジェクトを立ち上げ、さまざまな分野の専門家から抽象的な推論を要する複雑な質問を集めました。さらに、FrontierMathという新しいベンチマークが専門の数学者によって開発され、最も高度なモデルであっても2%未満の問題しか解けないという結果が出ています。

AIの知能を測るための明確な基準の欠如

AIのベンチマークが進化する中で、異なるモデルの能力を比較し、測定するための明確な方法が欠けているという懸念も高まっています。MetaのAhmad Al-Dahleは、「測定基準がターゲットになったとき、それはもはや良い指標にはならない」と述べています。業界全体がこの問題に取り組んでいる中で、AIベンチマークの未来は不確かです。

こちらもお読みください:  エロン・マスクのxAI:生成AI競争で注目のダークホース

この記事をメールまたはお気に入りのソーシャル メディア サイトを通じて共有してください:

フェイスブック
X
リンクトイン
ピンタレスト
メール

コメントする

ニュースレターを購読してください!

ニュースレターのコンテンツを受信ボックスに受け取るにはサインアップしてください

Apple Vision Pro ヘッドセットを装着した女性。(画像提供: Apple)

Apple、初代Vision Proヘッドセットの生産を終了か

Appleの初代Vision Proヘッドセットは、製造の縮小と需要の減少に直面しています。報道によると、製造は終了し、Appleはより手頃な価格のミックスリアリティ(MR)ヘッドセットの開発にシフトしています。Appleの今後の戦略とMR分野での新しい計画について詳しくご紹介します。

続きを読む »
上部へスクロール