投稿

記事を共有する:

10月 22, 2024
3:00 pm
コメントはありません
Cotracker 3, Facebook, Meta, ソフトウェア, ビデオ, メタ, 人工知能（AI）

Cotracker 3: 新たなトラッキングモデルがポイントトラッキングの限界を超える

ポイントトラッキングの重要性

ポイントトラッキングはビデオにおいて重要であり、3D再構成から編集作業まで、品質の高い結果を得るためには正確なポイントの近似が必要です。時間が経つにつれて、トラッカーはトランスフォーマーやニューラルネットワークベースのデザインを取り入れ、個々のポイントや複数のポイントを同時に追跡できるようになりました。しかし、これらのニューラルネットワークは、高品質なトレーニングデータがないと完全に活用されることはありません。現在、良好なトレーニングセットを構成するビデオは豊富に存在していますが、トラッキングポイントは手動で注釈を付ける必要があります。合成ビデオは、上記の問題を解決するための優れた代替手段のように思えますが、計算コストが高く、実際のビデオよりも利益が少ないです。

教師なし学習の可能性

この状況を鑑みると、教師なし学習には大きな可能性が示されています。この記事では、半教師ありアプローチと非常にシンプルなメカニズムを用いて、トラッキングにおける最先端技術を引き継ぐ新しい取り組みについて掘り下げます。Metaは、トレーニングプロセスのためにアノテーションなしで実際のビデオを使用できる新しいトラッキングモデル「Cotracker 3」を発表しました。このモデルは、オフ・ザ・シェルフ教師によって生成された擬似ラベルを使用します。Cotracker 3は、より小型のアーキテクチャとトレーニングフィードストックでより良い結果を達成するために、以前のトラッカーからコンポーネントを排除します。

スケーラビリティの問題

さらに、スケーラビリティの問題にも対処しています。研究者たちは実際のビデオでの教師なしトラッキングで素晴らしい成果を上げていますが、その複雑さや要件には疑問が残ります。現在の教師なしトラッキングの最先端技術は、膨大なトレーニングビデオと複雑なアーキテクチャを必要とします。初歩的な疑問は「トラッカーが良いとされるために何百万本ものトレーニングビデオが必要なのか？」ということです。さらに、異なる研究者が以前の作品に改良を加えていますが、これらのデザインがすべて良好なトラッキングに必要かどうか、あるいは一部の簡素化した置き換えの余地があるのかはまだ不明です。

Cotracker 3の特徴

Cotracker 3は、以前の作品を組み合わせて機能を向上させたものです。例えば、反復的な更新、PIPsからの畳み込み特徴、および以前のリリース「Cotracker」からの展開トレーニングを取り入れています。Cotracker 3の作業手法はシンプルで、ビデオ内の各フレームに対して対応するポイントトラックを予測し、可視性と信頼スコアを提供します。可視性は、追跡されたポイントが可視か遮蔽されているかを示し、信頼スコアは、追跡されたポイントが現在のフレームの真実からどれだけ近いかについてネットワークがどれほど自信を持っているかを測定します。

オンラインとオフラインのバージョン

Cotracker 3は、オンラインとオフラインの2つのバージョンがあります。オンラインバージョンはスライディングウィンドウで操作し、入力ビデオを順次処理し、ポイントを前方に追跡します。一方、オフラインバージョンは、全ビデオを単一のスライディングウィンドウとして処理します。トレーニングには約100,000本のビデオが含まれています。次に、合成データで複数の教師モデルがトレーニングされます。そして、教師がトレーニングのためにランダムに選ばれ、クエリポイントがSIRF検出サンプリング法を使用していくつかのビデオフレームから選ばれます。

技術的詳細

各フレームの技術的詳細に深く掘り下げると、畳み込みネットワークが特徴マップを抽出し、これらの特徴ベクトル間の相関を計算するために使用されます。この4D相関計算はMLPで行われます。トランスフォーマーは、最初に0で初期化された可視性と信頼性の値を反復的に更新します。Cotracker 3は、この分野の他のトラッカーよりもかなりスリムで高速です。その前身と比較しても、Cotrackerにはパラメータが半分しかありません。また、グローバルマッチング戦略とMLPの利用により、現在最速のトラッカーを27％上回っています。

競争力のあるパフォーマンス

Cotracker 3は、さまざまなベンチマークで他のトラッカーと比較して非常に競争力があります。いくつかのケースでは、最先端のモデルを超えることさえありました。Cotracker 3のオンラインモデルとオフラインモデルを比較したところ、オンラインバージョンは遮蔽されたポイントを効率的に追跡することができました。一方、オンライントラッキングは、スペース制約なしでリアルタイムで実現可能でした。

まとめ

Cotracker 3は、基本モデルからインスピレーションを得て、より小型のパッケージにその利点を組み合わせました。オフ・ザ・シェルフトラッカーを使ってビデオに注釈を付けるというシンプルな半教師ありトレーニングプロトコルを使用して、すべての他のトラッカーを上回るモデルをファインチューニングし、シンプルさの中に美があることを示しています。

投稿ビュー: 174

イーロン・マスク、ニューレリンクの人工視覚補助装置「Blindsight」の人間への移植を2025年末に予定

こちらもお読みください: Grok-3が中国のDeepSeek-R1を上回る性能を記録、イーロン・マスクのxAIが“計算量の暴力”で最前線へ

タグ: Cotracker 3, Facebook, Meta, ソフトウェア, ビデオ, メタ, 人工知能（AI）

この記事をメールまたはお気に入りのソーシャルメディアサイトを通じて共有してください:

コメントする返信をキャンセル

コメントを投稿するにはログインしてください。

他のブログ投稿もご覧ください:

Quanergy、産業オートメーション向けのQ-Vision™ F540 3D iToF LiDARセンサーを発表

10月 4, 2024 コメントはまだありません

Quanergy Solutions, Inc.は、物理的セキュリティと産業オートメーション向けの新しいQ-Vision™ F540 3D iToF LiDARセンサーを発表しました。このセンサーは、物流、倉庫管理、建設、農業などのさまざまな産業の自動化プロセスを最適化し、オフロードおよび屋内産業車両に対して優れた環境性能と振動性能を提供します。F540は、75％多いデータポイントを持ち、先進的なイメージ信号処理技術により、ノイズを大幅に削減し、高精度な3Dポイントクラウドを実現します。これにより、AGVやAMRにおける信頼性の高い状況認識が可能になり、さまざまな重要なアプリケーションをサポートします。

PlayStation Portal 2（画像出典：Sony Interactive Entertainment）

Sony、「PlayStation Portal 2」を発表！5G対応＆クラウドプレイ強化でポータブルゲーミングが本格化

6月 19, 2025 コメントはまだありません

PlayStation Portal 2は、5G通信、クラウドゲーム、Androidアプリ対応を備えた次世代ポータブルゲーム端末。ゲームとエンタメの“新しい日常”がここにある。

TechNews.jp

投稿

Cotracker 3: 新たなトラッキングモデルがポイントトラッキングの限界を超える

ポイントトラッキングの重要性

教師なし学習の可能性

スケーラビリティの問題

Cotracker 3の特徴

オンラインとオフラインのバージョン

技術的詳細

競争力のあるパフォーマンス

まとめ

関連記事:

コメントする返信をキャンセル

ニュースレターを購読してください!

カテゴリー

タグ

他のブログ投稿もご覧ください:

Quanergy、産業オートメーション向けのQ-Vision™ F540 3D iToF LiDARセンサーを発表

Sony、「PlayStation Portal 2」を発表！5G対応＆クラウドプレイ強化でポータブルゲーミングが本格化

私たちの投稿を読んでください:

Qualcomm、ラップトップ向け技術をモバイル向けチップに適用

AI搭載の家庭用家電: 2025年のスマートライフの未来

マイクロソフトがWindows 10 22H2向けにKB5045594プレビュー更新を発表

TechNews.jp

目次

投稿

Cotracker 3: 新たなトラッキングモデルがポイントトラッキングの限界を超える

ポイントトラッキングの重要性

教師なし学習の可能性

スケーラビリティの問題

Cotracker 3の特徴

オンラインとオフラインのバージョン

技術的詳細

競争力のあるパフォーマンス

まとめ

関連記事:

コメントする 返信をキャンセル

ニュースレターを購読してください!

カテゴリー

タグ

私たちの投稿を読んでください:

目次

コメントする返信をキャンセル