ポイントトラッキングの重要性
ポイントトラッキングはビデオにおいて重要であり、3D再構成から編集作業まで、品質の高い結果を得るためには正確なポイントの近似が必要です。時間が経つにつれて、トラッカーはトランスフォーマーやニューラルネットワークベースのデザインを取り入れ、個々のポイントや複数のポイントを同時に追跡できるようになりました。しかし、これらのニューラルネットワークは、高品質なトレーニングデータがないと完全に活用されることはありません。現在、良好なトレーニングセットを構成するビデオは豊富に存在していますが、トラッキングポイントは手動で注釈を付ける必要があります。合成ビデオは、上記の問題を解決するための優れた代替手段のように思えますが、計算コストが高く、実際のビデオよりも利益が少ないです。
教師なし学習の可能性
この状況を鑑みると、教師なし学習には大きな可能性が示されています。この記事では、半教師ありアプローチと非常にシンプルなメカニズムを用いて、トラッキングにおける最先端技術を引き継ぐ新しい取り組みについて掘り下げます。Metaは、トレーニングプロセスのためにアノテーションなしで実際のビデオを使用できる新しいトラッキングモデル「Cotracker 3」を発表しました。このモデルは、オフ・ザ・シェルフ教師によって生成された擬似ラベルを使用します。Cotracker 3は、より小型のアーキテクチャとトレーニングフィードストックでより良い結果を達成するために、以前のトラッカーからコンポーネントを排除します。
スケーラビリティの問題
さらに、スケーラビリティの問題にも対処しています。研究者たちは実際のビデオでの教師なしトラッキングで素晴らしい成果を上げていますが、その複雑さや要件には疑問が残ります。現在の教師なしトラッキングの最先端技術は、膨大なトレーニングビデオと複雑なアーキテクチャを必要とします。初歩的な疑問は「トラッカーが良いとされるために何百万本ものトレーニングビデオが必要なのか?」ということです。さらに、異なる研究者が以前の作品に改良を加えていますが、これらのデザインがすべて良好なトラッキングに必要かどうか、あるいは一部の簡素化した置き換えの余地があるのかはまだ不明です。
Cotracker 3の特徴
Cotracker 3は、以前の作品を組み合わせて機能を向上させたものです。例えば、反復的な更新、PIPsからの畳み込み特徴、および以前のリリース「Cotracker」からの展開トレーニングを取り入れています。Cotracker 3の作業手法はシンプルで、ビデオ内の各フレームに対して対応するポイントトラックを予測し、可視性と信頼スコアを提供します。可視性は、追跡されたポイントが可視か遮蔽されているかを示し、信頼スコアは、追跡されたポイントが現在のフレームの真実からどれだけ近いかについてネットワークがどれほど自信を持っているかを測定します。
オンラインとオフラインのバージョン
Cotracker 3は、オンラインとオフラインの2つのバージョンがあります。オンラインバージョンはスライディングウィンドウで操作し、入力ビデオを順次処理し、ポイントを前方に追跡します。一方、オフラインバージョンは、全ビデオを単一のスライディングウィンドウとして処理します。トレーニングには約100,000本のビデオが含まれています。次に、合成データで複数の教師モデルがトレーニングされます。そして、教師がトレーニングのためにランダムに選ばれ、クエリポイントがSIRF検出サンプリング法を使用していくつかのビデオフレームから選ばれます。
技術的詳細
各フレームの技術的詳細に深く掘り下げると、畳み込みネットワークが特徴マップを抽出し、これらの特徴ベクトル間の相関を計算するために使用されます。この4D相関計算はMLPで行われます。トランスフォーマーは、最初に0で初期化された可視性と信頼性の値を反復的に更新します。Cotracker 3は、この分野の他のトラッカーよりもかなりスリムで高速です。その前身と比較しても、Cotrackerにはパラメータが半分しかありません。また、グローバルマッチング戦略とMLPの利用により、現在最速のトラッカーを27%上回っています。
競争力のあるパフォーマンス
Cotracker 3は、さまざまなベンチマークで他のトラッカーと比較して非常に競争力があります。いくつかのケースでは、最先端のモデルを超えることさえありました。Cotracker 3のオンラインモデルとオフラインモデルを比較したところ、オンラインバージョンは遮蔽されたポイントを効率的に追跡することができました。一方、オンライントラッキングは、スペース制約なしでリアルタイムで実現可能でした。
まとめ
Cotracker 3は、基本モデルからインスピレーションを得て、より小型のパッケージにその利点を組み合わせました。オフ・ザ・シェルフトラッカーを使ってビデオに注釈を付けるというシンプルな半教師ありトレーニングプロトコルを使用して、すべての他のトラッカーを上回るモデルをファインチューニングし、シンプルさの中に美があることを示しています。