Appleは新たに「Depth Pro」という単眼深度推定用のオープンソースAIモデルを発表し、今年リリースした人工知能技術のポートフォリオを拡大しました。これまでのモデルは主に特定のタスクに特化した小型の言語モデルでしたが、Depth Proは単一の画像から深度マップを生成できるビジョンモデルです。この技術は3Dテクスチャ生成や拡張現実(AR)などの応用を強化でき、研究者たちはこの深度マップが複数のカメラを使用して生成されたものよりも優れていると主張しています。
開発と技術
Depth Proの開発には、Vision Transformer(ViT)アーキテクチャが利用されており、出力解像度は384 x 384に設定されていますが、入力解像度は1536 x 1536のままにされています。この構成により、モデルは画像内の詳細をよりよく分析できるようになります。
深度推定の重要性
深度推定は、3Dモデリングや拡張現実、自動運転、ロボティクスなどのさまざまな技術において重要です。人間の目は単一の視点から深度を正確に把握できますが、従来のカメラはこのタスクに苦労し、しばしば平面的な2次元画像を生成します。そのため、通常は複数のカメラが使用されますが、これには資源が多くかかり、時間もかかる場合があります。
革新的なアプローチ
Appleは、「Depth Pro: Sharp Monocular Metric Depth in Less Than a Second」という研究論文の中で、ビジョンベースのAIモデルが単眼画像から効率的に深度マップを生成できることを示しています。このアプローチは、広範なリソースを必要とせずに行われます。
投稿ビュー: 112