日常笔记

什么是相机位姿？

相机位姿精确描述了“相机”的“位置”和“朝向”，即相机在三维空间中的方向和位置。它是计算机视觉和机器人领域中一个重要的概念，通常用来描述相机在拍摄图像时的状态。

简而言之，相机位姿回答了两个问题，“相机在哪儿”和“相机在朝向哪个方向”。如果只有一个坐标系，显然我们只能确定相机的位置，而无法确定其朝向。因此我们通常需要定义两个坐标系：世界坐标系（World Coordinate System）和相机坐标系（Camera Coordinate System）。

世界坐标系是一个固定的坐标系，通常用于描述场景中的所有物体和相机的绝对位置，是一个全局的坐标系。而相机坐标系则是以相机本身为中心的局部坐标系，其Z轴指向相机的拍摄方向，X和Y轴分别指向右方和下方。可以想象我们在观察世界时，眼睛就在发挥“相机”的功能，眼睛本身的位置作为原点构成了它的相机坐标系，视线方向即为Z轴方向，相应的视线右方为X轴方向，视线下方为Y轴方向。

相机位姿的本质是将某一点从世界坐标系转换到相机坐标系中的一个三维刚体变换。这个变换包括两部分：平移（Translation）和旋转（Rotation），其中平移描述相机的位置，旋转描述相机的朝向。

如何数字化描述相机位姿

可以用不同的数学方式来表示相机位姿，围绕平移和旋转：

1. 平移向量（Translation Vector）：平移向量通常表示为一个三维向量T = [tx, ty, tz]，其中tx、ty和tz分别表示相机在X、Y和Z轴上的平移量。这个向量描述了相机相对于世界坐标系原点的位置。

2. 旋转矩阵（Rotation Matrix）：旋转矩阵R是一个3x3的正交矩阵，用于描述相机的朝向。旋转矩阵具有以下性质：R的转置等于它的逆（R^T = R^-1），并且行列式为1（det(R) = 1）。旋转矩阵可以通过欧拉角、轴角表示法或四元数等方式来构造。

3. 齐次坐标（Homogeneous Coordinates）：为了方便数学运算，通常将平移和旋转结合在一起，使用齐次坐标表示相机位姿。齐次坐标将三维点表示为四维向量P_h = [X, Y, Z, 1]，其中(X, Y, Z)是三维点的坐标，1是齐次坐标的附加分量。相机位姿可以表示为一个4x4的变换矩阵：

\[ \begin{bmatrix} R & T \\ 0 & 1 \end{bmatrix} \]

其中R是3x3的旋转矩阵，T是3x1的平移向量。通过这个变换矩阵，可以将世界坐标系中的点P_w转换到相机坐标系中的点P_c：

$$ P_c = \begin{bmatrix} R & T \\ 0 & 1 \end{bmatrix} P_w $$

4. 四元数（Quaternion）：四元数是一种用于表示旋转的数学工具，避免了欧拉角的万向锁问题。四元数通常表示为Q = [qw, qx, qy, qz]，其中qw是实部，(qx, qy, qz)是虚部。四元数可以方便地进行插值和组合操作，常用于计算机图形学和机器人学中。

5. 欧拉角（Euler Angles）：欧拉角通过三个角度（通常称为滚转角、俯仰角和偏航角）来描述旋转。虽然欧拉角直观易懂，但在某些情况下会遇到万向锁（gimbal lock）问题，这会导致特定姿态下会丢失一个旋转自由度，导致计算不稳定。，因此在实际应用中需要谨慎使用。

综上所述，相机位姿可以通过平移向量和旋转矩阵的组合来精确描述。选择具体的表示方法取决于应用场景和计算需求。

如何确定相机位姿

实际应用中往往需要通过图像来反向推断出拍摄该图像时的相机位姿，这一过程被称为相机位姿估计（Camera Pose Estimation）或相机定位（Camera Localization）。主要方法包括：

1.基于特征点的方法（Feature-Based Methods）：这是最经典和常用的方法。它通过在图像中检测和匹配已知的（或在其他视图中也可见的）三维空间点的二维投影，来求解相机位姿。核心问题是解决所谓的n点透视问题（Perspective-n-Point, PnP）。

2.基于模型的方法（Model-Based Methods）：当场景中存在已知的物体三维模型时，可以通过将模型的投影与图像中的观测进行对齐来估计相机位姿。

3.基于深度学习的方法（Deep Learning-Based Methods）：近年来，随着深度学习的发展，研究人员开始使用卷积神经网络（CNN）等模型，直接从输入的图像中回归（regress）出相机的位姿。这类方法在特定场景下可以实现非常快速的位姿估计，但通常对训练数据的依赖性较强。