浙江大学 计算机视觉 复习提纲



  • 计算机视觉
    • 计算题
    • 问答题
    • 推导题
    • 12-13道大题左右

TODO List

  • LoG 的 G
  • 一阶偏导有限差分
  • Harris 推导
  • PCA 协方差矩阵的用法
  • weight 数

格式塔法则 Gestalt Theory

  • Law of Proximity 距离近的
  • Law of Similarity 长得像的
  • Law of Good Continuation
  • Law of Closure
  • Law of Goodform
  • Law of Figure / Ground

Marr 视觉表示框架

primal sketch

角点 边缘 纹理 线条 边界

2.5D sketch

在以观测者为中心的坐标系中

深度 法线 轮廓

3D model

在以物体为中心的坐标系中

恢复,重建和表示三维模型

二值图像

几何特性

  • 面积 零阶矩
  • 区域中心 一阶矩
  • 方向
    • 最小化问题
    • 最小二乘法
  • 伸长率 \(E=\frac{\chi_{max}}{\chi_{min}}\)
  • 密集度 p 周长 A 面积 \(C=\frac{A}{p^2}\)
  • 形态比:最小外接矩形的长宽比
  • 欧拉数:连通分量数减去洞数

投影计算

连通区域

  • 递归算法
  • 序贯算法
  • 区域边界跟踪算法

边缘

基本思想 检测灰度不连续的地方 四种不连续 基于一阶和二阶的边缘检测 laplacian log算子 marr hildreth算子 为什么加G canny 边缘检测 重点 要记住详细步骤

四种主要的不连续

  • 深度不连续
  • 颜色不连续
  • 法向量不连续
  • 光照不连续

基于一阶导数的边缘检测

图像中用差分近似偏导数

梯度

\(|G_{(x,y)}|\approx\max(|G_x|,|G_y|)\)

Roberts 交叉算子

\[ G_x= \begin{pmatrix} 1 & 0 \\ 0 & -1 \\ \end{pmatrix} G_y= \begin{pmatrix} 0 & -1 \\ 1 & 0 \\ \end{pmatrix} \]

Sobel 算子

\[ G_x= \begin{pmatrix} -1 & 0 & 1 \\ -2 & 0 & 2 \\ -1 & 0 & 1 \\ \end{pmatrix} \]

y 方向的同理,转置即可。

Prewitt 算子

速度较快

Sobel 的2全部换成1即可。

基于二阶导数的边缘检测

Laplacian 算子

\[ \nabla^2= \begin{pmatrix} 0 & 1 & 0 \\ 1 & -4 & 1 \\ 0 & 1 & 0 \end{pmatrix} \]

LoG 算子

高斯滤波 + 拉普拉斯边缘检测

  • 平滑滤波使用高斯滤波
  • 拉普拉斯算子计算二阶导数
  • 边缘检测判据是二阶导数交叉零点是一阶导数较大峰值
  • 使用线性内插方法在子像素分辨率水平上估计边缘的位置

草帽算子

两种等效方法

  • 图像与高斯函数卷积,再求卷积的拉普拉斯微分
  • 求高斯函数的拉普拉斯微分,再与图像卷积

使用高斯滤波器的原因:

平滑去噪和边缘检测是一对矛盾,应用高斯函数的一阶导数,在二者之间获得最佳的平衡

Canny 边缘检测

步骤:

  • 高斯滤波 平滑图像
  • 一阶偏导有限差分 计算 梯度幅值与方向
  • 非极大值抑制
  • 双阈值算法检测和连接边缘

harris角点检测

知道原理 会推导公式 约等于的 特征值

原理:

一个窗口在图像上移动。平滑区域里,在各个方向上都没有变化;边缘上,在边缘方向没有变化;角点,在各个方向都有变化。

公式:

窗口平移产生的变化:\(E(u,v)\approx [u,v]M[u,v]^T\)

\(E(u,v)=\sum_{x,y}w(x,y)[I(x+u,y+v)-I(x,y)]^2\)

\(u,v ~\text{are small in values}\)

\(I(x+u,y+v)\approx I(x,y)+uI_x(x,y)+vI_y(x,y)\)

\(E(u,v)=\sum_{x,y}w(x,y)[I(x+u,y+v)-I(x,y)]^2\)

\(=\sum_{x,y}w(x,y)[I(x,y)+uI_x(x,y)+vI_y(x,y)-I(x,y)]^2\)

\(=\sum_{x,y}w(x,y)[uI_x(x,y)+vI_y(x,y)]^2\)

\[ =[u,v]\sum_{x,y}w(x,y) \begin{pmatrix} I_x^2 & I_xI_y \\ I_xI_y & I_y^2 \\ \end{pmatrix} [u,v]^T \]

\[ M= \sum_{x,y}w(x,y) \begin{pmatrix} I_x^2 & I_xI_y \\ I_xI_y & I_y^2 \\ \end{pmatrix} \]

其中 \(I_x,I_y\) 是矩阵 \(M\) 的特征根。

上面那句没懂。

\(R=\det M-k(\text{trace}~M)^2\)

\(\det M=\lambda_1\lambda_2\)

\(\text{trace}~M=\lambda_1+\lambda_2\)

算法流程:

  • 找出大于阈值的 R 值
  • 选取其附近的局部极大值

SIFT 描述子的计算

为何只使用梯度信息 计算的基本步骤 full version 如何实现旋转不变性 尺度不变的原理

旋转不变性

因为旋转的时候每一个关键点周围的点也会跟着旋转,不会影响SIFT向量。

尺度不变性

图像金字塔

DoG 金字塔,即高斯差分金字塔

SIFT 描述子

128 维

\(4\times 4\) Grid of cells \(\times 8\) orientations

计算步骤

  • Scale-space extrema detection
    • uses Difference-of-Gaussian function
  • Keypoint localization
    • subpixel location and scale fit into the model
  • Orientation assignment
    • 1 or more for each point
  • Keypoint descriptor
    • from local image gradients

Hough 变换 直线检测

基于投票,流程如下:

  • 适当地参数化向量空间
  • 假定参数空间每个单元都是累加器
  • 对图像空间上每一点,累加器++
  • 选取最大值

图像的傅立叶变换

变换本身和性质不用记 理解图像的低频与高频成分 能通俗解释 理解拉普拉斯金字塔的每一层是带通滤波,是怎么来的 语言解释,不需要公式 从高斯金字塔来的

拉普拉斯金字塔:高通减低通

低通:变化慢的信息 轮廓

高通:变化快的信息 噪声与细节

相机模型

理解 光圈 景深 焦距 视场

  • 光圈越大越土豪,景深越小
  • 焦距越大,视场越小

Thin lens equation:

\(\frac{1}{d_o}+\frac{1}{d_i}=\frac{1}{f}\)

视场角:\(\text{AFOV}^\circ=2\tan^{-1}(\frac{h}{2f})\)

上面的 \(h\) 是什么?

TODO 相机模型的图

相机参数在成像各个阶段的作用

  • 世界坐标系 => 相机坐标系:外参数
  • 相机坐标系 => 像平面坐标系(2D):内参数
  • 非理想模型:=> 像素:畸变参数
    • \(k\) 和径向畸变有关
    • \(p\) 和切向畸变有关

理想针孔相机模型

基本投影公式 画图说明 齐次坐标形式的透视投影公式 矩阵形式 内参和内参矩阵 不包括畸变参数 会写会背即可

Pinhole camera model:

\(-x=f\frac{X}{Z}\)

齐次坐标的透视投影公式

\[ \begin{pmatrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & -\frac{1}{d} & 0 \\ \end{pmatrix} \begin{pmatrix} x \\ y \\ z \\ 1 \\ \end{pmatrix} = \begin{pmatrix} x \\ y \\ -\frac{z}{d} \\ \end{pmatrix} \]

\[ (-d\frac{x}{z},-d\frac{y}{z}) \]

径向畸变和切向畸变

常见的哪两种 各是什么原因引起的 外参有哪几个,含义 内参 外参 畸变参数在成像各个阶段的角色 三维物体到真实图像的过程

  • 径向畸变
    • 原因:镜头径向曲率的不规则变化
    • 使点产生径向位置的偏差,正向畸变称为枕形畸变,负向畸变称为桶形畸变
    • 由镜头的形状缺陷造成,关于主光轴对称
  • 切向畸变
    • 透镜不是完美地平行于图像平面
    • 导致部分区域看起来更近
  • 外参 含义

相机标定

需要求解哪些参数 基于pattern / reference object 的相机定标 已知什么,求解什么 简述基本过程,几个步骤

相机参数

  • 4 个内参 \((f_x,f_y,c_x,c_y)\)
  • 6 个外参 \((\theta,\varphi,\psi,t_x,t_y,t_z)\)
  • 5 个畸变参数 \((k_1,k_2,p_1,p_2,k_3)\)

内参矩阵: \[ M= \begin{pmatrix} f_x & 0 & c_x \\ 0 & f_y & c_y \\ 0 & 0 & 1 \\ \end{pmatrix} \] 外参矩阵: \[ P= \begin{pmatrix} R_{3\times 3} & t_{3\times 1} \\ 0 ~~~ 0 ~~~ 0 & 1 \\ \end{pmatrix} P_0 \] 由三维旋转矩阵与平移矩阵合并而成

过程

  • 已知
    • N 个角点的标定对象
    • K 个标定对象的视角
  • 求解
    • 相机参数,包括内参,外参与畸变参数
  • 流程
    • 标定对象:知道网格角点的位置
    • 从图像中找到角点
    • 建立等式:将图像坐标转换到世界坐标的等式
    • 求解,得到相机参数

立体视觉 三角测量基本原理

会画视差disparity的图 并能推导公式 立体视觉的基本步骤

基本步骤

  • 标定相机,消除畸变
  • 校正图像
  • 计算差距
  • 估计深度

三维数据获取 结构光成像系统的构成

利用结构光获取三维数据的基本原理 会画图 会推导公式 icp算法的作用和基本步骤

TODO 画图与推导公式

结构光成像系统

  • 结构光投影仪
  • CCD 相机
  • 深度信息重建系统

ICP 算法

迭代最近点算法 Iterative Closest Point

给定两个三维点集 X 与 Y,将 Y 配准到 X。

  • 计算 Y 中每一个点在 X 中的对应最近点
  • 求使上述对应点对的平均距离最小的刚体变换,获得刚体变换参数(平移参数与旋转参数)
  • 对 Y 应用上一步求得的刚体变换(平移与旋转),更新Y
  • 如果不到阈值以下,从第一步重新迭代

光流

解决什么问题 三个基本假设 一个点的约束公式 会推导 哪些位置的光流比较可靠,why

解决像素对应问题,找到两幅图之间距离不远的像素之间的对应关系。

基本假设:

  • 亮度恒定 Brightness constancy
  • 空间相干性 Spatial coherence
  • 小移动 Small motion

一个点的约束公式

\[ O\approx I_t+\nabla I\cdot[u,v] \\ \text{证明如下:} \\ O=I(x+u,y+v)-H(x,y) \\ \approx I(x,y)+uI_x+vI_y-H(x,y) \\ \approx (I(x,y)-H(x,y))+uI_x+vI_y \\ \approx I_t+\nabla I\cdot[u,v] \]

图像拼接

实现两张图像自动拼接的基本步骤

  • 找到关键点
  • 建立 SIFT 描述子
  • 建立一一对应关系
    • 计算 SIFT 描述子之间的欧氏距离
  • 拟合变换矩阵
    • 仿射变换
  • RANSAC
  • Image Blending

RANSAC 随机抽样一致性算法

理解其过程的核心思想 优点,基本步骤

RANdom SAmple Consensus

优点

  • 计算快
  • robust
  • 抗噪 适合多种场景 实现方便

步骤

  • 随机选取一组点
  • 用这组点估计到的模型去检测还有哪些局内点,计数
  • 用新的局内点重新计算模型,迭代

人脸识别 主成分分析

PCA 的基本思想 作用 优化目标函数的推导 a1TSa1

PCA 主成分分析

基本思想 作用

降维

优化目标函数的推导

投影方向 \(\vec a_1\),有 \(a_1^Ta_1=1\)

\(d\) 维空间中 \(\vec x\) 最大化 \(\text{var}(z_1)=\text{var}(\vec a_1\cdot \vec x)\)

求投影方向,即 \(\arg\max _{a_1}\text{var}(z_1)\)

\(\text{var}(z_1)=a_1^TSa_1\)

其中 \(S=E(x_i,y_i)-E(x_i)E(y_i)=\text{Cov}(x_i,y_i)\)

使用 Lagrange 乘子法

记 Lagrange 乘子为 \(\lambda\)

转化为最大化 \(a_1^TSa_1-\lambda(a_1^Ta_1-1)\)

\(a_1^T\) 求微分并且令结果为0,得

\(Sa_1-\lambda a_1=0\)

此为最优化的必要条件。

上式就是矩阵特征值的定义,所以必须用协方差矩阵最大特征值对应的特征向量,转化为求协方差矩阵。

eigenface

是什么,基本步骤 将重构用于人脸检测的原理

步骤

  • 将所有人脸归一化
  • 通过 PCA 计算获得一组特征向量,一般 100 个就足够了
  • 将每个人脸投影到此空间中,得到坐标
  • 对于输入的图像,度量在此空间中的某种距离得到最近的结果

visual recognition

基本任务 4类 都有哪些挑战因素

WTF ???!!!

基于 Bag of Words (词袋)的物体分类

是什么意思,几个基本步骤

  • 特征提取与表示
  • 通过训练样本聚类来表示字典(codebook)
  • 以字典的直方图描述图像
  • 以 BoW 来分类未知图像

物体识别 CNN

计算参数个数与连接数

考虑么? bias 项?

  • 参数个数
    • 卷积核面积 \(\times\) 卷积核个数
  • 连接数
    • 参数个数 \(\times\) feature map 面积
  • 权重 (weight) 数
    • 同连接数

图像分割

图像分割的目标

将像素集合转换成有意义的或者感觉上相似的区域

基于聚类的语义分割

基于 K-means 聚类

聚类之前先 SIFT(或者其他特征检测方式)找到更优的聚类起始中心点

聚类之后可以预测在同一类的像素具有相同的标签

构建(?)

基于 mean shift 的图像分割

要求掌握:基本原理与基本思路

不需要具体步骤


Additional Part

计算机视觉的研究内容

  • 输入设备
  • 低层视觉
  • 中层视觉
  • 高层视觉
  • 体系结构