浙江大学 计算机视觉 复习提纲
- 计算机视觉
- 计算题
- 问答题
- 推导题
- 12-13道大题左右
TODO List
- LoG 的 G
- 一阶偏导有限差分
- Harris 推导
- PCA 协方差矩阵的用法
- weight 数
格式塔法则 Gestalt Theory
- Law of Proximity 距离近的
- Law of Similarity 长得像的
- Law of Good Continuation
- Law of Closure
- Law of Goodform
- Law of Figure / Ground
Marr 视觉表示框架
primal sketch
角点 边缘 纹理 线条 边界
2.5D sketch
在以观测者为中心的坐标系中
深度 法线 轮廓
3D model
在以物体为中心的坐标系中
恢复,重建和表示三维模型
二值图像
几何特性
- 面积 零阶矩
- 区域中心 一阶矩
- 方向
- 最小化问题
- 最小二乘法
- 伸长率 $E=\frac{\chi_{max}}{\chi_{min}}$
- 密集度 p 周长 A 面积 $C=\frac{A}{p^2}$
- 形态比:最小外接矩形的长宽比
- 欧拉数:连通分量数减去洞数
投影计算
连通区域
- 递归算法
- 序贯算法
- 区域边界跟踪算法
边缘
基本思想 检测灰度不连续的地方
四种不连续
基于一阶和二阶的边缘检测
laplacian log算子
marr hildreth算子 为什么加G
canny 边缘检测 重点 要记住详细步骤
四种主要的不连续
- 深度不连续
- 颜色不连续
- 法向量不连续
- 光照不连续
基于一阶导数的边缘检测
图像中用差分近似偏导数
梯度
$|G_{(x,y)}|\approx\max(|G_x|,|G_y|)$
Roberts 交叉算子
$$
G_x=
\begin{pmatrix}
1 & 0 \
0 & -1 \
\end{pmatrix}
G_y=
\begin{pmatrix}
0 & -1 \
1 & 0 \
\end{pmatrix}
$$
Sobel 算子
$$
G_x=
\begin{pmatrix}
-1 & 0 & 1 \
-2 & 0 & 2 \
-1 & 0 & 1 \
\end{pmatrix}
$$
y 方向的同理,转置即可。
Prewitt 算子
速度较快
Sobel 的2全部换成1即可。
基于二阶导数的边缘检测
Laplacian 算子
$$
\nabla^2=
\begin{pmatrix}
0 & 1 & 0 \
1 & -4 & 1 \
0 & 1 & 0
\end{pmatrix}
$$
LoG 算子
高斯滤波 + 拉普拉斯边缘检测
- 平滑滤波使用高斯滤波
- 拉普拉斯算子计算二阶导数
- 边缘检测判据是二阶导数交叉零点是一阶导数较大峰值
- 使用线性内插方法在子像素分辨率水平上估计边缘的位置
草帽算子
两种等效方法
- 图像与高斯函数卷积,再求卷积的拉普拉斯微分
- 求高斯函数的拉普拉斯微分,再与图像卷积
使用高斯滤波器的原因:
平滑去噪和边缘检测是一对矛盾,应用高斯函数的一阶导数,在二者之间获得最佳的平衡
Canny 边缘检测
步骤:
- 高斯滤波 平滑图像
- 一阶偏导有限差分 计算 梯度幅值与方向
- 非极大值抑制
- 双阈值算法检测和连接边缘
harris角点检测
知道原理
会推导公式 约等于的 特征值
原理:
一个窗口在图像上移动。平滑区域里,在各个方向上都没有变化;边缘上,在边缘方向没有变化;角点,在各个方向都有变化。
公式:
窗口平移产生的变化:$E(u,v)\approx [u,v]M[u,v]^T$
$E(u,v)=\sum_{x,y}w(x,y)[I(x+u,y+v)-I(x,y)]^2$
$u,v ~\text{are small in values}$
$I(x+u,y+v)\approx I(x,y)+uI_x(x,y)+vI_y(x,y)$
$E(u,v)=\sum_{x,y}w(x,y)[I(x+u,y+v)-I(x,y)]^2$
$=\sum_{x,y}w(x,y)[I(x,y)+uI_x(x,y)+vI_y(x,y)-I(x,y)]^2$
$=\sum_{x,y}w(x,y)[uI_x(x,y)+vI_y(x,y)]^2$
$$
=[u,v]\sum_{x,y}w(x,y)
\begin{pmatrix}
I_x^2 & I_xI_y \
I_xI_y & I_y^2 \
\end{pmatrix}
[u,v]^T
$$
$$
M=
\sum_{x,y}w(x,y)
\begin{pmatrix}
I_x^2 & I_xI_y \
I_xI_y & I_y^2 \
\end{pmatrix}
$$
其中 $I_x,I_y$ 是矩阵 $M$ 的特征根。
上面那句没懂。
$R=\det M-k(\text{trace}~M)^2$
$\det M=\lambda_1\lambda_2$
$\text{trace}~M=\lambda_1+\lambda_2$
算法流程:
- 找出大于阈值的 R 值
- 选取其附近的局部极大值
SIFT 描述子的计算
为何只使用梯度信息
计算的基本步骤 full version
如何实现旋转不变性
尺度不变的原理
旋转不变性
因为旋转的时候每一个关键点周围的点也会跟着旋转,不会影响SIFT向量。
尺度不变性
图像金字塔
DoG 金字塔,即高斯差分金字塔
SIFT 描述子
128 维
$4\times 4$ Grid of cells $\times 8$ orientations
计算步骤
- Scale-space extrema detection
- uses Difference-of-Gaussian function
- Keypoint localization
- subpixel location and scale fit into the model
- Orientation assignment
- 1 or more for each point
- Keypoint descriptor
- from local image gradients
Hough 变换 直线检测
基于投票,流程如下:
- 适当地参数化向量空间
- 假定参数空间每个单元都是累加器
- 对图像空间上每一点,累加器++
- 选取最大值
图像的傅立叶变换
变换本身和性质不用记
理解图像的低频与高频成分 能通俗解释
理解拉普拉斯金字塔的每一层是带通滤波,是怎么来的
语言解释,不需要公式
从高斯金字塔来的
拉普拉斯金字塔:高通减低通
低通:变化慢的信息 轮廓
高通:变化快的信息 噪声与细节
相机模型
理解 光圈 景深 焦距 视场
- 光圈越大
越土豪,景深越小 - 焦距越大,视场越小
Thin lens equation:
$\frac{1}{d_o}+\frac{1}{d_i}=\frac{1}{f}$
视场角:$\text{AFOV}^\circ=2\tan^{-1}(\frac{h}{2f})$
上面的 $h$ 是什么?
TODO 相机模型的图
相机参数在成像各个阶段的作用
- 世界坐标系 => 相机坐标系:外参数
- 相机坐标系 => 像平面坐标系(2D):内参数
- 非理想模型:=> 像素:畸变参数
- $k$ 和径向畸变有关
- $p$ 和切向畸变有关
理想针孔相机模型
基本投影公式 画图说明 齐次坐标形式的透视投影公式 矩阵形式
内参和内参矩阵 不包括畸变参数 会写会背即可
Pinhole camera model:
$-x=f\frac{X}{Z}$
齐次坐标的透视投影公式
$$
\begin{pmatrix}
1 & 0 & 0 & 0 \
0 & 1 & 0 & 0 \
0 & 0 & -\frac{1}{d} & 0 \
\end{pmatrix}
\begin{pmatrix}
x \ y \ z \ 1 \
\end{pmatrix}
=
\begin{pmatrix}
x \ y \ -\frac{z}{d} \
\end{pmatrix}
$$
$$
(-d\frac{x}{z},-d\frac{y}{z})
$$
径向畸变和切向畸变
常见的哪两种 各是什么原因引起的
外参有哪几个,含义
内参 外参 畸变参数在成像各个阶段的角色
三维物体到真实图像的过程
- 径向畸变
- 原因:镜头径向曲率的不规则变化
- 使点产生径向位置的偏差,正向畸变称为枕形畸变,负向畸变称为桶形畸变
- 由镜头的形状缺陷造成,关于主光轴对称
- 切向畸变
- 透镜不是完美地平行于图像平面
- 导致部分区域看起来更近
- 外参 含义
相机标定
需要求解哪些参数
基于pattern / reference object 的相机定标
已知什么,求解什么
简述基本过程,几个步骤
相机参数
- 4 个内参 $(f_x,f_y,c_x,c_y)$
- 6 个外参 $(\theta,\varphi,\psi,t_x,t_y,t_z)$
- 5 个畸变参数 $(k_1,k_2,p_1,p_2,k_3)$
内参矩阵:
$$
M=
\begin{pmatrix}
f_x & 0 & c_x \
0 & f_y & c_y \
0 & 0 & 1 \
\end{pmatrix}
$$
外参矩阵:
$$
P=
\begin{pmatrix}
R_{3\times 3} & t_{3\times 1} \
0 ~~~ 0 ~~~ 0 & 1 \
\end{pmatrix}
P_0
$$
由三维旋转矩阵与平移矩阵合并而成
过程
- 已知
- N 个角点的标定对象
- K 个标定对象的视角
- 求解
- 相机参数,包括内参,外参与畸变参数
- 流程
- 标定对象:知道网格角点的位置
- 从图像中找到角点
- 建立等式:将图像坐标转换到世界坐标的等式
- 求解,得到相机参数
立体视觉 三角测量基本原理
会画视差disparity的图 并能推导公式
立体视觉的基本步骤
基本步骤
- 标定相机,消除畸变
- 校正图像
- 计算差距
- 估计深度
三维数据获取 结构光成像系统的构成
利用结构光获取三维数据的基本原理
会画图 会推导公式
icp算法的作用和基本步骤
TODO 画图与推导公式
结构光成像系统
- 结构光投影仪
- CCD 相机
- 深度信息重建系统
ICP 算法
迭代最近点算法 Iterative Closest Point
给定两个三维点集 X 与 Y,将 Y 配准到 X。
- 计算 Y 中每一个点在 X 中的对应最近点
- 求使上述对应点对的平均距离最小的刚体变换,获得刚体变换参数(平移参数与旋转参数)
- 对 Y 应用上一步求得的刚体变换(平移与旋转),更新Y
- 如果不到阈值以下,从第一步重新迭代
光流
解决什么问题
三个基本假设
一个点的约束公式 会推导
哪些位置的光流比较可靠,why
解决像素对应问题,找到两幅图之间距离不远的像素之间的对应关系。
基本假设:
- 亮度恒定 Brightness constancy
- 空间相干性 Spatial coherence
- 小移动 Small motion
一个点的约束公式
$$
O\approx I_t+\nabla I\cdot[u,v] \
\text{证明如下:} \
O=I(x+u,y+v)-H(x,y) \
\approx I(x,y)+uI_x+vI_y-H(x,y) \
\approx (I(x,y)-H(x,y))+uI_x+vI_y \
\approx I_t+\nabla I\cdot[u,v]
$$
图像拼接
实现两张图像自动拼接的基本步骤
- 找到关键点
- 建立 SIFT 描述子
- 建立一一对应关系
- 计算 SIFT 描述子之间的欧氏距离
- 拟合变换矩阵
- 仿射变换
- RANSAC
- Image Blending
RANSAC 随机抽样一致性算法
理解其过程的核心思想
优点,基本步骤
RANdom SAmple Consensus
优点
- 计算快
- robust
- 抗噪 适合多种场景 实现方便
步骤
- 随机选取一组点
- 用这组点估计到的模型去检测还有哪些局内点,计数
- 用新的局内点重新计算模型,迭代
人脸识别 主成分分析
PCA 的基本思想 作用
优化目标函数的推导
a1TSa1
PCA 主成分分析
基本思想 作用
降维
优化目标函数的推导
投影方向 $\vec a_1$,有 $a_1^Ta_1=1$
$d$ 维空间中 $\vec x$
最大化 $\text{var}(z_1)=\text{var}(\vec a_1\cdot \vec x)$
求投影方向,即 $\arg\max _{a_1}\text{var}(z_1)$
$\text{var}(z_1)=a_1^TSa_1$
其中 $S=E(x_i,y_i)-E(x_i)E(y_i)=\text{Cov}(x_i,y_i)$
使用 Lagrange 乘子法
记 Lagrange 乘子为 $\lambda$
转化为最大化 $a_1^TSa_1-\lambda(a_1^Ta_1-1)$
对 $a_1^T$ 求微分并且令结果为0,得
$Sa_1-\lambda a_1=0$
此为最优化的必要条件。
上式就是矩阵特征值的定义,所以必须用协方差矩阵最大特征值对应的特征向量,转化为求协方差矩阵。
eigenface
是什么,基本步骤
将重构用于人脸检测的原理
步骤
- 将所有人脸归一化
- 通过 PCA 计算获得一组特征向量,一般 100 个就足够了
- 将每个人脸投影到此空间中,得到坐标
- 对于输入的图像,度量在此空间中的某种距离得到最近的结果
visual recognition
基本任务 4类
都有哪些挑战因素
WTF ???!!!
基于 Bag of Words (词袋)的物体分类
是什么意思,几个基本步骤
- 特征提取与表示
- 通过训练样本聚类来表示字典(codebook)
- 以字典的直方图描述图像
- 以 BoW 来分类未知图像
物体识别 CNN
计算参数个数与连接数
考虑么? bias 项?
- 参数个数
- 卷积核面积 $\times$ 卷积核个数
- 连接数
- 参数个数 $\times$ feature map 面积
- 权重 (weight) 数
- 同连接数
图像分割
图像分割的目标
将像素集合转换成有意义的或者感觉上相似的区域
基于聚类的语义分割
基于 K-means
聚类
聚类之前先 SIFT(或者其他特征检测方式)找到更优的聚类起始中心点
聚类之后可以预测在同一类的像素具有相同的标签
构建(?)
基于 mean shift 的图像分割
要求掌握:基本原理与基本思路
不需要具体步骤
Additional Part
计算机视觉的研究内容
- 输入设备
- 低层视觉
- 中层视觉
- 高层视觉
- 体系结构