OpenCV

Jing1042026/1/6大约 9 分钟

OpenCV

intel公司的一个计算机视觉cv的开源库，基于c++实现，为C++、python、java都提供接口，还在不断发展。
python的opencv库里面的数组结构都是Numpy的数组。

数字图像

我们计算机处理的都是数字图像，是由离散像素组成的，分类如下：
位图：每个像素只有0（黑）和1（白）
灰度图：每个像素由一个8位（0-255）数字表示，0表示纯黑，255表示纯白
彩色图：有RGB三个分量，每个分量范围都是0-255，三个分量合成彩色

安装

我用的python，建议下一个anaconda，在虚拟环境里面先安装numpy和matplotlib，执行pip install opencv-python以及pip install opencv-contrib-python（扩展库）。要注意的是3.4以上的版本很多经典算法由于版权原因，他会收费，所以建议下载3.4以下的版本。

模块

主要有三个基本模块：

core：实现最核心的数据结构及其基本运算，如绘图函数、数组操作相关函数。
highgui：实现了视频与图像的读取显示存储等接口
imgproc：图像处理的基本方法，包括图像滤波、图像几何变换、平滑、阈值分割、形态学处理、边缘检测、目标检测、运动分析和对象跟踪等。
其他模块：
features2d：用于提取图像特征以及特征匹配，nonfree模块实现了一些专利算法，如sift特征，这不是免费的，但是3.4以下的版本没有这个模块，可以用。
objdetect：目标检测的功能，经典的基于Hear、LBP特征的人脸检测，基于HOG的行人汽车检测，分类器使用Cascade Classification（级联分类）和Latent SVM等
stitching：实现图像拼接，一般是那些遥感瓦片图片的拼接
FLANN模块：快速近似最近邻搜索FLANN和聚类Clustering算法。
ml模块机器学习模块
photo模块包含图像修复和图像去噪两部分
video模块针对视频处理，如北京分离，前景检测、对象跟踪等
calib3d模块即calibration（校准）3D，主要是相机校准和三维重建相关的内容，包含了基本的多视角集合算法，单个立体摄像头标定，物体姿态估计，立体相似性算法，3D信息重建等
G-API模块包含超搞笑的图像处理pipeline引擎

基本操作

图像的IO操作：读取和处理保存

读取图像

cv.imread()

参数：

要读取的图像
读取方式的标志：
- cv.IMREAD*COLOR：以彩色方式加载图像，任何图像的透明度都将被忽略，这是默认参数
- cv.IMREAD*GRAYSCALE:以灰度模式加载图像
- cv.IMREAD_UNCHANGED:包括alpha通道的加载图像模式
  可以使用1、0、-1来代替上面三个标志
  示例：

import numpy as np
import cvs as cv
img = cv.imread('test.jpg',0)

注意如果路径错误不会报错，而是返回一个none值

显示图像

在matplotlib中用imshow()也能展示图像，这里我们只讨论cv

cv.imshow()

参数：

显示图像的窗口名称，String类型
要加载的图像
要注意的是：在调用显示图像的API后，要调用cv.waitKey()为图像绘制留下时间，否则窗口会出现无响应情况，并且图像无法显示出来
参考代码：

import cv2 as cv
import numpy as np
import matplotlib.pyplot as plt

img = cv.imread("ideabkgdmob.jpg",0)
cv.imshow('image',img)
# 0表示一直等待，其他数字表示等待ms
cv.waitKey(0)
# matplotlib中展示
img = cv.imread("ideabkgdmob.jpg",1)
# cv中图象是BGR形式，所以要将通道反转
plt.imshow(img[:,:,::-1])
plt.show()

保存图片

cv.imwrite()

参数:

文件名，保存路径
要保存的图像
参考代码：

cv.imwrite('savetest.png',img)

在图像上绘制几何图形

绘制直线

cv.line(img, start, end, color, thickness)

参数:

img:图像
start：起点坐标
end：终点坐标
color：颜色
Thickness：线条宽度

绘制圆形

cv.circle(img,centerpoint, r, color, thickness)

参数：

centerpoint：圆心坐标
r：半径大小

绘制矩形

cv.rectangle(img, leftupper, rightdown, color, thickness)

参数：

leftupper：左上角坐标
rightdown：右下角坐标

往图像上添加文字

cv.putText(img, text, station, font, fontsize, color, thickness, cv.LINE_AA)

参数：

text：文本数据
station：文本放置位置
font:字体
Fontsize：字体大小

获取图像属性

图像属性：

img-shape：形状
img-size：图像大小(像素数)
img-dtype:数据类型（比如uint8）

访问图像的像素

可以通过行和列的坐标值获取该像素点的像素值，如果是BGR图像返回一个数组。如果是灰度图像，进返回相应的轻度之。

import numpy as np
import cv2 as cv
img = cv.imread('test.png')
# 获取某个像素点的值
px = img[100, 100]
# 获取像素点蓝色通道的值,前两个表示行列值，0表示蓝色通道
blue = img[100, 100, 0]
# 修改某个位置的像素值
img[100,100] = [255, 255, 255]

进行通道分离合并

有时需要在BGE通道图像上单独工作，这种情况下需要将BGR图像分割为单个通道。或者在其他情况下，可能需要将单独的通道合成BGR图像。

# 通道拆分
b,g,r = cv.split(img)
# 通道合并
img = cv.merge((b,g,r))

实现颜色空间的变换

OpenCV有150多种颜色空间转换方法。最广泛使用的有两种，BGR <-> Gray (彩色图和灰度图转换)以及 BGR <-> HSV (HSV在某些算法中比BGR要好一点)

cv.cvtColor(input_image, flag)

参数：

input_image:进行色彩空间转换的图片
flag:转换类型
- cv.COLOR_BGR2GRAY:BGR <-> Gray
- cv.COLOR_BGR2HSY:BGR <-> HSV

图像的算术运算

图像的加法

可以使用OpenCv的cv.add()函数把两幅图相加，也可以简单地用numpy操作添加两个图象，如res = img1 + img2。两个图象要有相同的大小和类型，或者第二个图象可以是标量。
注意：OpenCV和Numpy的加法不一样，CV的加法是饱和操作，Numpy添加是模运算
一般来说图像操作还是cv的相加效果更好

# 举例
x = np.uint8([250])
y = np.uint8([10])
# cv的相加，包和运算，因为灰度图的像素值是0-255，所以250+10 = 260 > 255,饱和后取255，最后输出255
print(cv.add(x,y))
# Numpy的相加操作，250 + 10 % 256 = 4.对256取模
print(x + y)

import cv2 as cv
cv.resize(src,dsize,fx = 0,fy = 0, interpolation = cv.INTER_LINEAR)

参数：

src：输入图像
dsize：绝对尺寸，直接指定调整后图像的大小
fx，fy：使用时将dsize设none，将fx和fy设置为比例因子即可
interpolation：插值方法

插值常量	含义	常用场景
`cv2.INTER_LINEAR`	双线性插值法	默认方式，放大图像时效果较好，速度均衡
`cv2.INTER_NEAREST`	最近邻插值	速度最快，但放大后锯齿感强，常用于掩码处理
`cv2.INTER_AREA`	像素区域重采样	缩小图像时的首选，能避免波纹和噪点
`cv2.INTER_CUBIC`	双三次插值	放大图像时效果最细腻，但计算开销较大

rows, cols = mob.shape[:2]
print(type(rows), cols)

# 绝对尺寸
res = cv.resize(mob, (int(0.5 * cols), int(2 * rows)))
plt.imshow(res[:,:,::-1])

# 相对尺寸
res1 = cv.resize(mob, None, fx = 0.5, fy = 0.1)
plt.imshow(res1[:,:,::-1])

图像平移 (Translation)

图像平移需要构建一个变换矩阵 $M$ ：

M = \begin{bmatrix} 1 & 0 & t_x \\ 0 & 1 & t_y \end{bmatrix}

其中 $t_x$ 是向右移动的距离， $t_y$ 是向下移动的距离。

import cv2 as cv
import numpy as np

img = cv.imread('test.jpg')
rows, cols = img.shape[:2]

# 定义平移矩阵 M: [1, 0, tx], [0, 1, ty]
# 例如：向右移动 100 像素，向下移动 50 像素
M = np.float32([[1, 0, 100], [0, 1, 50]])

# 使用 warpAffine 执行变换
# 参数：输入图像、变换矩阵、输出图像大小 (宽, 高)
dst = cv.warpAffine(img, M, (cols, rows))

cv.imshow('Translation', dst)
cv.waitKey(0)

图像旋转 (Rotation)

OpenCV 提供了 cv.getRotationMatrix2D 来获取旋转矩阵，支持缩放和任意中心点。

import cv2 as cv

img = cv.imread('test.jpg')
rows, cols = img.shape[:2]

# 参数：旋转中心，旋转角度（正为逆时针），缩放比例
# 这里选择图像中心旋转 45 度，不缩放
M = cv.getRotationMatrix2D((cols/2, rows/2), 45, 1)

# 执行变换
dst = cv.warpAffine(img, M, (cols, rows))

cv.imshow('Rotation', dst)
cv.waitKey(0)

仿射变换与透射变换 (Affine & Perspective)

仿射变换：保持平行性（如矩形变平行四边形）。需要 3 个点来确定变换关系。
透射变换：即“视点投影”，不保持平行性（如将斜拍的卡片拉正）。需要 4 个点确定。

import cv2 as cv
import numpy as np

# 1. 仿射变换示例
pts1 = np.float32([[50, 50], [200, 50], [50, 200]])
pts2 = np.float32([[10, 100], [200, 50], [100, 250]])
M_affine = cv.getAffineTransform(pts1, pts2)
dst_affine = cv.warpAffine(img, M_affine, (cols, rows))

# 2. 透射变换示例 (常用于扫描全能王这类文档校正)
pts1 = np.float32([[56, 65], [368, 52], [28, 387], [389, 390]])
pts2 = np.float32([[0, 0], [300, 0], [0, 300], [300, 300]])
M_persp = cv.getPerspectiveTransform(pts1, pts2)
dst_persp = cv.warpPerspective(img, M_persp, (300, 300))

图像阈值处理 (Thresholding)

将图像转换为黑白二值图，常用于分割前景和背景。

import cv2 as cv

img_gray = cv.imread('test.jpg', 0) # 以灰度模式读取

# 简单阈值处理
# 参数：原图(灰度), 阈值, 最大值, 类型
ret, thresh1 = cv.threshold(img_gray, 127, 255, cv.THRESH_BINARY)

# Otsu 二值化 (自动计算最佳阈值)
ret, thresh2 = cv.threshold(img_gray, 0, 255, cv.THRESH_BINARY + cv.THRESH_OTSU)

图像平滑 (Smoothing)

用于消除噪声。不同的滤波器适用于不同的噪声类型。

方法	函数	适用场景
均值滤波	`cv.blur()`	去除随机噪声
高斯滤波	`cv.GaussianBlur()`	最常用的平滑方法，效果自然
中值滤波	`cv.medianBlur()`	消除椒盐噪声（黑白点噪声）极有效
双边滤波	`cv.bilateralFilter()`	在去噪的同时能保留清晰的边缘

# 高斯滤波示例
# (5, 5) 是卷积核大小，0 是标准差（根据核大小自动计算）
blur = cv.GaussianBlur(img, (5, 5), 0)

OpenCV

OpenCV

数字图像

安装

模块

基本操作

图像的IO操作：读取和处理保存

读取图像

显示图像

保存图片

在图像上绘制几何图形

绘制直线

绘制圆形

绘制矩形

往图像上添加文字

获取图像属性

访问图像的像素

进行通道分离合并

实现颜色空间的变换

图像的算术运算

图像的加法

图像的混合

图像的减法、乘法除法

几何变换

图像缩放

图像平移 (Translation)

图像旋转 (Rotation)

仿射变换与透射变换 (Affine & Perspective)

图像阈值处理 (Thresholding)

图像平滑 (Smoothing)