使用Python进行图像几何变换

本文介绍了图像处理中的基本几何变换操作。主要包括图像缩放、平移、旋转等基础变换，以及仿射变换和透射变换等高级变换方法。同时讲解了图像金字塔的构建方法，包括向上采样(pyrUp)和向下采样(pyrDown)。这些变换主要通过OpenCV的函数实现，如warpAffine()用于执行平移和旋转，getAffineTransform()和getPerspectiveTransform()分别用于生成仿射

封奚泽优

1073人浏览 · 2025-07-02 13:43:40

封奚泽优 · 2025-07-02 13:43:40 发布

算数操作

图像的加法

OpenCV加法是饱和操作，Numpy加法是模运算。

import cv2
import numpy as np

x = np.uint8([250])
y = np.uint8([10])
print(x)  # [[250]]
print(y)  # [[10]]
print(cv2.add(x, y))  # [[255]]
print(x + y)  # [4]

OpenCV加法

# cv2.add() 是 OpenCV 中用于执行图像加法运算的核心函数，与 Python 的普通加法运算符 (+) 不同，它使用饱和运算防止溢出。
dst = cv2.add(src1, src2[, dst[, mask[, dtype]]])

参数	类型	描述
`src1`	numpy.ndarray	第一个输入数组（图像）
`src2`	numpy.ndarray 或标量	第二个输入数组或标量值
`dst`	numpy.ndarray (可选)	输出数组（与输入相同大小和类型）
`mask`	numpy.ndarray (可选)	8位单通道掩码，指定要修改的输出数组元素
`dtype`	int (可选)	输出数组的深度（如 cv2.CV_8U, cv2.CV_32F）

中文标题会乱码，干脆使用英文标题了，键盘按下任意键退出，只是关闭窗口程序不会结束。

import cv2

# 读取两张相同尺寸的图像
img1 = cv2.imread("image1.jpg")  # 替换为你的图片路径
img2 = cv2.imread("image2.jpg")  # 替换为你的图片路径

# 检查图像是否成功读取
if img1 is None or img2 is None:
    print("错误：无法读取图像文件")
    exit()

# 调整img2尺寸匹配img1
if img1.shape != img2.shape:
    img2 = cv2.resize(img2, (img1.shape[1], img1.shape[0]))  # 注意宽高顺序

# 直接相加
result = cv2.add(img1, img2)

# 显示结果
cv2.imshow("OpenCV Addition", result)
cv2.waitKey(0)
cv2.destroyAllWindows()

Numpy加法

很明显直接相加的话图像直接失真了。

result = img1 + img2

import cv2

# 读取两张相同尺寸的图像
img1 = cv2.imread("image1.jpg")  # 替换为你的图片路径
img2 = cv2.imread("image2.jpg")  # 替换为你的图片路径

# 检查图像是否成功读取
if img1 is None or img2 is None:
    print("错误：无法读取图像文件")
    exit()

# 调整img2尺寸匹配img1
if img1.shape != img2.shape:
    img2 = cv2.resize(img2, (img1.shape[1], img1.shape[0]))  # 注意宽高顺序

# 直接相加
result = img1 + img2

# 显示结果
cv2.imshow("Numpy Addition", result)
cv2.waitKey(0)
cv2.destroyAllWindows()

图像的混合

# cv2.addWeighted() 是 OpenCV 中最重要和最常用的图像处理函数之一，用于实现图像的加权混合（也称为alpha混合）。
# dst = src1 × alpha + src2 × beta + gamma
dst = cv2.addWeighted(src1, alpha, src2, beta, gamma[, dst[, dtype]])

参数	类型	描述	默认值	重要说明
`src1`	numpy.ndarray	第一个输入图像（矩阵）	必填	支持多通道图像（如BGR彩色图）
`alpha`	float	第一个图像的权重系数	必填	通常范围0.0-1.0，但可为任意实数
`src2`	numpy.ndarray	第二个输入图像（矩阵）	必填	必须与src1尺寸和通道数相同
`beta`	float	第二个图像的权重系数	必填	通常alpha + beta = 1.0
`gamma`	float	添加到加权和的标量值	必填	用于亮度调整，通常为0
`dst`	numpy.ndarray	输出图像	None	可选，用于预分配输出数组
`dtype`	int	输出数组的深度	-1	可选，如cv2.CV_8U, cv2.CV_32F

import cv2

# 读取两张相同尺寸的图像
img1 = cv2.imread("image1.jpg")  # 替换为你的图片路径
img2 = cv2.imread("image2.jpg")  # 替换为你的图片路径

# 检查图像是否成功读取
if img1 is None or img2 is None:
    print("错误：无法读取图像文件")
    exit()

# 调整img2尺寸匹配img1
if img1.shape != img2.shape:
    img2 = cv2.resize(img2, (img1.shape[1], img1.shape[0]))  # 注意宽高顺序

# 图像混合
result = cv2.addWeighted(img1, 0.3, img2, 0.7, 0)
# 显示结果
cv2.imshow("Image Mixing", result)
cv2.waitKey(0)
cv2.destroyAllWindows()

几何变换

图像缩放

对图像进行放大或缩小。

resized = cv2.resize(src, dsize[, dst[, fx[, fy[, interpolation]]]])

参数详解：

src: 输入图像 (numpy.ndarray)
dsize: 输出图像尺寸 (tuple: (width, height))
fx: 水平缩放因子 (float)
fy: 垂直缩放因子 (float)
interpolation: 插值方法 (默认为 cv2.INTER_LINEAR)

重要规则：必须指定 dsize 或 (fx, fy)，但不能同时指定两者

插值方法对比

插值方法	枚举值	时间复杂度	质量	适用场景
最近邻插值	`cv2.INTER_NEAREST`	O(1)	低	像素艺术、实时处理
双线性插值	`cv2.INTER_LINEAR`	O(4)	中	默认选择，平衡速度质量
双三次插值	`cv2.INTER_CUBIC`	O(16)	高	高质量放大，照片处理
区域插值	`cv2.INTER_AREA`	O(1)	中高	缩小图像首选
Lanczos插值	`cv2.INTER_LANCZOS4`	O(64)	极高	专业级放大，医学影像

绝对尺寸

resized = cv2.resize(img, (400, 300))

相对尺寸

# 缩小为原图的50%
half_size = cv2.resize(img, None, fx=0.5, fy=0.5)

图像平移

指定平移矩阵后，调用cv.warpAffine()平移图像。

dst = cv2.warpAffine(
    src, 
    M, 
    dsize, 
    dst=None, 
    flags=cv2.INTER_LINEAR, 
    borderMode=cv2.BORDER_CONSTANT, 
    borderValue=0
)

必需参数

参数	类型	描述
`src`	numpy.ndarray	输入图像 (单通道或多通道)
`M`	numpy.ndarray (2×3)	2×3仿射变换矩阵
`dsize`	tuple	输出图像尺寸 `(width, height)`

可选参数

参数	类型	默认值	描述
`dst`	numpy.ndarray	None	输出图像数组 (预分配内存)
`flags`	int	cv2.INTER_LINEAR	插值方法
`borderMode`	int	cv2.BORDER_CONSTANT	边界填充模式
`borderValue`	scalar	0	边界填充值 (BORDER_CONSTANT时使用)

M仿射变换矩阵

M = [ a11  a12  b1 ]
    [ a21  a22  b2 ]

变换类型与矩阵关系

变换类型	矩阵公式	说明
平移	`[[1, 0, tx], [0, 1, ty]]`	tx, ty 为平移量
旋转	`cv2.getRotationMatrix2D(center, angle, scale)`	中心点、角度、缩放
缩放	`[[sx, 0, 0], [0, sy, 0]]`	sx, sy 为缩放因子
倾斜	`[[1, shx, 0], [shy, 1, 0]]`	shx, shy 为倾斜因子
组合变换	M = M1 × M2	矩阵乘法组合多个变换

import cv2
import numpy as np

# 读取两张相同尺寸的图像
img = cv2.imread("image1.jpg")  # 替换为你的图片路径

# 检查图像是否成功读取
if img is None:
    print("错误：无法读取图像文件")
    exit()
# x移动200px，y移动150px
M = np.float32([[1, 0, 200], [0, 1, 150]])  # 平移矩阵
result = cv2.warpAffine(img, M, (img.shape[1], img.shape[0]))

# 显示结果
cv2.imshow("Image Translation", result)
cv2.waitKey(0)
cv2.destroyAllWindows()

图像旋转

调用cv.getRotationMatrix2D获取旋转矩阵，然后调用cv.warpAffine()进行旋转。

# 生成旋转矩阵
retval = cv2.getRotationMatrix2D(center, angle, scale)

参数	类型	描述
`center`	tuple (x, y)	旋转中心点坐标
`angle`	float	旋转角度（度），逆时针为正
`scale`	float	缩放比例 (1.0 = 保持原大小)

返回值：retval: 2×3 仿射变换矩阵 (numpy.ndarray, dtype=float64)

此时M：[[ 0.70710678 0.70710678 -50.33008589]
[ -0.70710678 0.70710678 418.49242405]]

import cv2

# 读取两张相同尺寸的图像
img = cv2.imread("image1.jpg")  # 替换为你的图片路径

# 检查图像是否成功读取
if img is None:
    print("错误：无法读取图像文件")
    exit()
# 旋转中心，旋转角度，缩放因子
M = cv2.getRotationMatrix2D((img.shape[1] / 2, img.shape[0] / 2), 45, 1)  # 旋转矩阵
# 进行旋转
result = cv2.warpAffine(img, M, (img.shape[1], img.shape[0]))

# 显示结果
cv2.imshow("Image Rotation", result)
cv2.waitKey(0)
cv2.destroyAllWindows()

仿射变换

调用getAffineTransform将创建变换矩阵，最后该矩阵传递给cv.warpAffine()进行变换。

如果两条线在变换前平行，变换后仍然平行。
位于同一直线上的点在变换后仍然位于同一直线上。
直线上点的比例关系在变换后保持不变。如果点C位于A和B之间，且AC:CB = m:n，则变换后这个比例关系仍然成立。

# 通过三对对应点建立源图像与目标图像之间的几何映射关系
M = cv2.getAffineTransform(src, dst)

参数	类型	描述
`src`	numpy.ndarray (3×2)	源图像中的三个点坐标 (float32)
`dst`	numpy.ndarray (3×2)	目标图像中的三个对应点坐标 (float32)

返回值：M: 2×3 仿射变换矩阵 (numpy.ndarray, dtype=float64)

此时M：[[ 1.26666667 0.6 -83.33333333]
[ -0.33333333 1. 66.66666667]]

import cv2
import numpy as np

# 读取两张相同尺寸的图像
img = cv2.imread("image1.jpg")  # 替换为你的图片路径

# 检查图像是否成功读取
if img is None:
    print("错误：无法读取图像文件")
    exit()

# 定义源图像和目标图像的顶点
pts1 = np.float32([[50, 50], [200, 50], [50, 200]])
pts2 = np.float32([[10, 100], [200, 50], [100, 250]])
# 计算仿射变换矩阵
M = cv2.getAffineTransform(pts1, pts2)
# 进行仿射变换
result = cv2.warpAffine(img, M, (img.shape[1], img.shape[0]))

# 显示结果
cv2.imshow("Affine Transformation", result)
cv2.waitKey(0)
cv2.destroyAllWindows()

透射变换

通过函数getPerspectiveTransform()找到变换矩阵，将cv.warpPerspective()进行投射变换。

M = cv2.getPerspectiveTransform(src, dst[, solveMethod])

参数	类型	描述
`src`	numpy.ndarray (4×2)	源图像中的四个点坐标 (float32)
`dst`	numpy.ndarray (4×2)	目标图像中的四个对应点坐标 (float32)
`solveMethod`	int	矩阵求解方法 (默认 DECOMP_LU)

此时T：[[ 1.05587376e+00 9.18151097e-02 -6.50969128e+01]
[ 4.69010049e-02 1.12562412e+00 -7.57920240e+01]
[ 1.83251448e-04 5.13337001e-04 1.00000000e+00]]

dst = cv2.warpPerspective(
    src, 
    M, 
    dsize, 
    dst=None, 
    flags=cv2.INTER_LINEAR, 
    borderMode=cv2.BORDER_CONSTANT, 
    borderValue=0
)

参数	类型	描述	默认值
`src`	numpy.ndarray	输入图像 (单通道或多通道)	-
`M`	numpy.ndarray (3×3)	透视变换矩阵 (单应性矩阵)	-
`dsize`	tuple	输出图像尺寸 `(width, height)`	-
`dst`	numpy.ndarray	输出图像 (预分配内存)	None
`flags`	int	插值方法 + 可选标志	INTER_LINEAR
`borderMode`	int	边界处理模式	BORDER_CONSTANT
`borderValue`	scalar	边界填充值	0

import cv2
import numpy as np

# 读取两张相同尺寸的图像
img = cv2.imread("image1.jpg")  # 替换为你的图片路径

# 检查图像是否成功读取
if img is None:
    print("错误：无法读取图像文件")
    exit()
# 透视变换
# 定义源点
pts1=np.float32([[56, 65], [368, 52], [28, 387], [389, 390]])
# 定义目标点
pts2=np.float32([[0, 0], [300, 0], [0, 300], [300, 300]])
# 获取透视变换矩阵
T=cv2.getPerspectiveTransform(pts1, pts2)

result = cv2.warpPerspective(img, T, (img.shape[1], img.shape[0]))

# 显示结果
cv2.imshow("Transmission Transformation", result)
cv2.waitKey(0)
cv2.destroyAllWindows()

图像金字塔

向上采样：cv.pyrUp()

向下采样：cv.pyrDown()

dst = cv2.pyrUp(
    src, 
    dst=None, 
    dstsize=None, 
    borderType=cv2.BORDER_DEFAULT
)

dst = cv2.pyrDown(
    src, 
    dst=None, 
    dstsize=None, 
    borderType=cv2.BORDER_DEFAULT
)

参数	类型	描述	默认值
`src`	numpy.ndarray	输入图像	-
`dst`	numpy.ndarray	输出图像 (可选)	None
`dstsize`	tuple	输出图像大小 `(width, height)`	None
`borderType`	int	边界填充类型	cv2.BORDER_DEFAULT

import cv2
import numpy as np

# 读取两张相同尺寸的图像
img = cv2.imread("image1.jpg")  # 替换为你的图片路径

# 检查图像是否成功读取
if img is None:
    print("错误：无法读取图像文件")
    exit()

up_img = cv2.pyrUp(img)  # 上采样
down_img = cv2.pyrDown(img)  # 下采样

# 显示结果
cv2.imshow("enlarge", up_img)
cv2.imshow("Image Pyramid", img)
cv2.imshow("shrink", down_img)
cv2.waitKey(0)
cv2.destroyAllWindows()

特性	图像金字塔	图像缩放
目的	创建多尺度表示用于特征分析	改变图像尺寸以适应特定需求
输出	一组不同尺度的图像序列	单一尺寸的图像
数学基础	高斯平滑+下采样/上采样	插值算法
可逆性	不可逆（信息损失）	部分可逆（取决于算法）
典型应用	多尺度特征检测、图像融合	显示适配、预处理、存储优化
OpenCV函数	`pyrUp()`, `pyrDown()`	`resize()`

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐