计算机视觉:使用opencv进行直线检测
1 直线检测介绍
在图像处理中,直线检测是一种常见的算法,它通常获取n个边缘点的集合,并找到通过这些边缘点的直线。其中用于直线检测,最为流行的检测器是基于霍夫变换的直线检测技术。
1.1 什么是霍夫变换
霍夫变换(Hough Transform)是图像处理中的一种特征提取方法,可以识别图像中的几何形状。它将在参数空间内进行投票来决定其物体形状,通过检测累计结果找到一极大值所对应的解,利用此解即可得到一个符合特定形状的参数。
1.2 霍夫变换原理
一条直线可由两个点A=(X1,Y1)和B=(X2,Y2)确定(笛卡尔坐标)
另一方面,y = kx + q 也可以写成关于(k,q)的函数表达式(霍夫空间):
对应的变换可以通过图形直观表示:
变换后的空间成为霍夫空间。即:笛卡尔坐标系中一条直线,对应霍夫空间的一个点。
反过来同样成立(霍夫空间的一条直线,对应笛卡尔坐标系的一个点):
再来看看A、B两个点,对应霍夫空间的情形:
接下来,再看一下三个点共线的情况:
可以看出如果笛卡尔坐标系的点共线,这些点在霍夫空间对应的直线交于一点:这也是必然,共线只有一种取值可能。
如果不止一条直线呢?再看看多个点的情况(有两条直线):
其实(3,2)与(4,1)也可以组成直线,只不过它有两个点确定,而图中A、B两点是由三条直线汇成,这也是霍夫变换的后处理的基本方式:选择由尽可能多直线汇成的点。
霍夫空间:选择由三条交汇直线确定的点(中间图),对应的笛卡尔坐标系的直线(右图)。
到这里问题似乎解决了,已经完成了霍夫变换的求解,但是如果像下图这种情况呢?
k=∞是不方便表示的,而且q怎么取值呢,这样不是办法。因此考虑将笛卡尔坐标系换为:极坐标表示。
在极坐标系下,其实是一样的:极坐标的点→霍夫空间的直线,只不过霍夫空间不再是[k,q]的参数,而是的参数,给出对比图:
2 使用opencv进行直线检测
在使用霍夫变换侦测直线前,须先利用边缘检测算法来减少图像的数据量、剔掉不相关的信息,保留图像中重要的结构特征。
2.1 图像灰度化
原始图像与灰度化的图像如下:
2.2 边缘检测
利用边缘检测算法(Canny、Sobel、Laplacian等)来检测物体边缘,代码如下:
canny = cv2.Canny(gray_img, 30, 150)
2.3 霍夫变换
使用霍夫变换来得出直线检测结果,代码如下:
lines = cv2.HoughLines(canny, 1, np.pi / 180, 180)
lines1 = lines[:, 0, :]
for rho, theta in lines1[:]:
a = np.cos(theta)
b = np.sin(theta)
x0 = a * rho
y0 = b * rho
x1 = int(x0 + 3000 * (-b))
y1 = int(y0 + 3000 * (a))
x2 = int(x0 - 3000 * (-b))
y2 = int(y0 - 3000 * (a))
cv2.line(im, (x1, y1), (x2, y2), (0, 0, 255), 2)
运行结果显示如下:
2.4 完整代码
import cv2
import numpy as np
im = cv2.imread("../data/ladder.jpg")
cv2.imshow('original', im)
cv2.waitKey(0)
gray_img = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)
cv2.imshow('gray', gray_img)
cv2.waitKey(0)
canny = cv2.Canny(gray_img, 30, 150)
cv2.imshow('canny', canny)
cv2.waitKey(0)
lines = cv2.HoughLines(canny, 1, np.pi / 180, 180)
lines1 = lines[:, 0, :]
for rho, theta in lines1[:]:
a = np.cos(theta)
b = np.sin(theta)
x0 = a * rho
y0 = b * rho
x1 = int(x0 + 3000 * (-b))
y1 = int(y0 + 3000 * (a))
x2 = int(x0 - 3000 * (-b))
y2 = int(y0 - 3000 * (a))
cv2.line(im, (x1, y1), (x2, y2), (0, 0, 255), 2)
cv2.imshow('original', im)
cv2.waitKey(0)
3 使用opencv检测倾角
import cv2
import numpy as np
def line_detect(image):
# 将图片转换为HSV
hsv = cv2.cvtColor(image, cv2.COLOR_BGR2HSV)
# 设置阈值
lowera = np.array([0, 0, 221])
uppera = np.array([180, 30, 255])
mask1 = cv2.inRange(hsv, lowera, uppera)
kernel = np.ones((3, 3), np.uint8)
# 对得到的图像进行形态学操作(闭运算和开运算)
mask = cv2.morphologyEx(mask1, cv2.MORPH_CLOSE, kernel) #闭运算:表示先进行膨胀操作,再进行腐蚀操作
mask = cv2.morphologyEx(mask, cv2.MORPH_OPEN, kernel) #开运算:表示的是先进行腐蚀,再进行膨胀操作
# 绘制轮廓
edges = cv2.Canny(mask, 50, 150, apertureSize=3)
# 显示图片
cv2.imshow("edges", edges)
# 检测白线 这里是设置检测直线的条件,可以去读一读HoughLinesP()函数,然后根据自己的要求设置检测条件
lines = cv2.HoughLinesP(edges, 1, np.pi / 180, 40,minLineLength=10,maxLineGap=10)
print "lines=",lines
print "========================================================"
i=1
# 对通过霍夫变换得到的数据进行遍历
for line in lines:
# newlines1 = lines[:, 0, :]
print "line["+str(i-1)+"]=",line
x1,y1,x2,y2 = line[0] #两点确定一条直线,这里就是通过遍历得到的两个点的数据 (x1,y1)(x2,y2)
cv2.line(image,(x1,y1),(x2,y2),(0,0,255),2) #在原图上画线
# 转换为浮点数,计算斜率
x1 = float(x1)
x2 = float(x2)
y1 = float(y1)
y2 = float(y2)
print "x1=%s,x2=%s,y1=%s,y2=%s" % (x1, x2, y1, y2)
if x2 - x1 == 0:
print "直线是竖直的"
result=90
elif y2 - y1 == 0 :
print "直线是水平的"
result=0
else:
# 计算斜率
k = -(y2 - y1) / (x2 - x1)
# 求反正切,再将得到的弧度转换为度
result = np.arctan(k) * 57.29577
print "直线倾斜角度为:" + str(result) + "度"
i = i+1
# 显示最后的成果图
cv2.imshow("line_detect",image)
return result
if __name__ == '__main__':
# 读入图片
src = cv2.imread("lines/line6.jpg")
# 设置窗口大小
cv2.namedWindow("input image", cv2.WINDOW_AUTOSIZE)
# 显示原始图片
cv2.imshow("input image", src)
# 调用函数
line_detect(src)
cv2.waitKey(0)
4 opencv介绍
OpenCV的全称是Open Source Computer Vision Library,是一个跨平台的计算机视觉处理开源软件库,是由Intel公司俄罗斯团队发起并参与和维护,支持与计算机视觉和机器学习相关的众多算法,以BSD许可证授权发行,可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序,该程序库也可以使用英特尔公司的IPP进行加速处理。
4.1 核心模块
【core】核心模块
- OpenCV基本数据结构
- 动态数据结构
- 绘图函数
- 数组操作相关函数
- 辅助功能与系统函数和宏
- 与OpenGL的互操作
【imgproc】Imaging与Processing两个单词的缩写的组合。图像处理模块。
- 线性和非线性的图像滤波
- 图像的几何变换
- 其他(Miscellaneous)图像转换
- 直方图相关
- 结构分析和形状描述
- 运动分析和对象跟踪
- 特征检测
- 目标检测等内容
【features2d】2D功能框架
- 特征检测和描述
- 特征检测器(Feature Detectors)通用接口
- 描述符检测器(Descriptor Extrators)通用接口
- 描述匹配器(Descriptor Matches)通用接口
- 通用描述符(Generic Descriptor)匹配器通用接口
- 关键点绘制函数和匹配功能绘制函数
【flann】—— Fast Library for Approximate Nearest Neighbors,高维的近似近邻快速搜索算法库,包含两个部分:
- 快速近似最近邻搜索
- 聚类
【gpu】——运用GPU加速的计算机视觉模块
【legacy】——一些已经废弃的代码库,保留下来作为向下兼容,包含如下相关的内容:
- 运动分析
- 期望最大化
- 直方图
- 平面细分(C API)
- 特征检测和描述(Feature Detection and Description)
- 描述符提取器(Descriptor Extractors)的通用接口
- 通用描述符(Generic Descriptor Matchers)的常用接口
- 匹配器
【ml】——Machine Learning,机器学习模块, 基本上是统计模型和分类算法,包含如下内容:
- 统计模型 (Statistical Models)
- 一般贝叶斯分类器 (Normal Bayes Classifier)
- K-近邻 (K-NearestNeighbors)
- 支持向量机 (Support Vector Machines)
- 决策树 (Decision Trees)
- 提升(Boosting)
- 梯度提高树(Gradient Boosted Trees)
- 随机树 (Random Trees)
- 超随机树 (Extremely randomized trees)
- 期望最大化 (Expectation Maximization)
- 神经网络 (Neural Networks)
- MLData
【nonfree】,也就是一些具有专利的算法模块 ,包含特征检测和GPU相关的内容。最好不要商用,可能会被告侵权。其中SIFT特征点的检测和处理都在此模块中。
【objdetect】——目标检测模块,包含Cascade Classification(级联分类)和Latent SVM这两个部分。
【ocl】——即OpenCL-accelerated Computer Vision,运用OpenCL加速的计算机视觉组件模块
【photo】——也就是Computational Photography,包含图像修复和图像去噪两部分
【stitching】——images stitching,图像拼接模块,包含如下部分:
- 拼接流水线
- 特点寻找和匹配图像
- 估计旋转
- 自动校准
- 图片歪斜
- 接缝估测
- 曝光补偿
- 图片混合
【superres】——SuperResolution,超分辨率技术的相关功能模块
【ts】——opencv测试相关代码
【video】——视频分析组件,该模块包括运动估计,背景分离,对象跟踪等视频处理相关内容。
【Videostab】——Video stabilization,视频稳定相关的组件,官方文档中没有多作介绍。
【shape】——形状的匹配以及距离计算SHAPE
4.2 图像相关概念
像素
图片尺寸以像素为单位时,每一厘米等于28像素,如1515厘米长度的图片,等于420420像素的长度。一个像素所能表达的不同颜色数取决于比特每像素(BPP)。
灰度图像:8bpp=2的8次方=256色,
高彩色:16bpp=2的16次方=65536色,
真彩色:24bpps=2的24次方=16777216色。
图像分辨率:
图像分辨率是图像总像素的多少,由于图像通常用矩阵表示,所以分辨率常用,mn表示,注意: n 表示行数(代表一列包含的像素),m表示列数代表一行包含的像素。
640X480表示图像的长和宽分别为640和480,总像素为640X480=307200(相机中所说的30万分辨率),
800X600表示图像的长和宽分别为800和600,总像素为800X600=480000(相机中所说的50万分辨率)。
图像的表示
在OpenCV中,图像是一个矩阵,具有高度和宽度,并且每个像素的强度用一个值来表示(例如,灰度图像中的像素强度在0到255之间)。对于彩色图像,每个像素通常需要用三个值来表示颜色通道(例如,红绿蓝)。OpenCV中使用的常用图像格式包括:
- 灰度图像:每个像素由一个8位整数表示强度,值在0到255之间。
- 彩色图像:每个像素由三个8位整数表示强度,值在0到255之间,分别对应红、绿、蓝三个通道。
图像是由像素组成的,而像素实际上就是带有坐标位置和颜色信息的点。我们把图片想象成由若干行,若干列的点组成的, 现实中有RGB颜色系统,我们可以把图中任意一点(位置在第m行,第n列)的点A表示为
A[m,n] = [blue,green,red]
参数解读
m |A点在图像中的第m行
n |A点在图像中的第n列
blue |表示蓝色,三原色(RGB)的第一个数值
green|表示绿色,三原色(RGB)的第二个数值
red |表示红色,三原色(RGB)的第一个数值
每个点对应的亮度可以理解为rgb的值,无符号8位数3维,则一个像素点为3维数组,分别对应RGB的值,在OpenCV中数据类型为:cV_8u3C。
假设Mx N,lij表示第j行j列,对应上图就是M= 300,N= 200。
假设Mx N,lij表示第j行j列,对应上图就是M= 300,N= 200。
图像的操作
OpenCV提供了广泛的图像操作功能,包括读取、保存、显示、创建、复制、裁剪和缩放等。
4.3 优势
-
编程语言
OpenCV基于C++实现,同时提供python, Ruby, Matlab等语言的接口。OpenCV-Python是OpenCV的Python API,结合了OpenCV C++API和Python语言的最佳特性。 -
跨平台
OpenCV可以在不同的系统平台上使用,包括Windows,Linux,OS,X,Android和iOS。基于CUDA和OpenCL的高速GPU操作接口也在积极开发中。 -
活跃的开发团队
自从第一个预览版本于2000年公开以来,一直在进行更新。 -
丰富的API
完善的传统计算机视觉算法,涵盖主流的机器学习算法,同时添加了对深度学习的支持。
更多推荐
所有评论(0)