1 直线检测介绍

在图像处理中,直线检测是一种常见的算法,它通常获取n个边缘点的集合,并找到通过这些边缘点的直线。其中用于直线检测,最为流行的检测器是基于霍夫变换的直线检测技术。

1.1 什么是霍夫变换

霍夫变换(Hough Transform)是图像处理中的一种特征提取方法,可以识别图像中的几何形状。它将在参数空间内进行投票来决定其物体形状,通过检测累计结果找到一极大值所对应的解,利用此解即可得到一个符合特定形状的参数。

1.2 霍夫变换原理

一条直线可由两个点A=(X1,Y1)和B=(X2,Y2)确定(笛卡尔坐标)

另一方面,y = kx + q 也可以写成关于(k,q)的函数表达式(霍夫空间):

对应的变换可以通过图形直观表示:

变换后的空间成为霍夫空间。即:笛卡尔坐标系中一条直线,对应霍夫空间的一个点

反过来同样成立(霍夫空间的一条直线,对应笛卡尔坐标系的一个点):

 再来看看A、B两个点,对应霍夫空间的情形:

接下来,再看一下三个点共线的情况: 

可以看出如果笛卡尔坐标系的点共线,这些点在霍夫空间对应的直线交于一点:这也是必然,共线只有一种取值可能。

如果不止一条直线呢?再看看多个点的情况(有两条直线):

其实(3,2)与(4,1)也可以组成直线,只不过它有两个点确定,而图中A、B两点是由三条直线汇成,这也是霍夫变换的后处理的基本方式选择由尽可能多直线汇成的点

霍夫空间:选择由三条交汇直线确定的点(中间图),对应的笛卡尔坐标系的直线(右图)。

到这里问题似乎解决了,已经完成了霍夫变换的求解,但是如果像下图这种情况呢?

k=∞是不方便表示的,而且q怎么取值呢,这样不是办法。因此考虑将笛卡尔坐标系换为:极坐标表示

在极坐标系下,其实是一样的:极坐标的点→霍夫空间的直线,只不过霍夫空间不再是[k,q]的参数,而是[\rho, \theta ]的参数,给出对比图: 

2 使用opencv进行直线检测

在使用霍夫变换侦测直线前,须先利用边缘检测算法来减少图像的数据量、剔掉不相关的信息,保留图像中重要的结构特征。

2.1 图像灰度化

原始图像与灰度化的图像如下:

2.2 边缘检测

利用边缘检测算法(Canny、Sobel、Laplacian等)来检测物体边缘,代码如下:

canny = cv2.Canny(gray_img, 30, 150)

2.3 霍夫变换

使用霍夫变换来得出直线检测结果,代码如下:

lines = cv2.HoughLines(canny, 1, np.pi / 180, 180)
lines1 = lines[:, 0, :]
for rho, theta in lines1[:]:
    a = np.cos(theta)
    b = np.sin(theta)
    x0 = a * rho
    y0 = b * rho
    x1 = int(x0 + 3000 * (-b))
    y1 = int(y0 + 3000 * (a))
    x2 = int(x0 - 3000 * (-b))
    y2 = int(y0 - 3000 * (a))
    cv2.line(im, (x1, y1), (x2, y2), (0, 0, 255), 2)

运行结果显示如下:

2.4 完整代码

import cv2
import numpy as np


im = cv2.imread("../data/ladder.jpg")

cv2.imshow('original', im)
cv2.waitKey(0)

gray_img = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)
cv2.imshow('gray', gray_img)
cv2.waitKey(0)

canny = cv2.Canny(gray_img, 30, 150)
cv2.imshow('canny', canny)
cv2.waitKey(0)

lines = cv2.HoughLines(canny, 1, np.pi / 180, 180)
lines1 = lines[:, 0, :]
for rho, theta in lines1[:]:
    a = np.cos(theta)
    b = np.sin(theta)
    x0 = a * rho
    y0 = b * rho
    x1 = int(x0 + 3000 * (-b))
    y1 = int(y0 + 3000 * (a))
    x2 = int(x0 - 3000 * (-b))
    y2 = int(y0 - 3000 * (a))
    cv2.line(im, (x1, y1), (x2, y2), (0, 0, 255), 2)

cv2.imshow('original', im)
cv2.waitKey(0)

3 使用opencv检测倾角

import cv2
import numpy as np
 
def line_detect(image):
  # 将图片转换为HSV
  hsv = cv2.cvtColor(image, cv2.COLOR_BGR2HSV)
  # 设置阈值
  lowera = np.array([0, 0, 221])
  uppera = np.array([180, 30, 255])
  mask1 = cv2.inRange(hsv, lowera, uppera)
  kernel = np.ones((3, 3), np.uint8)
 
  # 对得到的图像进行形态学操作(闭运算和开运算)
  mask = cv2.morphologyEx(mask1, cv2.MORPH_CLOSE, kernel) #闭运算:表示先进行膨胀操作,再进行腐蚀操作
  mask = cv2.morphologyEx(mask, cv2.MORPH_OPEN, kernel)  #开运算:表示的是先进行腐蚀,再进行膨胀操作
 
  # 绘制轮廓
  edges = cv2.Canny(mask, 50, 150, apertureSize=3)
  # 显示图片
  cv2.imshow("edges", edges)
  # 检测白线  这里是设置检测直线的条件,可以去读一读HoughLinesP()函数,然后根据自己的要求设置检测条件
  lines = cv2.HoughLinesP(edges, 1, np.pi / 180, 40,minLineLength=10,maxLineGap=10)
  print "lines=",lines
  print "========================================================"
  i=1
  # 对通过霍夫变换得到的数据进行遍历
  for line in lines:
    # newlines1 = lines[:, 0, :]
    print "line["+str(i-1)+"]=",line
    x1,y1,x2,y2 = line[0]  #两点确定一条直线,这里就是通过遍历得到的两个点的数据 (x1,y1)(x2,y2)
    cv2.line(image,(x1,y1),(x2,y2),(0,0,255),2)   #在原图上画线
    # 转换为浮点数,计算斜率
    x1 = float(x1)
    x2 = float(x2)
    y1 = float(y1)
    y2 = float(y2)
    print "x1=%s,x2=%s,y1=%s,y2=%s" % (x1, x2, y1, y2)
    if x2 - x1 == 0:
      print "直线是竖直的"
      result=90
    elif y2 - y1 == 0 :
      print "直线是水平的"
      result=0
    else:
      # 计算斜率
      k = -(y2 - y1) / (x2 - x1)
      # 求反正切,再将得到的弧度转换为度
      result = np.arctan(k) * 57.29577
      print "直线倾斜角度为:" + str(result) + "度"
    i = i+1
  #   显示最后的成果图
  cv2.imshow("line_detect",image)
  return result
 
if __name__ == '__main__':
  # 读入图片
  src = cv2.imread("lines/line6.jpg")
  # 设置窗口大小
  cv2.namedWindow("input image", cv2.WINDOW_AUTOSIZE)
  # 显示原始图片
  cv2.imshow("input image", src)
  # 调用函数
  line_detect(src)
  cv2.waitKey(0)

4 opencv介绍

OpenCV的全称是Open Source Computer Vision Library,是一个跨平台的计算机视觉处理开源软件库,是由Intel公司俄罗斯团队发起并参与和维护,支持与计算机视觉和机器学习相关的众多算法,以BSD许可证授权发行,可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序,该程序库也可以使用英特尔公司的IPP进行加速处理。

4.1 核心模块

【core】核心模块

  • OpenCV基本数据结构
  • 动态数据结构
  • 绘图函数
  • 数组操作相关函数
  • 辅助功能与系统函数和宏
  • 与OpenGL的互操作

【imgproc】Imaging与Processing两个单词的缩写的组合。图像处理模块。

  • 线性和非线性的图像滤波
  • 图像的几何变换
  • 其他(Miscellaneous)图像转换
  • 直方图相关
  • 结构分析和形状描述
  • 运动分析和对象跟踪
  • 特征检测
  • 目标检测等内容

【features2d】2D功能框架

  • 特征检测和描述
  • 特征检测器(Feature Detectors)通用接口
  • 描述符检测器(Descriptor Extrators)通用接口
  • 描述匹配器(Descriptor Matches)通用接口
  • 通用描述符(Generic Descriptor)匹配器通用接口
  • 关键点绘制函数和匹配功能绘制函数

【flann】—— Fast Library for Approximate Nearest Neighbors,高维的近似近邻快速搜索算法库,包含两个部分:

  • 快速近似最近邻搜索
  • 聚类

【gpu】——运用GPU加速的计算机视觉模块

【legacy】——一些已经废弃的代码库,保留下来作为向下兼容,包含如下相关的内容:

  • 运动分析
  • 期望最大化
  • 直方图
  • 平面细分(C API)
  • 特征检测和描述(Feature Detection and Description)
  • 描述符提取器(Descriptor Extractors)的通用接口
  • 通用描述符(Generic Descriptor Matchers)的常用接口
  • 匹配器

【ml】——Machine Learning,机器学习模块, 基本上是统计模型和分类算法,包含如下内容:

  • 统计模型 (Statistical Models)
  • 一般贝叶斯分类器 (Normal Bayes Classifier)
  • K-近邻 (K-NearestNeighbors)
  • 支持向量机 (Support Vector Machines)
  • 决策树 (Decision Trees)
  • 提升(Boosting)
  • 梯度提高树(Gradient Boosted Trees)
  • 随机树 (Random Trees)
  • 超随机树 (Extremely randomized trees)
  • 期望最大化 (Expectation Maximization)
  • 神经网络 (Neural Networks)
  • MLData

【nonfree】,也就是一些具有专利的算法模块 ,包含特征检测和GPU相关的内容。最好不要商用,可能会被告侵权。其中SIFT特征点的检测和处理都在此模块中。

【objdetect】——目标检测模块,包含Cascade Classification(级联分类)和Latent SVM这两个部分。

【ocl】——即OpenCL-accelerated Computer Vision,运用OpenCL加速的计算机视觉组件模块

【photo】——也就是Computational Photography,包含图像修复和图像去噪两部分

【stitching】——images stitching,图像拼接模块,包含如下部分:

  • 拼接流水线
  • 特点寻找和匹配图像
  • 估计旋转
  • 自动校准
  • 图片歪斜
  • 接缝估测
  • 曝光补偿
  • 图片混合

【superres】——SuperResolution,超分辨率技术的相关功能模块

【ts】——opencv测试相关代码

【video】——视频分析组件,该模块包括运动估计,背景分离,对象跟踪等视频处理相关内容。

【Videostab】——Video stabilization,视频稳定相关的组件,官方文档中没有多作介绍。
【shape】——形状的匹配以及距离计算SHAPE

4.2 图像相关概念

像素

图片尺寸以像素为单位时,每一厘米等于28像素,如1515厘米长度的图片,等于420420像素的长度。一个像素所能表达的不同颜色数取决于比特每像素(BPP)。

灰度图像:8bpp=2的8次方=256色,
高彩色:16bpp=2的16次方=65536色,
真彩色:24bpps=2的24次方=16777216色。

图像分辨率:

图像分辨率是图像总像素的多少,由于图像通常用矩阵表示,所以分辨率常用,mn表示,注意: n 表示行数(代表一列包含的像素),m表示列数代表一行包含的像素。

640X480表示图像的长和宽分别为640和480,总像素为640X480=307200(相机中所说的30万分辨率),
800X600表示图像的长和宽分别为800和600,总像素为800X600=480000(相机中所说的50万分辨率)。

图像的表示

在OpenCV中,图像是一个矩阵,具有高度和宽度,并且每个像素的强度用一个值来表示(例如,灰度图像中的像素强度在0到255之间)。对于彩色图像,每个像素通常需要用三个值来表示颜色通道(例如,红绿蓝)。OpenCV中使用的常用图像格式包括:

  • 灰度图像:每个像素由一个8位整数表示强度,值在0到255之间。
  • 彩色图像:每个像素由三个8位整数表示强度,值在0到255之间,分别对应红、绿、蓝三个通道。

图像是由像素组成的,而像素实际上就是带有坐标位置和颜色信息的点。我们把图片想象成由若干行,若干列的点组成的, 现实中有RGB颜色系统,我们可以把图中任意一点(位置在第m行,第n列)的点A表示为

A[m,n] = [blue,green,red]
参数解读
m |A点在图像中的第m行
n |A点在图像中的第n列
blue |表示蓝色,三原色(RGB)的第一个数值
green|表示绿色,三原色(RGB)的第二个数值
red |表示红色,三原色(RGB)的第一个数值

每个点对应的亮度可以理解为rgb的值,无符号8位数3维,则一个像素点为3维数组,分别对应RGB的值,在OpenCV中数据类型为:cV_8u3C。
假设Mx N,lij表示第j行j列,对应上图就是M= 300,N= 200。
假设Mx N,lij表示第j行j列,对应上图就是M= 300,N= 200。

图像的操作

OpenCV提供了广泛的图像操作功能,包括读取、保存、显示、创建、复制、裁剪和缩放等。

4.3 优势

  • 编程语言
    OpenCV基于C++实现,同时提供python, Ruby, Matlab等语言的接口。OpenCV-Python是OpenCV的Python API,结合了OpenCV C++API和Python语言的最佳特性。

  • 跨平台
    OpenCV可以在不同的系统平台上使用,包括Windows,Linux,OS,X,Android和iOS。基于CUDA和OpenCL的高速GPU操作接口也在积极开发中。

  • 活跃的开发团队
    自从第一个预览版本于2000年公开以来,一直在进行更新。

  • 丰富的API
    完善的传统计算机视觉算法,涵盖主流的机器学习算法,同时添加了对深度学习的支持。

GitHub 加速计划 / opencv31 / opencv
77.38 K
55.71 K
下载
OpenCV: 开源计算机视觉库
最近提交(Master分支:2 个月前 )
48668119 dnn: use dispatching for Winograd optimizations 1 天前
3dace76c flann: remove unused hdf5 header 1 天前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐