PaddleOCR 图片日期识别
PaddleOCR
Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)
项目地址:https://gitcode.com/gh_mirrors/pa/PaddleOCR
免费下载资源
·
目录
一 . 获取图片信息种对应坐标区域日期信息 (类型为1:http链接 类型为 2本地图片路径)
二 . ocr图片识别日期信息获取,调用获取图片区域相应位置方法
当今数字化的时代,我们经常需要从图像中提取信息,以便进行后续的处理和分析。其中,日期 信息作为一种重要的时间标记,常常存在于各种图像中,例如照片、截图等。然而,要手动从图像中提取日期信息是一项耗时且繁琐的任务,特别是当图像数量庞大时。因此,我们需要一种自动化的方式来实现这一任务。
PaddleOCR 是一个基于 PaddlePaddle 深度学习框架的开源 OCR(Optical Character Recognition,光学字符识别)工具库,它提供了强大的文字识别功能,能够准确地从图像中识别出各种文字信息,包括日期。在本文中,我们将探讨如何利用 PaddleOCR 来实现图像中日期信息的自动识别。
本文要解决的问题:从图像中提取日期信息并生成rtsp视频回放URL
一 . 获取图片信息种对应坐标区域日期信息 (类型为1:http链接 类型为 2本地图片路径)
# 读取图片识别相应位置坐标获取 类型为1:http 类型为 2本地图片路径
def x_y_get(image,type):
if type == 1:
# Nginx图片的访问地址
# image_url = "http://192.168.14.93:85/car_image/202306/20230601022933/em_1.jpg"
image_url = image
# 下载图片
response = requests.get(image_url)
image_data = response.content
# 将图片数据加载为OpenCV图像
image_array = np.frombuffer(image_data, np.uint8)
image = cv2.imdecode(image_array, cv2.IMREAD_COLOR)
else:
# 读取图像
image = cv2.imread(image)
# 定义要截取的区域的坐标
x, y, w, h = 20, 0, 800, 100 # 坐标
# 截取图像区域
cropped_image = image[y:y+h, x:x+w]
# 将截取的图像转换为灰度图像
gray_image = cv2.cvtColor(cropped_image, cv2.COLOR_BGR2GRAY)
# # 展示处理后的图像
# plt.imshow(cropped_image, cmap='gray')
# plt.axis('off') # 关闭坐标轴
# plt.show()
return gray_image
二 . ocr图片识别日期信息获取,调用获取图片区域相应位置方法
# ocr图片识别日期信息获取
def paddle_ocr(path,type):
# 调用--读取图片识别相应位置坐标获取
gray_image = x_y_get(path,type)
# 加载PaddleOCR模型
ocr = PaddleOCR(use_angle_cls=True, lang='ch')
# 定义一个函数来提取日期
def extract_dates(ocr_result):
dates = []
for line in ocr_result:
for word in line:
# 中文过滤
linee = re.sub('[\u4e00-\u9fa5]', '', word[1][0])
# 识别结果将中文进行过滤,但是列表位置可能不一需要进行判断
if linee != '':
dates.append(linee)
# 将结果进行join为时间格式
dates = ' '.join(dates).replace('-','').replace(':','').replace(' ','').replace('—','').replace(':','')
return dates
# 执行OCR识别
result = ocr.ocr(gray_image, cls=True)
# 提取日期信息
dates = extract_dates(result)
return dates
三 . 如有所需获取rtsp流回放格式
# 对应字符串日期转换处理,获取前五秒时间与后五秒时间-- 组装成rtsp返回格式
def get_time(original_timestamp):
# 解析字符串为datetime对象
dt = datetime.strptime(original_timestamp, '%Y%m%d%H%M%S')
# 往前五秒
before_5_seconds = dt - timedelta(seconds=5)
# 往后五秒
after_5_seconds = dt + timedelta(seconds=5)
# 转换回字符串格式(与原格式一致)
before_5_str = before_5_seconds.strftime('%Y%m%d%H%M%S')
after_5_str = after_5_seconds.strftime('%Y%m%d%H%M%S')
# 组成rtsp回放所需格式
time = '?starttime={}t{}z&endtime={}t{}z'.format(before_5_str[0:8], before_5_str[8:], after_5_str[0:8],
after_5_str[8:])
return time
# ocr识别获取时间日期 类型为1--http 类型为2--本地
# res = paddle_ocr(r'http://192.168.14.93:85/car_image/202306/20230601022933/em_1.jpg',1)
res = paddle_ocr(r'D:\python_project\uu\Seal_monitoring_system\static\em_16.jpg',2)
print(res)
# 获取rtsp前段流
rtsp ='rtsp://admin:1qaz2wsx!@QW@192.168.7.38:554/Streaming/tracks/101'
# ocr时间日期传入来获取rtsp前后五秒格式--后段流
get_time_data = get_time(res)
# 拼接为完整回放流
rtsp = rtsp+get_time_data
print(rtsp)
四 . 完整代码如下 (路径可根据自己实际需求替换)
import cv2
import re
import requests
import numpy as np
import matplotlib.pyplot as plt
from paddleocr import PaddleOCR
from datetime import datetime, timedelta
# 读取图片识别相应位置坐标获取 类型为1:http 类型为 2本地
def x_y_get(image,type):
if type == 1:
# Nginx图片的访问地址
# image_url = "http://192.168.14.93:85/car_image/202306/20230601022933/em_1.jpg"
image_url = image
# 下载图片
response = requests.get(image_url)
image_data = response.content
# 将图片数据加载为OpenCV图像
image_array = np.frombuffer(image_data, np.uint8)
image = cv2.imdecode(image_array, cv2.IMREAD_COLOR)
else:
# 读取图像
image = cv2.imread(image)
# 定义要截取的区域的坐标
x, y, w, h = 20, 0, 800, 100 # 坐标
# 截取图像区域
cropped_image = image[y:y+h, x:x+w]
# 将截取的图像转换为灰度图像
gray_image = cv2.cvtColor(cropped_image, cv2.COLOR_BGR2GRAY)
# # 展示处理后的图像
# plt.imshow(cropped_image, cmap='gray')
# plt.axis('off') # 关闭坐标轴
# plt.show()
return gray_image
# ocr图片识别日期信息获取
def paddle_ocr(path,type):
# 调用--读取图片识别相应位置坐标获取
gray_image = x_y_get(path,type)
# 加载PaddleOCR模型
ocr = PaddleOCR(use_angle_cls=True, lang='ch')
# 定义一个函数来提取日期
def extract_dates(ocr_result):
dates = []
for line in ocr_result:
for word in line:
# 中文过滤
linee = re.sub('[\u4e00-\u9fa5]', '', word[1][0])
# 识别结果将中文进行过滤,但是列表位置可能不一需要进行判断
if linee != '':
dates.append(linee)
# 将结果进行join为时间格式
dates = ' '.join(dates).replace('-','').replace(':','').replace(' ','').replace('—','').replace(':','')
return dates
# 执行OCR识别
result = ocr.ocr(gray_image, cls=True)
# 提取日期信息
dates = extract_dates(result)
return dates
# 对应字符串日期转换处理,获取前五秒时间与后五秒时间-- 组装成rtsp返回格式
def get_time(original_timestamp):
# 解析字符串为datetime对象
dt = datetime.strptime(original_timestamp, '%Y%m%d%H%M%S')
# 往前五秒
before_5_seconds = dt - timedelta(seconds=5)
# 往后五秒
after_5_seconds = dt + timedelta(seconds=5)
# 转换回字符串格式(与原格式一致)
before_5_str = before_5_seconds.strftime('%Y%m%d%H%M%S')
after_5_str = after_5_seconds.strftime('%Y%m%d%H%M%S')
# 组成rtsp回放所需格式
time = '?starttime={}t{}z&endtime={}t{}z'.format(before_5_str[0:8], before_5_str[8:], after_5_str[0:8],
after_5_str[8:])
return time
# ocr识别获取时间日期 类型为1--http 类型为2--本地
# res = paddle_ocr(r'http://192.168.14.93:85/car_image/202306/20230601022933/em_1.jpg',1)
res = paddle_ocr(r'D:\python_project\uu\Seal_monitoring_system\static\em_16.jpg',2)
print(res)
# 获取rtsp前段流
rtsp ='rtsp://admin:1qaz2wsx!@QW@192.168.7.38:554/Streaming/tracks/101'
# ocr时间日期传入来获取rtsp前后五秒格式--后段流
get_time_data = get_time(res)
# 拼接为完整回放流
rtsp = rtsp+get_time_data
print(rtsp)
GitHub 加速计划 / pa / PaddleOCR
41.53 K
7.59 K
下载
Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)
最近提交(Master分支:3 个月前 )
7bbda2bc
6 天前
1d4e7a80
8 天前
更多推荐
已为社区贡献2条内容
所有评论(0)