PaddleOCR 图片日期识别

PaddleOCR

Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)

项目地址：https://gitcode.com/gh_mirrors/pa/PaddleOCR

免费下载资源

迷糊小面包

958人浏览 · 2024-04-10 11:22:31

迷糊小面包 · 2024-04-10 11:22:31 发布

一 . 获取图片信息种对应坐标区域日期信息（类型为1：http链接类型为 2本地图片路径）

二 . ocr图片识别日期信息获取，调用获取图片区域相应位置方法

三 . 如有所需获取rtsp流回放格式

四 . 完整代码如下（路径可根据自己实际需求替换）

当今数字化的时代，我们经常需要从图像中提取信息，以便进行后续的处理和分析。其中，日期信息作为一种重要的时间标记，常常存在于各种图像中，例如照片、截图等。然而，要手动从图像中提取日期信息是一项耗时且繁琐的任务，特别是当图像数量庞大时。因此，我们需要一种自动化的方式来实现这一任务。

PaddleOCR 是一个基于 PaddlePaddle 深度学习框架的开源 OCR（Optical Character Recognition，光学字符识别）工具库，它提供了强大的文字识别功能，能够准确地从图像中识别出各种文字信息，包括日期。在本文中，我们将探讨如何利用 PaddleOCR 来实现图像中日期信息的自动识别。

本文要解决的问题：从图像中提取日期信息并生成rtsp视频回放URL

一 . 获取图片信息种对应坐标区域日期信息（类型为1：http链接类型为 2本地图片路径）

# 读取图片识别相应位置坐标获取  类型为1：http   类型为 2本地图片路径
def x_y_get(image,type):

    if type == 1:

        # Nginx图片的访问地址
        # image_url = "http://192.168.14.93:85/car_image/202306/20230601022933/em_1.jpg"
        image_url = image

        # 下载图片
        response = requests.get(image_url)
        image_data = response.content

        # 将图片数据加载为OpenCV图像
        image_array = np.frombuffer(image_data, np.uint8)
        image = cv2.imdecode(image_array, cv2.IMREAD_COLOR)
    else:

        # 读取图像
        image = cv2.imread(image)

    # 定义要截取的区域的坐标
    x, y, w, h = 20, 0, 800, 100  # 坐标

    # 截取图像区域
    cropped_image = image[y:y+h, x:x+w]

    # 将截取的图像转换为灰度图像
    gray_image = cv2.cvtColor(cropped_image, cv2.COLOR_BGR2GRAY)

    # # 展示处理后的图像
    # plt.imshow(cropped_image, cmap='gray')
    # plt.axis('off')  # 关闭坐标轴
    # plt.show()


    return gray_image

二 . ocr图片识别日期信息获取，调用获取图片区域相应位置方法

# ocr图片识别日期信息获取
def paddle_ocr(path,type):
    # 调用--读取图片识别相应位置坐标获取
    gray_image = x_y_get(path,type)

    # 加载PaddleOCR模型
    ocr = PaddleOCR(use_angle_cls=True, lang='ch')

    # 定义一个函数来提取日期
    def extract_dates(ocr_result):
        dates = []
        for line in ocr_result:
            for word in line:
                # 中文过滤
                linee = re.sub('[\u4e00-\u9fa5]', '', word[1][0])
                # 识别结果将中文进行过滤，但是列表位置可能不一需要进行判断
                if linee != '':
                    dates.append(linee)
        # 将结果进行join为时间格式
        dates = ' '.join(dates).replace('-','').replace(':','').replace(' ','').replace('—','').replace('：','')
        return dates

    # 执行OCR识别
    result = ocr.ocr(gray_image, cls=True)

    # 提取日期信息
    dates = extract_dates(result)
    return dates

三 . 如有所需获取rtsp流回放格式

# 对应字符串日期转换处理，获取前五秒时间与后五秒时间-- 组装成rtsp返回格式
def get_time(original_timestamp):
    # 解析字符串为datetime对象
    dt = datetime.strptime(original_timestamp, '%Y%m%d%H%M%S')

    # 往前五秒
    before_5_seconds = dt - timedelta(seconds=5)

    # 往后五秒
    after_5_seconds = dt + timedelta(seconds=5)

    # 转换回字符串格式（与原格式一致）
    before_5_str = before_5_seconds.strftime('%Y%m%d%H%M%S')
    after_5_str = after_5_seconds.strftime('%Y%m%d%H%M%S')
    # 组成rtsp回放所需格式
    time = '?starttime={}t{}z&endtime={}t{}z'.format(before_5_str[0:8], before_5_str[8:], after_5_str[0:8],
                                                     after_5_str[8:])
    return time


#  ocr识别获取时间日期 类型为1--http  类型为2--本地
# res = paddle_ocr(r'http://192.168.14.93:85/car_image/202306/20230601022933/em_1.jpg',1)
res = paddle_ocr(r'D:\python_project\uu\Seal_monitoring_system\static\em_16.jpg',2)
print(res)

# 获取rtsp前段流
rtsp ='rtsp://admin:1qaz2wsx!@QW@192.168.7.38:554/Streaming/tracks/101'

# ocr时间日期传入来获取rtsp前后五秒格式--后段流
get_time_data = get_time(res)

# 拼接为完整回放流
rtsp = rtsp+get_time_data
print(rtsp)

四 . 完整代码如下（路径可根据自己实际需求替换）

import cv2
import re
import requests
import numpy as np
import matplotlib.pyplot as plt

from paddleocr import PaddleOCR
from datetime import datetime, timedelta


# 读取图片识别相应位置坐标获取  类型为1：http   类型为 2本地
def x_y_get(image,type):

    if type == 1:

        # Nginx图片的访问地址
        # image_url = "http://192.168.14.93:85/car_image/202306/20230601022933/em_1.jpg"
        image_url = image

        # 下载图片
        response = requests.get(image_url)
        image_data = response.content

        # 将图片数据加载为OpenCV图像
        image_array = np.frombuffer(image_data, np.uint8)
        image = cv2.imdecode(image_array, cv2.IMREAD_COLOR)
    else:

        # 读取图像
        image = cv2.imread(image)

    # 定义要截取的区域的坐标
    x, y, w, h = 20, 0, 800, 100  # 坐标

    # 截取图像区域
    cropped_image = image[y:y+h, x:x+w]

    # 将截取的图像转换为灰度图像
    gray_image = cv2.cvtColor(cropped_image, cv2.COLOR_BGR2GRAY)

    # # 展示处理后的图像
    # plt.imshow(cropped_image, cmap='gray')
    # plt.axis('off')  # 关闭坐标轴
    # plt.show()


    return gray_image


# ocr图片识别日期信息获取
def paddle_ocr(path,type):
    # 调用--读取图片识别相应位置坐标获取
    gray_image = x_y_get(path,type)

    # 加载PaddleOCR模型
    ocr = PaddleOCR(use_angle_cls=True, lang='ch')

    # 定义一个函数来提取日期
    def extract_dates(ocr_result):
        dates = []
        for line in ocr_result:
            for word in line:
                # 中文过滤
                linee = re.sub('[\u4e00-\u9fa5]', '', word[1][0])
                # 识别结果将中文进行过滤，但是列表位置可能不一需要进行判断
                if linee != '':
                    dates.append(linee)
        # 将结果进行join为时间格式
        dates = ' '.join(dates).replace('-','').replace(':','').replace(' ','').replace('—','').replace('：','')
        return dates

    # 执行OCR识别
    result = ocr.ocr(gray_image, cls=True)

    # 提取日期信息
    dates = extract_dates(result)
    return dates


# 对应字符串日期转换处理，获取前五秒时间与后五秒时间-- 组装成rtsp返回格式
def get_time(original_timestamp):
    # 解析字符串为datetime对象
    dt = datetime.strptime(original_timestamp, '%Y%m%d%H%M%S')

    # 往前五秒
    before_5_seconds = dt - timedelta(seconds=5)

    # 往后五秒
    after_5_seconds = dt + timedelta(seconds=5)

    # 转换回字符串格式（与原格式一致）
    before_5_str = before_5_seconds.strftime('%Y%m%d%H%M%S')
    after_5_str = after_5_seconds.strftime('%Y%m%d%H%M%S')
    # 组成rtsp回放所需格式
    time = '?starttime={}t{}z&endtime={}t{}z'.format(before_5_str[0:8], before_5_str[8:], after_5_str[0:8],
                                                     after_5_str[8:])
    return time


#  ocr识别获取时间日期 类型为1--http  类型为2--本地
# res = paddle_ocr(r'http://192.168.14.93:85/car_image/202306/20230601022933/em_1.jpg',1)
res = paddle_ocr(r'D:\python_project\uu\Seal_monitoring_system\static\em_16.jpg',2)
print(res)

# 获取rtsp前段流
rtsp ='rtsp://admin:1qaz2wsx!@QW@192.168.7.38:554/Streaming/tracks/101'

# ocr时间日期传入来获取rtsp前后五秒格式--后段流
get_time_data = get_time(res)

# 拼接为完整回放流
rtsp = rtsp+get_time_data
print(rtsp)

GitHub 加速计划 / pa / PaddleOCR

41.53 K

7.59 K

下载

最近提交(Master分支：3 个月前 )

7bbda2bc 6 天前

1d4e7a80 8 天前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m