网站首页 > 技术文章正文

利用CnOCR实现自动对截屏图片OCR

ins518 2024-11-23 16:44:18 技术文章 18 ℃ 0 评论

cnocr的介绍可见：

自动对截屏图片进行文字识别（OCR）

我自己有对截屏图片进行文字识别的需求，比如遇到某些网站不让拷贝，或者识别分享视频中的某个文字信息等。之前我都是用QQ自带的截屏识别功能来完成整个操作的，但是流程比较麻烦。

为什么不装一个对应的app？大部分免费的app后面其实都是调用的大公司的AI平台的接口，还得去折腾平台app key，怪麻烦的而且还无法离线使用。要么就是限制调用次数。当然，另一个原因是我一直期望用自己开发的 cnocr 来完成这个功能，eat your own dog food 嘛，自己不用的东西肯定没前途。

之前考虑过搞个浏览器插件或者做个系统应用来完成这个功能，但我对系统应用开发一窍不通而且前端技术也只了解基础的html和css，所以还是放弃了。欢迎大家朝着这个方向做些工作。

现在的实现方法很简单，各个系统（Windows、Mac、Linux）的截屏应用有很多很好用的，基本都有把截屏图片存储在指定位置这个功能。基于这个功能，我只要搞个守护进程轮询去查看是否有刚更新的图片，如果有就把它拿给cnocr识别下，然后把识别的结果复制进系统的剪切板即可。

怎么搭起来这个功能呢？开始之前先确保你的 cnocr v2.2版已经安装成功，否则请参考安装文档搞定cnocr最新版的安装。

以下是具体的搭建流程：

1. 找一个用得惯的截屏软件，这个软件只要支持把截屏图片存储在指定位置即可。比如Mac下我用的是免费的 Xnip 。

2. 除了安装cnocr v2.2外，这里面需要额外安装一个python包 pyperclip，利用它把ocr结果复制进系统的剪切板：

> pip install pyperclip

3. 拷贝下面的代码，存储到新文件 screenshot_daemon.py 。编辑此文件 "SCREENSHOT_DIR" 所在行，把路径改为你的截屏图片所存储的目录。

# coding: utf-8
# Copyright (C) 2022, [Breezedeus](https://github.com/breezedeus).

import os
import time
import glob
from pprint import pformat

import pyperclip as pc
from cnocr import CnOcr
from cnocr.utils import set_logger

logger = set_logger(log_level='DEBUG')


SCREENSHOT_DIR = os.getenv(
    "SCREENSHOT_DIR", '<你的截屏图片存储目录>'  # ==> 换成你的目录
)
OCR_MODEL = CnOcr()


def get_newest_fp_time(screenshot_dir):
    fn_list = glob.glob1(screenshot_dir, '*g')
    fp_list = [os.path.join(screenshot_dir, fn) for fn in fn_list]
    if not fp_list:
        return None, None
    fp_list.sort(key=lambda fp: os.path.getmtime(fp), reverse=True)
    return fp_list[0], os.path.getmtime(fp_list[0])


def ocr_newest(screenshot_dir, delta_interval):
    while True:
        newest_fp, newest_mod_time = get_newest_fp_time(screenshot_dir)
        if (
            newest_mod_time is not None
            and time.time() - newest_mod_time < delta_interval
        ):
            logger.info(f'analyzing screenshot file {newest_fp}')
            result = OCR_MODEL.ocr(newest_fp)
            texts = [_one['text'] for _one in result]
            logger.info(f'\tOCR results: {pformat(texts)}\n\n')
            if texts:
                pc.copy('\n'.join(texts))
        time.sleep(1)


if __name__ == '__main__':
    ocr_newest(SCREENSHOT_DIR, 2)

4. 运行此脚本文件，all done：

> python screenshot_daemon.py

接下来就是享受随时ocr的乐趣了：

欢迎大家尝试，遇到问题可以评论，感谢。

知识星球私享群

此文初始发表于知识星球CnOCR/CnSTD私享群 (
https://wx.zsxq.com/dweb2/index/group/28858522821151) 。知识星球私享群会陆续发布一些CnOCR/CnSTD相关的私有资料，包括更详细的训练教程，各种资源福利，使用过程中遇到的疑难解答等。本群也会发布OCR/STD相关的最新研究资料。欢迎感兴趣的朋友加入。

上一篇：大学生和父母是如何聊天的?这几张图让你笑到脸疼，网友:太形象
下一篇：超级截图工具，供书教学最适合用它了

网站首页 > 技术文章正文

利用CnOCR实现自动对截屏图片OCR

cnocr的介绍可见：

自动对截屏图片进行文字识别（OCR）

知识星球私享群

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

利用CnOCR实现自动对截屏图片OCR

cnocr的介绍可见：

自动对截屏图片进行文字识别（OCR）

知识星球私享群

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: