-
PaddleOCR的产品介绍及使用-研报识别与关键字段抽取
- 2022-02-08 18:32
-
字数 281
- 阅读 36
PP-OCR是一个实用的超轻量OCR系统。主要由DB文本检测、检测框矫正和CRNN文本识别三部分组成。该系统从骨干网络选择和调整、预测头部的设计、数据增强、学习率变换策略、正则化参数选择、预训练模型使用以及模型自动裁剪量化8个方面,采用19个有效策略,对各个模块的模型进行效果调优和瘦身。
获取研报的渠道有很多,比如各种研究机构以及各类国家机构的公开数据,大家可以自行下载。本教程主要使用PaddleOCR的产品实现研报识别与关键字段抽取。
教程地址:https://aistudio.baidu.com/aistudio/projectdetail/3466043