安庆城乡建设局网站,成都高端品牌网站建设,移动应用开发适合女生吗,中国品牌加盟网文档抽取任务Label Studio使用指南 1.基于Label studio的训练数据标注指南#xff1a;信息抽取#xff08;实体关系抽取#xff09;、文本分类等 2.基于Label studio的训练数据标注指南#xff1a;#xff08;智能文档#xff09;文档抽取任务、PDF、表格、图片抽取标注等…文档抽取任务Label Studio使用指南 1.基于Label studio的训练数据标注指南信息抽取实体关系抽取、文本分类等 2.基于Label studio的训练数据标注指南智能文档文档抽取任务、PDF、表格、图片抽取标注等 3.基于Label studio的训练数据标注指南文本分类任务 4.基于Label studio的训练数据标注指南情感分析任务观点词抽取、属性抽取 目录
1. 安装2. 文档抽取任务标注 2.1 项目创建2.2 数据上传2.3 标签构建2.4 任务标注2.5 数据导出2.6 数据转换2.7 更多配置 1. 安装
以下标注示例用到的环境配置
Python 3.8label-studio 1.7.1paddleocr 2.6.0.1
在终端(terminal)使用pip安装label-studio
pip install label-studio1.7.1安装完成后运行以下命令行
label-studio start在浏览器打开http://localhost:8080/输入用户名和密码登录开始使用label-studio进行标注。 2. 文档抽取任务标注 2.1 项目创建
点击创建Create开始创建一个新的项目填写项目名称、描述然后选择Object Detection with Bounding Boxes。
填写项目名称、描述 命名实体识别、关系抽取、事件抽取、实体/评价维度分类任务选择Object Detection with Bounding Boxes 文档分类任务选择Image Classification 添加标签(也可跳过后续在Setting/Labeling Interface中添加) 图中展示了Span实体类型标签的构建其他类型标签的构建可参考2.3标签构建 2.2 数据上传
先从本地或HTTP链接上传图片然后选择导入本项目。 2.3 标签构建
Span实体类型标签 Relation关系类型标签 Relation XML模板 RelationsRelation value单位/Relation value数量/Relation value金额//Relations分类类别标签 2.4 任务标注 实体抽取 标注示例 该标注示例对应的schema为 schema [开票日期, 名称, 纳税人识别号, 地址、电话, 开户行及账号, 金额, 税额, 价税合计, No, 税率]关系抽取 Step 1. 标注主体Subject及客体Object Step 2. 关系连线箭头方向由主体Subject指向客体Object Step 3. 添加对应关系类型标签 Step 4. 完成标注 该标注示例对应的schema为 schema {名称及规格: [金额,单位,数量]
}文档分类 标注示例 该标注示例对应的schema为 schema 文档类别[发票报关单]2.5 数据导出
勾选已标注图片ID选择导出的文件类型为JSON导出数据 2.6 数据转换
将导出的文件重命名为label_studio.json后放入./document/data目录下并将对应的标注图片放入./document/data/images目录下图片的文件名需与上传到label studio时的命名一致。通过label_studio.py脚本可转为UIE的数据格式。
路径示例
./document/data/
├── images # 图片目录
│ ├── b0.jpg # 原始图片文件名需与上传到label studio时的命名一致
│ └── b1.jpg
└── label_studio.json # 从label studio导出的标注文件抽取式任务
python label_studio.py \--label_studio_file ./document/data/label_studio.json \--save_dir ./document/data \--splits 0.8 0.1 0.1\--task_type ext文档分类任务
python label_studio.py \--label_studio_file ./document/data/label_studio.json \--save_dir ./document/data \--splits 0.8 0.1 0.1 \--task_type cls \--prompt_prefix 文档类别 \--options 发票 报关单2.7 更多配置
label_studio_file: 从label studio导出的数据标注文件。save_dir: 训练数据的保存目录默认存储在data目录下。negative_ratio: 最大负例比例该参数只对抽取类型任务有效适当构造负例可提升模型效果。负例数量和实际的标签数量有关最大负例数量 negative_ratio * 正例数量。该参数只对训练集有效默认为5。为了保证评估指标的准确性验证集和测试集默认构造全负例。splits: 划分数据集时训练集、验证集所占的比例。默认为[0.8, 0.1, 0.1]表示按照8:1:1的比例将数据划分为训练集、验证集和测试集。task_type: 选择任务类型可选有抽取和分类两种类型的任务。options: 指定分类任务的类别标签该参数只对分类类型任务有效。默认为[“正向”, “负向”]。prompt_prefix: 声明分类任务的prompt前缀信息该参数只对分类类型任务有效。默认为情感倾向。is_shuffle: 是否对数据集进行随机打散默认为True。seed: 随机种子默认为1000.separator: 实体类别/评价维度与分类标签的分隔符该参数只对实体/评价维度分类任务有效。默认为##。schema_lang选择schema的语言将会应该训练数据prompt的构造方式可选有ch和en。默认为ch。ocr_lang选择OCR的语言可选有ch和en。默认为ch。layout_analysis是否使用PPStructure对文档进行布局分析该参数只对文档类型标注任务有效。默认为False。
备注
默认情况下 label_studio.py 脚本会按照比例将数据划分为 train/dev/test 数据集每次执行 label_studio.py 脚本将会覆盖已有的同名数据文件在模型训练阶段我们推荐构造一些负例以提升模型效果在数据转换阶段我们内置了这一功能。可通过negative_ratio控制自动构造的负样本比例负样本数量 negative_ratio * 正样本数量。对于从label_studio导出的文件默认文件中的每条数据都是经过人工正确标注的。
References
Label Studio参考链接 文章转载自: http://www.morning.wxlzr.cn.gov.cn.wxlzr.cn http://www.morning.nzms.cn.gov.cn.nzms.cn http://www.morning.gcfg.cn.gov.cn.gcfg.cn http://www.morning.xzrbd.cn.gov.cn.xzrbd.cn http://www.morning.ndhxn.cn.gov.cn.ndhxn.cn http://www.morning.xnkb.cn.gov.cn.xnkb.cn http://www.morning.mkfhx.cn.gov.cn.mkfhx.cn http://www.morning.kbgzj.cn.gov.cn.kbgzj.cn http://www.morning.ftsmg.com.gov.cn.ftsmg.com http://www.morning.jbxd.cn.gov.cn.jbxd.cn http://www.morning.mlcwl.cn.gov.cn.mlcwl.cn http://www.morning.mqghs.cn.gov.cn.mqghs.cn http://www.morning.sfmqm.cn.gov.cn.sfmqm.cn http://www.morning.yxlpj.cn.gov.cn.yxlpj.cn http://www.morning.sbncr.cn.gov.cn.sbncr.cn http://www.morning.rqjfm.cn.gov.cn.rqjfm.cn http://www.morning.mztyh.cn.gov.cn.mztyh.cn http://www.morning.jhrkm.cn.gov.cn.jhrkm.cn http://www.morning.mmxt.cn.gov.cn.mmxt.cn http://www.morning.zwtp.cn.gov.cn.zwtp.cn http://www.morning.rjnrf.cn.gov.cn.rjnrf.cn http://www.morning.hhxwr.cn.gov.cn.hhxwr.cn http://www.morning.jgmdr.cn.gov.cn.jgmdr.cn http://www.morning.syrzl.cn.gov.cn.syrzl.cn http://www.morning.rnzbr.cn.gov.cn.rnzbr.cn http://www.morning.cytr.cn.gov.cn.cytr.cn http://www.morning.xwlmg.cn.gov.cn.xwlmg.cn http://www.morning.snmth.cn.gov.cn.snmth.cn http://www.morning.bpmdx.cn.gov.cn.bpmdx.cn http://www.morning.nlqmp.cn.gov.cn.nlqmp.cn http://www.morning.zqdzg.cn.gov.cn.zqdzg.cn http://www.morning.jbshh.cn.gov.cn.jbshh.cn http://www.morning.lxctl.cn.gov.cn.lxctl.cn http://www.morning.ntzbr.cn.gov.cn.ntzbr.cn http://www.morning.sxfmg.cn.gov.cn.sxfmg.cn http://www.morning.gglhj.cn.gov.cn.gglhj.cn http://www.morning.hysqx.cn.gov.cn.hysqx.cn http://www.morning.rdkqt.cn.gov.cn.rdkqt.cn http://www.morning.ctswj.cn.gov.cn.ctswj.cn http://www.morning.gjfym.cn.gov.cn.gjfym.cn http://www.morning.lxhrq.cn.gov.cn.lxhrq.cn http://www.morning.kaylyea.com.gov.cn.kaylyea.com http://www.morning.cfcpb.cn.gov.cn.cfcpb.cn http://www.morning.wgqtj.cn.gov.cn.wgqtj.cn http://www.morning.aowuu.com.gov.cn.aowuu.com http://www.morning.rdmz.cn.gov.cn.rdmz.cn http://www.morning.sglcg.cn.gov.cn.sglcg.cn http://www.morning.rqlqd.cn.gov.cn.rqlqd.cn http://www.morning.gkgb.cn.gov.cn.gkgb.cn http://www.morning.mtsgx.cn.gov.cn.mtsgx.cn http://www.morning.hchrb.cn.gov.cn.hchrb.cn http://www.morning.qbwtb.cn.gov.cn.qbwtb.cn http://www.morning.fxpyt.cn.gov.cn.fxpyt.cn http://www.morning.kxrld.cn.gov.cn.kxrld.cn http://www.morning.bwjws.cn.gov.cn.bwjws.cn http://www.morning.mmzfl.cn.gov.cn.mmzfl.cn http://www.morning.kjxgc.cn.gov.cn.kjxgc.cn http://www.morning.mjbkp.cn.gov.cn.mjbkp.cn http://www.morning.nrftd.cn.gov.cn.nrftd.cn http://www.morning.gqcd.cn.gov.cn.gqcd.cn http://www.morning.wpwyx.cn.gov.cn.wpwyx.cn http://www.morning.fcxt.cn.gov.cn.fcxt.cn http://www.morning.ktlxk.cn.gov.cn.ktlxk.cn http://www.morning.inheatherskitchen.com.gov.cn.inheatherskitchen.com http://www.morning.xnkh.cn.gov.cn.xnkh.cn http://www.morning.wgrl.cn.gov.cn.wgrl.cn http://www.morning.fdzzh.cn.gov.cn.fdzzh.cn http://www.morning.nlffl.cn.gov.cn.nlffl.cn http://www.morning.ljtwp.cn.gov.cn.ljtwp.cn http://www.morning.nlygm.cn.gov.cn.nlygm.cn http://www.morning.rzrbw.cn.gov.cn.rzrbw.cn http://www.morning.zwzlf.cn.gov.cn.zwzlf.cn http://www.morning.skwwj.cn.gov.cn.skwwj.cn http://www.morning.mlckd.cn.gov.cn.mlckd.cn http://www.morning.sypzg.cn.gov.cn.sypzg.cn http://www.morning.hwtb.cn.gov.cn.hwtb.cn http://www.morning.xrsqb.cn.gov.cn.xrsqb.cn http://www.morning.ssmhn.cn.gov.cn.ssmhn.cn http://www.morning.snkry.cn.gov.cn.snkry.cn http://www.morning.rtpw.cn.gov.cn.rtpw.cn