产品手册

面向使用者的功能说明与操作路径。

一、系统定位
Minduck OCR 是面向运营 / 销售 / 规则配置同学的内部工具,用于对订舱确认类 PDF 做结构化解析、规则调试与版本管理。
二、OCR 测试台(首页)
路径:左侧菜单「OCR 测试台」。用于上传 PDF、查看提取文本和解析结果,并发起规则反馈。
1)输入方式
  • URL 模式:粘贴 PDF 地址,点击「一键提取+OCR」。
  • 本地文件模式:上传一个或多个 PDF,系统会逐个提取文本并解析。
2)高级配置
  • 规则版本:从模板版本库中选择当前要使用的版本(base / vX-local)。
  • 模板选择:默认自动识别,也可以手工指定航司模板。
3)结果查看
  • 左侧为上传文件列表 / 当前任务;
  • 右侧上半部分为解析结果 JSON,下半部分为提取后的纯文本;
  • 「Template Info」区域会显示当前识别到的模板及规则版本。
4)规则反馈
  • 点击「反馈规则问题」,填写问题描述与期望结果,系统会通过 Rule Builder 生成新的规则版本(vX-local)。
  • 应用成功后,可在同一份 PDF 上一键回归验证新版本。
三、模板管理
路径:左侧菜单「模板管理」。用于查看各航司模板在版本库中的所有版本以及三件套内容。
  • 选择「模板」:MAERSK / MSC / COSCO / CMA / ONE / HL / EMC。
  • 选择「规则版本」:从数据库中实际存在的版本(base / v2-local 等)中选择。
  • 下方会分别展示该版本的 `fields.json`、`regex_rules.json`、`schema.json`。
  • 可点击「复制全部 JSON」用于排查或线上配置同步。
  • 当选择非 base 版本(如 v2-local / v3-local)时,可使用「删除版本」按钮删除该本地版本,不会影响 base。
四、API 文档与在线测试
路径:左侧菜单「API 文档」。面向对接方 / 开发同学,查看工程暴露的接口并直接测试。
  • 左侧 Tab:查看各接口的 URL、请求方式、字段说明、请求/响应示例。
  • 右侧操作台:填写 URL、Method 和请求体,点击「发送请求」即可在当前环境直接调用。
五、一键生成模板规则
路径:左侧菜单「一键生成模板规则」。用于基于字段清单和 base 规则自动生成新的模板版本。
  • 选择「模板」:如 MAERSK,系统会自动从模板版本库中读取该模板的 base 规则作为基准。
  • 在「字段清单文本」区域粘贴字段清单的原始文本(可来自 Excel 或截图 OCR 工具)。
  • 点击「生成新规则」后,系统会调用 `/api/rule-autogen`,传入字段清单文本与 base 规则,由 LLM 自动生成新的三件套规则。
  • 右侧会展示生成的 `fields.json`、`regex_rules.json`、`schema.json` 以及变更摘要(change_summary)。
  • 点击「保存为新版本(设为当前)」可将该规则保存为新的本地版本(例如 v4-local),并自动设为当前 active 版本,供 OCR 测试台与模板管理使用。
六、常见使用场景
  • 新航司 / 新版 PDF 验证: 在「OCR 测试台」上传样本 → 确认模板识别是否正确 → 如有问题,发起规则反馈。
  • 规则调整回归: 使用「反馈规则问题」生成 `vX-local` → 在同一份 PDF 上用新版本回归 → 在「模板管理」中对比 base 与 vX-local。
  • 对接外部系统: 查看「API 文档」中的 `/api/extract-ocr` 说明,并在在线测试区构造请求,确认接口行为再接入生产系统。