要素式文书一键生成 Skill
概述
本 Skill 能从普通诉讼文书(支持 .txt/.md/.docx/.pdf/图片)自动识别案由、匹配模板、提取要素、填充内容,输出规范的要素式文书。
适用场景:律师需要将已有的诉讼文书(如传统格式起诉状)转换为法院要求的要素式表格格式。
支持范围
- 11 个领域分类:刑事自诉、婚姻家事、合同纠纷、劳动争议、交通事故、保险纠纷、知识产权、行政纠纷、国家赔偿、公益诉讼、海商海事
- 58 个案由:覆盖《最高人民法院 司法部 中华全国律师协会关于印发部分案件起诉状答辩状示范文本的通知》(法〔2025〕82号)文件中的全部要素式文书案由
- 104 份模板:起诉状、答辩状、申请书、意见陈述书等
- 输入格式:.txt / .md / .docx / .pdf / 图片(需 OCR)
使用方法
基本用法
请帮我将这份起诉状转换为要素式文书:[上传文件]
指定案由
请将这份文书转换为民间借贷纠纷的要素式起诉状:[上传文件]
从文本生成
请根据以下信息生成民间借贷纠纷要素式起诉状:
原告张三,男,1985年出生...
被告李四,欠款10万元...
工作流程
输入文件 → 解析内容 → 识别案由 → 匹配模板 → 提取要素 → 区域定位填充 → 输出docx
- 文件解析 (
file_parser.py):支持 txt/md/docx/pdf/图片 OCR,自动检测编码 - 案由识别 (
case_classifier.py):基于 58 个案由的关键词规则匹配,离线可用 - 模板获取 (
template_manager.py):优先本地模板,其次从 GitHub 远程下载 - 要素提取 (
content_extractor.py):自动检测要素式/传统格式,正则+规则提取 - 区域定位填充 (
template_filler.py):基于段落区域索引的精确 XML 填充 - 主流程 (
main.py):串联上述步骤,一键生成
核心技术
案由识别
- 关键词规则匹配(不依赖 LLM),确保离线可用
- 关键词长度加权 + 优先级 + 出现频次综合评分
- 低置信度时给出多个候选建议
区域定位填充(v3 核心改进)
- 段落区域索引:解析模板 XML 构建段落区域映射(原告_自然人/被告_法人/委托诉讼代理人等)
- 区域内填充:字段填充限定在特定区域内,避免跨区域误填
- 精确勾选框:
before_checkbox + □精确匹配(如"男□"→"男☑"),避免误勾其他□
勾选框处理
□(U+25A1) →☑(U+2611):精确替换- 在 XML 的
<w:t>元素级别操作,不做字符串级别替换 - 通过
before_checkbox参数定位特定□,避免同一行多个□被误勾
双格式输入支持
- 要素式输入:自动检测勾选框和标签结构,按标签-值对提取
- 传统叙述式输入:用正则+规则提取当事人、金额、日期等
配置文件
| 文件 | 说明 |
|------|------|
| configs/case_keywords.json | 58 个案由的关键词映射表 |
| configs/field_mapping.json | 通用字段映射规则 |
| references/case_type_index.md | 案由索引表(11 大类) |
模板来源
模板文件依据《最高人民法院 司法部 中华全国律师协会关于印发部分案件起诉状答辩状示范文本的通知》(法〔2025〕82号)文件中的示范文本,存放于以下仓库:
- Gitee(国内优先):https://gitee.com/hugeshark/element-lawsuit-templates
- GitHub(备选):https://github.com/hugesharks/element-lawsuit-templates
模板按 11 个领域分类存放,首次使用时自动从 Gitee 下载(国内速度快),Gitee 不可用时自动切换 GitHub。下载成功后缓存到本地,后续使用无需重复下载。也可指定本地模板目录跳过下载。
安全与隐私
⚠️ 重要提示:
- 数据脱敏:所有示例数据均已脱敏(电话改 ×××、身份证改 ××× 等)
- 本地处理:所有文件解析和模板填充均在本地完成,不上传任何文书内容到外部服务
- 模板下载:仅从 GitHub 下载空白模板,不传输任何案件信息
- 临时文件:处理完成后自动清理解包的临时 XML 文件
- 输出文件:生成的 docx 文件保存在本地,由用户自行管理
依赖
- Python 3.8+
- python-docx(可选,用于 .doc 格式回退)
- PyMuPDF 或 pdfplumber(可选,用于 PDF 解析)
- Pillow + pytesseract 或 easyocr(可选,用于图片 OCR)
核心功能(docx 模板填充)仅依赖 Python 标准库,无需额外安装。
文件结构
element-lawsuit-generator/
├── SKILL.md # 本文件
├── requirements.txt # 可选依赖
├── scripts/
│ ├── main.py # 主入口
│ ├── file_parser.py # 文件解析
│ ├── case_classifier.py # 案由分类器
│ ├── template_manager.py # 模板管理
│ ├── content_extractor.py # 内容提取
│ └── template_filler.py # 模板填充引擎(区域定位 v3)
├── configs/
│ ├── case_keywords.json # 案由关键词映射
│ └── field_mapping.json # 字段映射规则
└── references/
└── case_type_index.md # 案由索引表
错误处理
| 场景 | 处理方式 | |------|---------| | 无法识别案由 | 返回错误信息,建议手动指定案由 | | 低置信度(<0.3) | 给出多个候选案由,提示用户确认 | | 模板下载失败 | 检查本地缓存,提示检查网络 | | 文件格式不支持 | 提示支持的格式列表 | | 区域定位失败 | 跳过该区域,在警告中提示 |
版本
- v3.0 (2025-01) - 区域定位填充引擎,精确勾选框处理
- v1.0 (2025-01) - 初始版本
微信扫一扫