OCR 文字识别技能
功能概述
识别截图或图片中的文字内容,支持:
- 中英文混合识别
- 批量处理多张图片
- 保留原文段落结构和换行
- 表格还原为 Markdown / CSV 格式
触发条件
当用户说出以下任何表达时,自动激活此技能:
- "帮我识别这张截图"
- "OCR"
- "提取图片里的文字"
- "截图里写的什么"
- "把这张图转成文字"
- "识别图片"
- "图片里的文字提取出来"
- 任何涉及从图片/截图中提取文字的请求
使用方式
用户提供图片文件路径(可多个),识别并返回其中的文字内容。
单张图片识别
用户提供一张图片路径,直接提取文字并返回。
批量识别
用户提供多张图片路径,依次处理每张图片并汇总结果。
表格识别
如果图片中包含表格,自动识别并转换为 Markdown 表格或 CSV 格式输出。
处理规则
- 使用
Read工具读取图片文件(支持 .png, .jpg, .jpeg, .bmp, .webp 等常见格式) - 识别后尽量保留原文的段落结构和换行位置
- 中英文混合内容正常识别,不遗漏任何字符
- 如果图片中有表格,判断最佳输出格式:
- 简单表格 → Markdown 表格
- 复杂/大数据表格 → CSV 格式
- 批量处理时按顺序输出,每张图片的结果用分隔线隔开,标明来源文件名
- 如果图片不清晰或无法识别,告知用户并建议提供更清晰的图片
Scan to join WeChat group