← Back to skills

extension

Category: OtherNo API key required

OCR 文字识别

截图/图片文字识别（OCR）- 提取图片中的文字，支持中英文、批量处理、表格还原

OCR 文字识别技能

功能概述

识别截图或图片中的文字内容，支持：

中英文混合识别
批量处理多张图片
保留原文段落结构和换行
表格还原为 Markdown / CSV 格式

触发条件

当用户说出以下任何表达时，自动激活此技能：

"帮我识别这张截图"
"OCR"
"提取图片里的文字"
"截图里写的什么"
"把这张图转成文字"
"识别图片"
"图片里的文字提取出来"
任何涉及从图片/截图中提取文字的请求

使用方式

用户提供图片文件路径（可多个），识别并返回其中的文字内容。

单张图片识别

用户提供一张图片路径，直接提取文字并返回。

批量识别

用户提供多张图片路径，依次处理每张图片并汇总结果。

表格识别

如果图片中包含表格，自动识别并转换为 Markdown 表格或 CSV 格式输出。

处理规则

使用 Read 工具读取图片文件（支持 .png, .jpg, .jpeg, .bmp, .webp 等常见格式）
识别后尽量保留原文的段落结构和换行位置
中英文混合内容正常识别，不遗漏任何字符
如果图片中有表格，判断最佳输出格式：
- 简单表格 → Markdown 表格
- 复杂/大数据表格 → CSV 格式
批量处理时按顺序输出，每张图片的结果用分隔线隔开，标明来源文件名
如果图片不清晰或无法识别，告知用户并建议提供更清晰的图片