图文提取器
image-text-extractor
by asiangiantduck
批量识别图片中的文字内容并按图片分段输出为结构化文档;当用户需要从多张图片中提取文字、整理图片文字内容、将图片文字转为可编辑文档时使用
安装
claude skill add --url https://github.com/openclaw/skills文档
图片文字提取器
任务目标
- 本 Skill 用于:批量处理用户上传的图片,识别并提取每张图片中的文字内容
- 能力包含:图片OCR识别、文字内容整理、分段输出、文档生成
- 触发条件:用户上传一张或多张图片,并要求提取文字、识别内容、转为文档
操作步骤
步骤1:接收图片
- 引导用户上传图片(支持批量上传)
- 接受的图片格式:PNG、JPG、JPEG、GIF、WebP等常见格式
- 确认图片数量和顺序
步骤2:识别文字内容
- 对每张图片调用
read_image工具进行文字识别 - 识别参数设置:
prompt: "提取图片中的所有文字内容,保持原有的段落和格式"
- 按图片上传顺序依次处理
步骤3:整理识别结果
- 为每张图片的文字内容添加清晰的图片标识(如"图片1"、"图片2")
- 保留原文的段落结构和格式
- 如识别到标题、正文、列表等结构,保持原有层次
步骤4:生成文档
- 将整理好的内容按标准格式生成Markdown文档
- 文档格式参考:references/output-format.md
- 输出文档结构:
- 文档标题
- 提取时间
- 图片总数
- 各图片文字内容(按图片分段)
- 将文档内容直接输出给用户,或生成.md文件供用户下载
资源索引
- 输出格式参考:见 references/output-format.md(包含文档模板和格式规范)
注意事项
- 图片质量:建议图片清晰、光线充足、文字明显,以提高识别准确率
- 文字语言:支持中英文混合识别,其他语言根据图片内容自动识别
- 处理顺序:严格按照用户上传图片的顺序进行处理和输出
- 格式保留:尽可能保留原文的段落、标题、列表等结构
- 错误处理:如某张图片识别失败,跳过该图片并告知用户,继续处理其他图片
- 隐私保护:图片内容仅在当前会话中使用,不会存储或泄露
使用示例
示例1:批量提取文档图片
用户上传:3张文档截图 执行流程:
- 接收3张图片
- 逐张调用read_image识别文字
- 整理为"图片1"、"图片2"、"图片3"三个部分
- 生成包含所有内容的Markdown文档
示例2:提取演示文稿内容
用户上传:多张PPT截图 执行流程:
- 接收图片并确认数量
- 识别每张PPT中的标题和正文
- 按幻灯片顺序分段输出
- 保持原有的标题层次结构
相关 Skills
内部沟通
by anthropics
按公司常用模板和语气快速起草内部沟通内容,覆盖 3P 更新、状态报告、领导汇报、项目进展、事故复盘、FAQ 与 newsletter,适合需要统一格式的团队沟通场景。
✎ 按公司偏好的模板快速产出状态汇报、领导更新和 FAQ,既省去反复改稿,也让内部沟通更统一、更专业。
主题工厂
by anthropics
给幻灯片、文档、报告和 HTML 落地页快速套用专业配色与字体主题,内置 10 套预设风格并支持现场生成新主题,适合统一品牌或内容视觉。
✎ 主题工厂能帮你把幻灯片、文档到落地页快速统一视觉风格,内置 10 套主题,还能按需即时生成新主题。
文档共著
by anthropics
围绕文档、提案、技术规格、决策记录等写作任务,按上下文收集、结构迭代、读者测试三步协作共创,减少信息遗漏,写出更清晰、经得起他人阅读的内容。
✎ 写文档、方案或技术规格时容易思路散、信息漏,它用结构化共著流程帮你高效传递上下文、反复打磨内容,还能从读者视角做验证。
相关 MCP 服务
by nirholas
免费的加密新闻聚合 MCP,汇集 Bitcoin、Ethereum、DeFi、Solana 与 altcoins 资讯源。
by ProfessionalWiki
让 Large Language Model 客户端无缝连接任意 MediaWiki 站点,可创建、更新、搜索页面,并通过 OAuth 2.0 安全管理内容。
by transloadit
借助 86+ 个云端 media processing robots,处理视频、音频、图像和文档。