ArXiv 论文精读翻译
Base directory for this skill: {SKILL_DIR}
将 ArXiv 论文逐段翻译成中文,生成双版本 Markdown(IMA + 腾讯文档),并上传到两个平台。
三条铁律
- 完整翻译不精简 — 逐段翻译每个 paragraph,不遗漏任何论证细节。大模型倾向于"帮你归纳",但用户要的是精读级翻译。
- 译注显式标记 — 大模型解读必须用
> **[译注]**:...引用块,绝不混入原文翻译。 - 简称首次标全称,后续直接用 — 首次出现标注全称并核对原文,后续不再展开。避免错误展开(如 TA=Target Attention 被误写为 Transformer Aggregator)。
标准 6 步流程
Step 1: 获取原文
web_fetch https://arxiv.org/html/<id>v<n>
- 只 fetch 一次,节省 token
- 同步下载图片:
curl -sL -o x{n}.png https://arxiv.org/html/<paper_id>/x{n}.png - 下载后检查文件大小,相同大小的异常文件(404 垃圾响应)删除
Step 2: 翻译生成
- 逐段翻译,不做精简
- 首行元信息:原标题、arxiv 链接、年月、机构、翻译辅助大模型名称
- 简称首次出现标全称(核对原文),后续用简称
- 译注用
> **[译注]**:...格式 - 结构化排版:多级标题 + 列表 + 加粗 + 表格 + 引用块
- 公式保留 LaTeX;
\bm全部替换为\boldsymbol - 图表按原文顺序插入所在章节标题之后、小节正文之前
- 参考文献完整列出
表格处理策略:
- 简单表格 → Markdown 表格重写(可搜索/编辑)
- 复杂表格(合并单元格/特殊排版)→ PyMuPDF 从 PDF 截取
Step 3: 自动化校验
翻译完成后,运行校验脚本:
python3 {SKILL_DIR}/scripts/validate_translation.py <markdown_file>
校验项:
| 检查项 | 标准 |
|--------|------|
| 章节完整性 | 包含:摘要/引言/相关工作/方法/实验/结论/参考文献 |
| LaTeX 兼容性 | \bm 出现次数 = 0 |
| 译注标记 | 数量 > 0,格式为 > **[译注]** |
| 参考文献 | 条数列出供人工核对 |
| 图片链接 | 外链格式正确 |
Step 4: 生成两版 Markdown
- IMA 版:图片用 arxiv 外链 URL / base64 data URI
- 腾讯文档版:用脚本从 IMA 版自动替换图片链接为 image_id
图片上传流程:
curl -sL -o x{n}.png https://arxiv.org/html/<paper_id>/x{n}.png下载- 腾讯文档:
mcporter call tencent-docs upload_image→ 拿 image_id - IMA:直接用 arxiv 外链 URL
详见 references/platform-compat.md
Step 5: 上传 IMA 知识库
# create_media → COS 上传 → add_knowledge(media_type=7 = Markdown)
# 如遇 code=220030(限流),sleep 15s 重试,cos_key 仍有效
Step 6: 上传腾讯文档
TITLE="【YYYY.MM|组织】XXX 中文翻译" # 必须 ≤36 字符
jq -n --arg title "$TITLE" --rawfile mdx "$FILE" --arg cf "markdown" \
'{title:$title, mdx:$mdx, content_format:$cf}' > /tmp/args.json
mcporter call tencent-docs create_smartcanvas_by_mdx --args "$(cat /tmp/args.json)"
mcporter 传大参数不支持 --args-file,必须用 --args "$(cat file.json)"。
命名规范(强制)
| 平台 | 格式 | 约束 |
|------|------|------|
| 腾讯文档标题 | 【YYYY.MM|组织】XXX 中文翻译 | ≤36 字符(按字符数,非字节) |
| IMA 文件名 | 【YYYY.MM|组织】XXX 中文翻译.md | 同名加 .md |
- 两平台必须完全一致,不加
v2/图文版等后缀 - 示例:
【2026.02|ByteDance】MixFormer 中文翻译
翻译后 Checklist
完成翻译后逐项确认:
- [ ]
grep -c '\\bm'= 0 - [ ] 简称首次出现已标全称且正确
- [ ] 译注均用
> **[译注]**:...格式 - [ ] 图表位置与原文章节顺序一致
- [ ] 参考文献条数与原文一致
- [ ] IMA 版和腾讯文档版图片格式各自正确
- [ ] 两平台文件名/标题完全一致
- [ ] 首行包含论文元信息(标题/链接/年月/机构/大模型名称)
效率优化
- 只
web_fetch一次原文(节省 token) - 直接生成最终版,不生成中间草稿(减少 50%+ 工具调用)
- 图片下载 + 上传并行执行
- 用脚本自动从 IMA 版生成腾讯文档版
- 自动化校验脚本在上传前拦截格式问题
参考文档
- 踩坑经验 + 平台兼容性:references/platform-compat.md — LaTeX 兼容、图片跨平台、API 限流等详细说明
- 迭代历史:references/iteration-history.md — MixFormer v1→v3 的完整教训记录
Scan to join WeChat group