Skill: 线上购物场景 AI Agent 体验质量评估

触发条件

当用户提到以下关键词时自动触发此 Skill：

"线上购物场景 Agent 体验质量评估"
"购物 Agent 评估"
"电商 AI 评估"
"购物助手评测"

Skill 描述

自动化执行线上购物场景下 AI Agent（豆包、通义千问）的体验质量评估。流程为：DeepSeek 生成 30 条覆盖 11 类购物场景的用户查询 → 豆包和千问分别回答 → DeepSeek 作为资深电商导购专家进行 11 维度评分 → 生成结构化 DOCX 评估报告（含图表）+ XLSX 测试结果文件。

执行指令

当此 Skill 被触发时，请按以下步骤执行：

第 1 步：确认环境

确认 Python 3 环境可用
安装依赖：

pip install requests python-docx openpyxl matplotlib --break-system-packages

确认评估脚本路径：/workspace/shopping-agent-eval/eval_shopping_agent.py
设置环境变量（API Key 通过环境变量传入，脚本中不硬编码）：

export DEEPSEEK_API_KEY=your_deepseek_key
export DOUBAO_API_KEY=your_doubao_key
export QWEN_API_KEY=your_qwen_key

第 2 步：执行评估脚本

cd /workspace/shopping-agent-eval && python3 eval_shopping_agent.py

重要说明：

脚本执行时间较长（约 15-30 分钟），因为需要调用多个 API 共计约 90+ 次
脚本内置了重试机制（最多 3 次）和错误处理
如果脚本执行中断，可以查看已有的部分报告

第 3 步：交付报告

脚本执行完成后，自动在 /workspace/ 目录生成以下交付物：

交付物（1）：结构化评估报告（DOCX）

文件命名：shopping_agent_eval_report_YYYYMMDD_HHMMSS.docx
报告框架：
1. 总体得分：豆包 vs 千问的总平均分对比表 + 环形图
2. 各维度得分：11 维度雷达图 + 维度得分对比表（含差值）
3. 豆包与千问表现评价：分别列举各模型的优势要点和劣势要点
4. 优化建议：针对各模型的劣势维度，给出具体的优化建议
5. 错误分析：成功率/失败率统计 + 出错原因详情

交付物（2）：测试结果文件（XLSX）

文件命名：shopping_agent_eval_results_YYYYMMDD_HHMMSS.xlsx
包含 4 个 Sheet：
1. 用户查询：DeepSeek 生成的 30 条查询（编号、场景类别、查询内容）
2. 豆包回答与评分：豆包的回答内容 + 11 维度评分 + 综合评语
3. 千问回答与评分：千问的回答内容 + 11 维度评分 + 综合评语
4. 统计汇总：成功率/错误率统计 + 各维度平均分对比 + 出错原因分析

附加文件

JSON 原始数据：shopping_agent_eval_data_YYYYMMDD_HHMMSS.json
图表文件：/workspace/charts/ 目录下的环形图和雷达图 PNG

评估流程说明

1. 查询生成阶段

调用 DeepSeek 自动生成 30 条购物用户查询
覆盖 11 类场景：具体商品、预算约束、无预算限制、品牌偏好、功能要求、使用场景、配件需求、模糊需求、矛盾需求、高风险商品、中途修改需求

2. 模型回答阶段

豆包（doubao-seed-2-0-pro）和通义千问（qwen-plus）分别回答所有 30 条查询
模拟真实电商购物助手角色

3. 专家评分阶段

DeepSeek 扮演资深电商导购专家
7 分制（1=最差，7=最好），11 个评估维度：
1. 商品相关性
2. 商品多样性
3. 推荐理由说服力
4. 决策过程透明可解释
5. 价格合理性
6. 安全性
7. 回答内容易读性
8. 回答内容易理解性
9. 回答内容事实性
10. 情绪感知力
11. 交互自然度
输出 JSON 格式评分 + 2-3 句综合评语

4. 报告生成阶段

DOCX 评估报告：含封面、目录、总体得分环形图、各维度雷达图、维度对比表、优劣势分析、优化建议、错误分析
XLSX 测试结果：含用户查询、模型回答、维度评分、综合评语、成功率/错误率统计、出错原因分析

注意事项

API Key 通过环境变量传入，运行前必须设置 DEEPSEEK_API_KEY、DOUBAO_API_KEY、QWEN_API_KEY
如果某个 API 调用失败，脚本会自动重试并记录错误
评估完成后，向用户简要汇报关键结论（哪个模型表现更好、主要优缺点等）