Skill: 线上购物场景 AI Agent 体验质量评估
触发条件
当用户提到以下关键词时自动触发此 Skill:
- "线上购物场景 Agent 体验质量评估"
- "购物 Agent 评估"
- "电商 AI 评估"
- "购物助手评测"
Skill 描述
自动化执行线上购物场景下 AI Agent(豆包、通义千问)的体验质量评估。流程为:DeepSeek 生成 30 条覆盖 11 类购物场景的用户查询 → 豆包和千问分别回答 → DeepSeek 作为资深电商导购专家进行 11 维度评分 → 生成结构化 DOCX 评估报告(含图表)+ XLSX 测试结果文件。
执行指令
当此 Skill 被触发时,请按以下步骤执行:
第 1 步:确认环境
- 确认 Python 3 环境可用
- 安装依赖:
pip install requests python-docx openpyxl matplotlib --break-system-packages
- 确认评估脚本路径:
/workspace/shopping-agent-eval/eval_shopping_agent.py - 设置环境变量(API Key 通过环境变量传入,脚本中不硬编码):
export DEEPSEEK_API_KEY=your_deepseek_key
export DOUBAO_API_KEY=your_doubao_key
export QWEN_API_KEY=your_qwen_key
第 2 步:执行评估脚本
cd /workspace/shopping-agent-eval && python3 eval_shopping_agent.py
重要说明:
- 脚本执行时间较长(约 15-30 分钟),因为需要调用多个 API 共计约 90+ 次
- 脚本内置了重试机制(最多 3 次)和错误处理
- 如果脚本执行中断,可以查看已有的部分报告
第 3 步:交付报告
脚本执行完成后,自动在 /workspace/ 目录生成以下交付物:
交付物(1):结构化评估报告(DOCX)
- 文件命名:
shopping_agent_eval_report_YYYYMMDD_HHMMSS.docx - 报告框架:
- 总体得分:豆包 vs 千问的总平均分对比表 + 环形图
- 各维度得分:11 维度雷达图 + 维度得分对比表(含差值)
- 豆包与千问表现评价:分别列举各模型的优势要点和劣势要点
- 优化建议:针对各模型的劣势维度,给出具体的优化建议
- 错误分析:成功率/失败率统计 + 出错原因详情
交付物(2):测试结果文件(XLSX)
- 文件命名:
shopping_agent_eval_results_YYYYMMDD_HHMMSS.xlsx - 包含 4 个 Sheet:
- 用户查询:DeepSeek 生成的 30 条查询(编号、场景类别、查询内容)
- 豆包回答与评分:豆包的回答内容 + 11 维度评分 + 综合评语
- 千问回答与评分:千问的回答内容 + 11 维度评分 + 综合评语
- 统计汇总:成功率/错误率统计 + 各维度平均分对比 + 出错原因分析
附加文件
- JSON 原始数据:
shopping_agent_eval_data_YYYYMMDD_HHMMSS.json - 图表文件:
/workspace/charts/目录下的环形图和雷达图 PNG
评估流程说明
1. 查询生成阶段
- 调用 DeepSeek 自动生成 30 条购物用户查询
- 覆盖 11 类场景:具体商品、预算约束、无预算限制、品牌偏好、功能要求、使用场景、配件需求、模糊需求、矛盾需求、高风险商品、中途修改需求
2. 模型回答阶段
- 豆包(doubao-seed-2-0-pro)和通义千问(qwen-plus)分别回答所有 30 条查询
- 模拟真实电商购物助手角色
3. 专家评分阶段
- DeepSeek 扮演资深电商导购专家
- 7 分制(1=最差,7=最好),11 个评估维度:
- 商品相关性
- 商品多样性
- 推荐理由说服力
- 决策过程透明可解释
- 价格合理性
- 安全性
- 回答内容易读性
- 回答内容易理解性
- 回答内容事实性
- 情绪感知力
- 交互自然度
- 输出 JSON 格式评分 + 2-3 句综合评语
4. 报告生成阶段
- DOCX 评估报告:含封面、目录、总体得分环形图、各维度雷达图、维度对比表、优劣势分析、优化建议、错误分析
- XLSX 测试结果:含用户查询、模型回答、维度评分、综合评语、成功率/错误率统计、出错原因分析
注意事项
- API Key 通过环境变量传入,运行前必须设置
DEEPSEEK_API_KEY、DOUBAO_API_KEY、QWEN_API_KEY - 如果某个 API 调用失败,脚本会自动重试并记录错误
- 评估完成后,向用户简要汇报关键结论(哪个模型表现更好、主要优缺点等)
Scan to join WeChat group