Back to skills
extension
Category: OtherAPI key required

购物场景Agent体验质量评估

做线上购物场景 Agent 体验质量评估时,调用这个 skill,能够自动化执行评估脚本并生成评估报告。

personAuthor: user_d9b3e84bhubcommunity

Skill: 线上购物场景 AI Agent 体验质量评估

触发条件

当用户提到以下关键词时自动触发此 Skill:

  • "线上购物场景 Agent 体验质量评估"
  • "购物 Agent 评估"
  • "电商 AI 评估"
  • "购物助手评测"

Skill 描述

自动化执行线上购物场景下 AI Agent(豆包、通义千问)的体验质量评估。流程为:DeepSeek 生成 30 条覆盖 11 类购物场景的用户查询 → 豆包和千问分别回答 → DeepSeek 作为资深电商导购专家进行 11 维度评分 → 生成结构化 DOCX 评估报告(含图表)+ XLSX 测试结果文件。

执行指令

当此 Skill 被触发时,请按以下步骤执行:

第 1 步:确认环境

  1. 确认 Python 3 环境可用
  2. 安装依赖:
pip install requests python-docx openpyxl matplotlib --break-system-packages
  1. 确认评估脚本路径:/workspace/shopping-agent-eval/eval_shopping_agent.py
  2. 设置环境变量(API Key 通过环境变量传入,脚本中不硬编码):
export DEEPSEEK_API_KEY=your_deepseek_key
export DOUBAO_API_KEY=your_doubao_key
export QWEN_API_KEY=your_qwen_key

第 2 步:执行评估脚本

cd /workspace/shopping-agent-eval && python3 eval_shopping_agent.py

重要说明:

  • 脚本执行时间较长(约 15-30 分钟),因为需要调用多个 API 共计约 90+ 次
  • 脚本内置了重试机制(最多 3 次)和错误处理
  • 如果脚本执行中断,可以查看已有的部分报告

第 3 步:交付报告

脚本执行完成后,自动在 /workspace/ 目录生成以下交付物:

交付物(1):结构化评估报告(DOCX)

  • 文件命名:shopping_agent_eval_report_YYYYMMDD_HHMMSS.docx
  • 报告框架:
    1. 总体得分:豆包 vs 千问的总平均分对比表 + 环形图
    2. 各维度得分:11 维度雷达图 + 维度得分对比表(含差值)
    3. 豆包与千问表现评价:分别列举各模型的优势要点和劣势要点
    4. 优化建议:针对各模型的劣势维度,给出具体的优化建议
    5. 错误分析:成功率/失败率统计 + 出错原因详情

交付物(2):测试结果文件(XLSX)

  • 文件命名:shopping_agent_eval_results_YYYYMMDD_HHMMSS.xlsx
  • 包含 4 个 Sheet:
    1. 用户查询:DeepSeek 生成的 30 条查询(编号、场景类别、查询内容)
    2. 豆包回答与评分:豆包的回答内容 + 11 维度评分 + 综合评语
    3. 千问回答与评分:千问的回答内容 + 11 维度评分 + 综合评语
    4. 统计汇总:成功率/错误率统计 + 各维度平均分对比 + 出错原因分析

附加文件

  • JSON 原始数据:shopping_agent_eval_data_YYYYMMDD_HHMMSS.json
  • 图表文件:/workspace/charts/ 目录下的环形图和雷达图 PNG

评估流程说明

1. 查询生成阶段

  • 调用 DeepSeek 自动生成 30 条购物用户查询
  • 覆盖 11 类场景:具体商品、预算约束、无预算限制、品牌偏好、功能要求、使用场景、配件需求、模糊需求、矛盾需求、高风险商品、中途修改需求

2. 模型回答阶段

  • 豆包(doubao-seed-2-0-pro)和通义千问(qwen-plus)分别回答所有 30 条查询
  • 模拟真实电商购物助手角色

3. 专家评分阶段

  • DeepSeek 扮演资深电商导购专家
  • 7 分制(1=最差,7=最好),11 个评估维度:
    1. 商品相关性
    2. 商品多样性
    3. 推荐理由说服力
    4. 决策过程透明可解释
    5. 价格合理性
    6. 安全性
    7. 回答内容易读性
    8. 回答内容易理解性
    9. 回答内容事实性
    10. 情绪感知力
    11. 交互自然度
  • 输出 JSON 格式评分 + 2-3 句综合评语

4. 报告生成阶段

  • DOCX 评估报告:含封面、目录、总体得分环形图、各维度雷达图、维度对比表、优劣势分析、优化建议、错误分析
  • XLSX 测试结果:含用户查询、模型回答、维度评分、综合评语、成功率/错误率统计、出错原因分析

注意事项

  • API Key 通过环境变量传入,运行前必须设置 DEEPSEEK_API_KEYDOUBAO_API_KEYQWEN_API_KEY
  • 如果某个 API 调用失败,脚本会自动重试并记录错误
  • 评估完成后,向用户简要汇报关键结论(哪个模型表现更好、主要优缺点等)