金大哥 - RAG Skill 详情

When to Use

User wants to implement, improve, or troubleshoot Retrieval-Augmented Generation systems.

Quick Reference

| Topic | File | |-------|------| | Pipeline components & architecture | architecture.md | | Implementation patterns & code | implementation.md | | Evaluation metrics & debugging | evaluation.md | | Security & compliance | security.md |

Core Capabilities

Architecture design — Select embedding models, vector DBs, and chunking strategies based on requirements
Implementation — Write ingestion pipelines, query handlers, and update logic
Retrieval optimization — Tune top-k, reranking, hybrid search parameters
Evaluation — Build test datasets, measure recall/precision, diagnose failures
Production ops — Monitor quality drift, set up alerts, debug degradation
Security — PII detection, access control, compliance requirements

Decision Checklist

Before recommending architecture, ask:

[ ] What document types and volume?
[ ] Latency requirements (real-time chat vs batch)?
[ ] Update frequency (how often do docs change)?
[ ] Access control needs (who can see what)?
[ ] Compliance constraints (GDPR, HIPAA, SOC2)?
[ ] Budget (managed vs self-hosted, embedding costs)?

Critical Rules

Never skip access control — Filter at retrieval time, not after
Always overlap chunks — 10-20% prevents context loss at boundaries
Evaluate before optimizing — Build eval dataset first, then tune
Same embedding model — Query and documents must use identical model
Monitor similarity scores — Dropping averages signal drift or issues
Plan for deletion — GDPR erasure requires re-embedding capability

Common Failure Patterns

| Symptom | Likely Cause | Fix | |---------|--------------|-----| | Wrong docs retrieved | Query too vague, poor chunks | Query expansion, smaller chunks | | Relevant doc missed | Not indexed, low similarity | Check ingestion, hybrid search | | Hallucinated answers | Context too short | Increase top-k, better reranking | | Slow responses | Large chunks, no caching | Optimize chunk size, cache embeddings | | Inconsistent results | Non-deterministic reranking | Set seeds, use stable sorting |