智能评估 RAG 系统的检索和生成质量
上传包含 question 和 ground_truth 的 JSON 文件
系统将自动通过 RAG 获取 contexts 和 answer
多个 ID 用英文逗号分隔
选择用于向量检索的嵌入模型
选择用于生成答案的 LLM 模型
控制生成随机性 (0.0-1.0)
核采样参数 (0.0-1.0)
生成答案的最大长度
每次检索的文档切片数量
启用后 LLM 会先思考再回答(适用于 Qwen3-30B)
正在评估中,请稍候...
| # | 问题 | Faithfulness | Answer Correctness | Answer Relevancy | Context Precision | Context Recall |
|---|