为帮助用户全面评估AI智能体的性能及使用质效,平台新增评测模块,当前支持对自主规划式智能体进行标准化测评。通过评测集及评测规则的自定义配置,用户可定量分析智能体的响应准确性、工具调用稳定性及知识覆盖度等关键指标,为优化决策提供数据支撑。
评测模块包含三个核心环节(评测集、评测规则、评测任务),确保评估过程的完整性和可追溯性。
功能:通过特定提问或使用官方预制的标准数据集,构建用于测试智能体的部署集。评测集可导入外部文件(如Excel/CSV),或从平台现有知识库直接提取测试样本。
操作说明:






功能:支持创建灵活的评测规则,通过定义标准答案、容错策略及打分机制,让系统自动匹配智能体的响应质量。
规则可指定:
操作说明:
点击“创建规则” → 设置评价标准(如:完全正确=10分,部分匹配=5分,错误=0分)
关联评测集,完成规则与测试样本的绑定。


| 章节板块 | 详细内容 |
|---|---|
| 1. 任务概述 | 作为专业的数据标注员,您的职责是依据明确的评分标准,评估模型输出的事实正确性 和内容完整性 。 |
| 2. 评分标准 - 满分条件 | ✅准确完整 :提供的信息精确且全面,无遗漏关键点。✅无事实错误 :所有内容均与参考输出或已知事实一致。✅全面响应 :回答问题的所有部分 ,无偏题或遗漏。✅逻辑一致 :陈述前后连贯,无矛盾或跳跃。✅术语精确 :使用准确 的专业术语,避免模糊或误导性表述。 |
| 2. 评分标准 - 扣分项 | ❌事实性错误 :内容与参考输出或公认事实不符。❌不完整信息 :回答部分问题,缺失关键要素。❌误导或模糊 :表述含糊,可能导致理解偏差。❌术语错误 :使用错误或不规范的术语。❌逻辑缺陷 :前后矛盾、逻辑跳跃或断裂。❌遗漏关键细节 :忽略问题的核心信息。每个扣分项如果触发则扣 1 分。 |
| 3. 操作指导 | 步骤 1:理解输入 阅读输入的问题({{input}}),明确问题的核心需求 和预期范围 。步骤 2:对比输出与参考 查看模型输出({{output}})与参考输出({{reference_output}})的关键差异 。注意事实准确性 、信息完整度 和术语正确性 。步骤 3:聚焦正确性 重点评估内容实质 (而非文风、长度等形式因素)。如参考输出缺失,依据已有知识或权威信息进行验证。步骤 4:记录问题 对每一条扣分点进行明确标注 ,并说明理由(例如:“缺少 X 步骤的说明”)。 |
| 4. 注意事项 | - 评估目标:严格甄别回复的事实性 和完整度 ,确保高标准的质量控制。- 公正性:避免因个人偏好影响判断,专注于客观评分。 |
| 5. 评分模板示例 | 项目|评分点(100 分制)|扣分说明(如有)事实准确性|100|无误完整程度|90|缺少步骤 2 的细节术语使用|95|“术语 X” 使用错误逻辑一致性|100|无误 |
| 6. 输入 / 输出示例 | 输入({{input}}) :请详细说明人工智能在医疗诊断中的应用场景。模型输出({{output}}) :AI 可用于影像识别(如 CT、MRI)、病历分析,以及未来可能用于手术助手。(缺少具体病种分析、实例等关键点)参考输出({{reference_output}}) :AI 在医疗中的应用包括:1. 影像识别(如乳腺癌筛查、白内障诊断);2. 病历挖掘(如糖尿病风险预测);3. 药物研发(如蛋白质折叠预测)。 |
功能:发起智能体的实际测试任务,系统自动调用目标智能体并记录反馈结果。用户可实时追踪评测进度,查看得分明细及错误原因分析。
操作说明:
平台计划支持自主规划智能体端到端评测,工作流智能体端到端评测,工作流智能体路径评测;当前仅支持自主规划智能体端到端评测,后两者将于近期开放。
注意:
对自主规划智能体进行端到端测评,需要先将自主规划智能体以API方式发布,并生成对应的API KEY。
建议先完成这一步再开始后续工作。







