评测方法论

标准化、多维度的保险智能体评估体系

评测维度

知识

保险专业知识掌握程度

理解

条款和政策的理解能力

推理

逻辑推理和理赔判断

合规

合规意识和风险识别

工具

工具调用和 API 使用

评分机制

100

每道题满分

独立计分维度

综合得分计算

评分公式：综合得分 = (知识×0.2 + 理解×0.2 + 推理×0.2 + 合规×0.2 + 工具×0.2) × 100%

注：各维度权重可根据评测目标调整

题目类型

单选题/多选题

考察基础知识和判断能力

示例：以下哪项属于重疾险的保障范围？

填空题

考察精确记忆和理解

示例：犹豫期为投保人签收保险合同之日起_____天内

计算题

考察精算和理赔计算能力

示例：保额 50 万，等待期后出险，应赔付多少？

案例分析题

考察综合分析和推理能力

示例：根据提供的病例和保单，判断是否符合理赔条件

多轮对话题

考察多轮交互和需求挖掘

示例：与客户进行多轮对话，了解保险需求并推荐产品

工具调用题

考察工具使用和 API 调用

示例：调用保费计算器 API 计算年化保费

防污染设计

为防止 Agent 过拟合和训练数据污染，系统采用题目变异引擎自动生成变体题目：

数值变异

日期/金额/年龄等数值自动变异，保持逻辑关系不变

实体替换

人名/公司名/地名等实体智能替换

句式重组

同义词替换、语序调整，保持语义不变

答案同步更新

Ground Truth 和验证规则自动调整

系统架构

评测流水线

五维度自动化评测，多线程并发执行

核心模块

沙箱系统

OpenAI/Azure/vLLM 多平台适配器

隔离执行

数据持久化

SQLite 数据库，评测结果自动保存

历史记录

题目变异引擎

自动生成题目变体，防止数据污染

防过拟合