评测方法论

标准化、多维度的保险智能体评估体系

评测维度

知识
保险专业知识掌握程度
理解
条款和政策的理解能力
推理
逻辑推理和理赔判断
合规
合规意识和风险识别
工具
工具调用和 API 使用

评分机制

100
每道题满分
5
独立计分维度
综合得分计算
综合得分计算

评分公式:综合得分 = (知识×0.2 + 理解×0.2 + 推理×0.2 + 合规×0.2 + 工具×0.2) × 100%

注:各维度权重可根据评测目标调整

题目类型

单选题/多选题
考察基础知识和判断能力
示例:以下哪项属于重疾险的保障范围?
填空题
考察精确记忆和理解
示例:犹豫期为投保人签收保险合同之日起_____天内
计算题
考察精算和理赔计算能力
示例:保额 50 万,等待期后出险,应赔付多少?
案例分析题
考察综合分析和推理能力
示例:根据提供的病例和保单,判断是否符合理赔条件
多轮对话题
考察多轮交互和需求挖掘
示例:与客户进行多轮对话,了解保险需求并推荐产品
工具调用题
考察工具使用和 API 调用
示例:调用保费计算器 API 计算年化保费

防污染设计

为防止 Agent 过拟合和训练数据污染,系统采用题目变异引擎自动生成变体题目:

数值变异
日期/金额/年龄等数值自动变异,保持逻辑关系不变
实体替换
人名/公司名/地名等实体智能替换
句式重组
同义词替换、语序调整,保持语义不变
答案同步更新
Ground Truth 和验证规则自动调整

系统架构

评测流水线
五维度自动化评测,多线程并发执行
核心模块
沙箱系统
OpenAI/Azure/vLLM 多平台适配器
隔离执行
数据持久化
SQLite 数据库,评测结果自动保存
历史记录
题目变异引擎
自动生成题目变体,防止数据污染
防过拟合