FinEval 金融大模型应用评测

立即尝试

专业的金融领域大语言模型应用评测平台,支持通用金融场景及银行、基金、保险、证券等垂类行业的全方位评测

评测说明

基于金融知识问答、风险识别、投资分析等多维度综合评测的权威排名

综合得分基于多个金融场景的平均表现

评测数据集包含金融知识问答、市场分析、风险评估等

所有模型均在相同条件下进行公平评测

榜单每周更新,反映最新的模型性能表现

排行榜

评测维度:知识理解、逻辑推理、风险识别
数据集:FinQA, FinBERT, Financial News
更新频率:每周更新
2025
2024
排名
名称
doubao-seed-1-6-251015字节跳动
金融风险控制能力96.3
金融专业认知能力91.2
模型基础能力80.8
金融安全与价值对齐能力94.8
业务拓展能力95.6
平均分91.7
排名
名称
glm-4.6GLM
金融风险控制能力98.7
金融专业认知能力93.8
模型基础能力77.2
金融安全与价值对齐能力88.4
业务拓展能力97.8
平均分91.18
排名
名称
qwen3-max阿里云通义
金融风险控制能力98.5
金融专业认知能力92.2
模型基础能力71
金融安全与价值对齐能力96.2
业务拓展能力97.8
平均分91.1
排名
4
名称
kimi-k2-0905月之暗面
金融风险控制能力98.5
金融专业认知能力89.8
模型基础能力69.8
金融安全与价值对齐能力93.8
业务拓展能力96.4
平均分89.66
排名
5
名称
grok-4Grok
金融风险控制能力98.7
金融专业认知能力86.4
模型基础能力71.2
金融安全与价值对齐能力93.8
业务拓展能力96.4
平均分89.3
排名
6
名称
claude-opus-4-1-20250805Anthropic
金融风险控制能力97.2
金融专业认知能力91.9
模型基础能力62.49
金融安全与价值对齐能力99
业务拓展能力95.6
平均分89.242
排名
7
名称
gpt-5OpenAI
金融风险控制能力98.5
金融专业认知能力87.4
模型基础能力68.39
金融安全与价值对齐能力92.8
业务拓展能力96.6
平均分88.73
排名
8
名称
dianjin--DianJin-R1-32B阿里云通义
金融风险控制能力93.5
金融专业认知能力82.2
模型基础能力68.77
金融安全与价值对齐能力93.2
业务拓展能力87.4
平均分85.006
排名
9
名称
Fino1-14BThe Fin AI
金融风险控制能力98.4
金融专业认知能力85.4
模型基础能力67.6
金融安全与价值对齐能力79
业务拓展能力94.5
平均分84.98
排名
10
名称
gemini-2.5-pro-thinking-16384谷歌
金融风险控制能力97.8
金融专业认知能力85.4
模型基础能力60.5
金融安全与价值对齐能力88.2
业务拓展能力88.3
平均分84
排名
11
名称
XuanYuan-FinX1-Preview度小满
金融风险控制能力96.6
金融专业认知能力88.5
模型基础能力67.2
金融安全与价值对齐能力75.6
业务拓展能力91.8
平均分83.9
排名
12
名称
deepseek-r1Deepseek
金融风险控制能力70.7
金融专业认知能力83
模型基础能力71.8
金融安全与价值对齐能力89.2
业务拓展能力85
平均分79.93

平台特色功能

多维度评测体系

多维度评测体系

涵盖通用金融知识、专业技能、风险识别等多个维度的综合评测体系

垂类行业场景

垂类行业场景

支持银行、基金、保险、证券等细分行业的专业场景评测

一键评测部署

一键评测部署

简化的评测流程,支持闭源、开源及自定义模型的快速评测

金融 AI 评测

大模型评测

大模型评测

基座能力层评测行业适配性评测

通过五维度评估不同金融大模型的能力表现,包括评测工具、评测维度和结果分析

了解详情
智能体评测

智能体评测

决策推理交互

用于评估智能体在任务执行、推理决策、交互体验等方面的表现,涵盖自主性、稳定性和鲁棒性等指标

了解详情

平台数据统计

已评测模型
50+
已评测模型
注册用户
1000+
注册用户
评测任务
5000+
评测任务
评测数据集
20+
评测数据集