FinEval 金融大模型应用评测

立即尝试

专业的金融领域大语言模型应用评测平台,支持通用金融场景及银行、基金、保险、证券等垂类行业的全方位评测

评测说明

基于金融知识问答、风险识别、投资分析等多维度综合评测的权威排名

综合得分基于多个金融场景的平均表现

评测数据集包含金融知识问答、市场分析、风险评估等

所有模型均在相同条件下进行公平评测

榜单每周更新,反映最新的模型性能表现

排行榜

评测维度:知识理解、逻辑推理、风险识别

数据集:FinQA, FinBERT, Financial News

更新频率:每周更新

2025

2024

排名

名称

doubao-seed-1-6-251015字节跳动

金融风险控制能力96.3

金融专业认知能力91.2

模型基础能力80.8

金融安全与价值对齐能力94.8

业务拓展能力95.6

平均分91.7

排名

名称

glm-4.6GLM

金融风险控制能力98.7

金融专业认知能力93.8

模型基础能力77.2

金融安全与价值对齐能力88.4

业务拓展能力97.8

平均分91.18

排名

名称

qwen3-max阿里云通义

金融风险控制能力98.5

金融专业认知能力92.2

模型基础能力71

金融安全与价值对齐能力96.2

业务拓展能力97.8

平均分91.1

排名

名称

kimi-k2-0905月之暗面

金融风险控制能力98.5

金融专业认知能力89.8

模型基础能力69.8

金融安全与价值对齐能力93.8

业务拓展能力96.4

平均分89.66

排名

名称

grok-4Grok

金融风险控制能力98.7

金融专业认知能力86.4

模型基础能力71.2

金融安全与价值对齐能力93.8

业务拓展能力96.4

平均分89.3

排名

名称

claude-opus-4-1-20250805Anthropic

金融风险控制能力97.2

金融专业认知能力91.9

模型基础能力62.49

金融安全与价值对齐能力99

业务拓展能力95.6

平均分89.242

排名

名称

gpt-5OpenAI

金融风险控制能力98.5

金融专业认知能力87.4

模型基础能力68.39

金融安全与价值对齐能力92.8

业务拓展能力96.6

平均分88.73

排名

名称

dianjin--DianJin-R1-32B阿里云通义

金融风险控制能力93.5

金融专业认知能力82.2

模型基础能力68.77

金融安全与价值对齐能力93.2

业务拓展能力87.4

平均分85.006

排名

名称

Fino1-14BThe Fin AI

金融风险控制能力98.4

金融专业认知能力85.4

模型基础能力67.6

金融安全与价值对齐能力79

业务拓展能力94.5

平均分84.98

排名

名称

gemini-2.5-pro-thinking-16384谷歌

金融风险控制能力97.8

金融专业认知能力85.4

模型基础能力60.5

金融安全与价值对齐能力88.2

业务拓展能力88.3

平均分84

排名

名称

XuanYuan-FinX1-Preview度小满

金融风险控制能力96.6

金融专业认知能力88.5

模型基础能力67.2

金融安全与价值对齐能力75.6

业务拓展能力91.8

平均分83.9

排名

名称

deepseek-r1Deepseek

金融风险控制能力70.7

金融专业认知能力83

模型基础能力71.8

金融安全与价值对齐能力89.2

业务拓展能力85

平均分79.93

平台特色功能

多维度评测体系

涵盖通用金融知识、专业技能、风险识别等多个维度的综合评测体系

垂类行业场景

支持银行、基金、保险、证券等细分行业的专业场景评测

一键评测部署

简化的评测流程,支持闭源、开源及自定义模型的快速评测

金融 AI 评测

大模型评测

基座能力层评测行业适配性评测

通过五维度评估不同金融大模型的能力表现,包括评测工具、评测维度和结果分析

了解详情

智能体评测

决策推理交互

用于评估智能体在任务执行、推理决策、交互体验等方面的表现,涵盖自主性、稳定性和鲁棒性等指标

了解详情

平台数据统计

50+

已评测模型

1000+

注册用户

5000+

评测任务

20+

评测数据集