评测数据集
覆盖金融全场景的专业评测数据集,为您的模型应用评测提供权威标准
金融模型训练数据集(1)
融合银行、证券、保险、信托、期货、基金等六大行业数据,完成从数据清洗、知识抽取到逻辑蒸馏的全流程进化。 包含通用领域数据和金融垂类数据,金融垂类数据涵盖金融推理能力、金融认知能力、金融知识能力、金融文本能力、金融风控能力、金融应用能力六大核心能力维度。
财经教育数据集(1)
匡时财经教育大模型2.0在延续1.0可追溯、高效与高并发能力的基础上,实现了知识进化、安全强化、场景深化与生态共建四方面的显著升级。 模型构建了动态更新的财经“知识大脑”,涵盖2000本应用经济学教材、10000册专业书籍、10000对课程问答及100万篇高水平论文,形成从基础到前沿的闭环知识图谱。该模型已完成国家网信办算法备案,数据安全与内容可信度达到国家级监管标准,为财经AI应用提供可靠保障。
金融评测数据集(7)
FinEval金融领域评测基准依据定量的基本方法,通过长期客观调研总结和严格的人工筛选,利用多项选择题、主客观简答题、推理规划和检索问答等超过26000道多种与实际应用场景高度一致的题型,包括了金融学术知识、金融行业知识、金融安全知识、金融智能体、金融多模态和金融严谨性,旨在全方位检验大模型在金融领域的综合应用能力。
首个覆盖了金融任务从前端到后端的完整生命周期的大模型中文多模态测试基准,能够模拟端到端的业务场景。通过财务报表、研究报告中的图表等内容评估在金融全流程业务场景下多模态大语言模型对中文金融视觉-文本数据的处理与推理能力。
Fineval金融严谨性测试评估模型输出时的严谨性和真实性,考察模型在输出过程中是否存在"幻觉"等问题。共包含两个方面:索引提取(共340道)和数值计算(42道)。
FinGAIA是金融领域端到端AI智能体评测基准。以高度还原的金融业务场景为设计核心,全面覆盖从基础业务理解到复杂策略制定的各类任务,共包含407道在金融领域专家指导下完全人工编写的题目,涵盖证券、基金、银行、保险、期货、信托和资产管理七个主要金融子领域,并按三个层次化的场景深度组织:基础业务分析、资产决策支持、战略风控管理,聚焦评估智能体在金融语境理解、数据整合分析、工具协同调用与多步骤推理等方面的综合能力。
基于真实业务场景和客户需求文档,构建覆盖4个行业、8个场景和40余违规点的数据定义;基于真实业务数据和网路数据爬取获得训练集数据800余条,协助平台进行违规点审核,从而构建多层级安全体系,保障监管合规与业务可控。
依托知识图谱,评估大模型复杂金融任务综合能力。聚焦通用大模型在金融知识深度上的薄弱环节,考察大语言模型解决复杂金融问题的能力。该数据集有助于当前大语言模型突破自身解决复杂金融任务能力的瓶颈,最终助力在复杂金融场景下的能力突破,在金融领域实现真正的智能化。
共包含包含9,782 个问题,数据主题类别—22个子领域:中级财务会计;高级财务会计;成本会计学;管理会计学、财务管理学、审计学、货币金融学、金融工程学、中央银行学、投资学、金融市场学、商业银行金融学、国际金融学、公司金融学、保险学、财政学、计量经济学、微观经济学、宏观经济学、国际经济学、公司战略与风险管理、税法。
其他数据集(22)
金融问答数据集,包含复杂的金融计算和推理问题
金融文本理解数据集,专注于金融领域的自然语言处理
金融新闻分析数据集,训练模型理解市场动态
Massive Multitask Language Understanding - 涵盖57个学科的多选题测试
中文综合评估基准 - 涵盖52个学科的中文多选题
信用风险评估数据集,包含贷款违约预测相关问题
贷款审批数据集,评估模型在信贷决策中的表现
Massive Multitask Language Understanding - 涵盖57个学科的多选题测试
Grade School Math 8K - 小学数学应用题,适用于基础计算能力评估
投资组合管理数据集,涵盖资产配置和风险管理
基金业绩评估数据集,测试投资分析能力
风险指标计算数据集,评估风险量化能力
代码生成能力评估数据集,Python编程题
理赔处理数据集,包含保险理赔流程和决策
承保决策数据集,评估保险风险评估能力
精算分析数据集,测试保险精算建模能力
常识推理能力测试 - 情境理解和推理
市场分析数据集,包含股票和证券市场分析
交易策略数据集,评估量化交易策略制定能力
公司估值数据集,测试企业价值评估能力
AI2推理挑战赛 - 简单版科学推理题
AI2推理挑战赛 - 困难版科学推理题