aida模型，ai模拟技术-家德收藏网

IT之家7月18日消息，据大型模型开源开放评测系统“思南”官方消息，上海人工智能研究院17日公布了7个大型AI模型高考全科成绩。据报道。“目前的大型模型仍然存在显着的局限性。组织大型AI模型进行“高考”的目的是评估当前大型模型的真实水平，发现问题，改进技术，并继续推动进步。 ”。

测试结果显示，书生璞玉2.0系列文曲星大模型（璞玉文曲星）、阿里同益钱文大模型Qwen2-72B、GPT-4o再次占据文理AI前三名的前三名。 “高考学生”和理科成绩分别超过“一年级学生”和“二年级学生”的分数线（指河南省的分数线，该省的分数线是河南省的分数线）。今年高考人数最多）。

从官方公布的照片来看，参加“高考”的大型模型还包括零一事的Yi-1.5-34B、统一千文的Qwen2-57B、Zhipu和Mixtral 822B的GLM-4-9B都会出现。由法国人工智能初创公司Mistral 所有。

报告认为，本次评估具有以下特点：

全书考试：对整篇试卷进行评分，而不仅仅是单一题型，并且包括带图片的高考题。

考前开源：所有评测的开源模型都是今年高考的考前开源模型，所以不存在任何题目泄露的可能。

老师评分：邀请经验丰富的老师对高考进行评分，确保您的成绩尽可能与高考匹配。

完全公开：生成答案、模型答卷和评分结果的代码完全开源

添加普通科目时，来自中国浦州的Qwen2-72B、GPT-4o和曲星分别占据文科和理科前三名。阿里同易钱文大模型Qwen2-72B以546分夺得AI高考“文科第一”，普宇文曲星以468.5分夺得理科第一，超越“非开源”国际学生转“研究生院”GPT-4o（文科531分，理科467分）。同样是海外机构发布的Mixtral 8x22B平均成绩最低，弱于国内大型机型的高考成绩。

所有评分老师都认为，大比例模型与真实考生之间仍然存在差距。虽然基础知识获取不错，但大规模模型在逻辑推理和知识灵活应用方面还存在不足。具体来说，在回答主观问题时，大模型无法完全理解问题的主干，无法理解代词的方向，导致答案不准确。对于几何问题，解题过程是机械的、非逻辑的。空间逻辑问题经常出现。推理不一致，对物理、化学实验认识肤浅，无法准确识别和使用实验设备。

另外，大模型可能会伪造虚构的内容，编造看似合理但实际上并不存在的诗句，或者如果有明显的计算错误我也会“硬着头皮”给你答案。所有这些东西都带来了。评分老师有麻烦了。

据IT之家此前报道，上海人工智能研究院去年发布的完整AI高考成绩显示，Qwen2-72B、GPT-4o、学者璞玉2.0文曲星（InternLM2-20B-WQX）为大型模型。月。此次考试，高考前三名的学生成绩均在70%以上。大多数模范“候选人”在语文和英语科目上都表现良好，但数学方面仍有很大的进步空间。

公众评审详情：点此前往

相关文章

aida模型，ai模拟技术

王小川离职，王小川是什么公司

ai高考智能助手，ai高考志愿模拟