IT之家7月18日消息,据大型模型开源开放评测系统“思南”官方消息,上海人工智能研究院17日公布了7个大型AI模型高考全科成绩。据报道。“目前的大型模型仍然存在显着的局限性。组织大型AI模型进行“高考”的目的是评估当前大型模型的真实水平,发现问题,改进技术,并继续推动进步。 ”。
测试结果显示,书生璞玉2.0系列文曲星大模型(璞玉文曲星)、阿里同益钱文大模型Qwen2-72B、GPT-4o再次占据文理AI前三名的前三名。 “高考学生”和理科成绩分别超过“一年级学生”和“二年级学生”的分数线(指河南省的分数线,该省的分数线是河南省的分数线)。今年高考人数最多)。
从官方公布的照片来看,参加“高考”的大型模型还包括零一事的Yi-1.5-34B、统一千文的Qwen2-57B、Zhipu和Mixtral 822B的GLM-4-9B都会出现。由法国人工智能初创公司Mistral 所有。
报告认为,本次评估具有以下特点:
全书考试:对整篇试卷进行评分,而不仅仅是单一题型,并且包括带图片的高考题。
考前开源:所有评测的开源模型都是今年高考的考前开源模型,所以不存在任何题目泄露的可能。
老师评分:邀请经验丰富的老师对高考进行评分,确保您的成绩尽可能与高考匹配。
完全公开:生成答案、模型答卷和评分结果的代码完全开源
添加普通科目时,来自中国浦州的Qwen2-72B、GPT-4o和曲星分别占据文科和理科前三名。阿里同易钱文大模型Qwen2-72B以546分夺得AI高考“文科第一”,普宇文曲星以468.5分夺得理科第一,超越“非开源”国际学生转“研究生院”GPT-4o(文科531分,理科467分)。同样是海外机构发布的Mixtral 8x22B平均成绩最低,弱于国内大型机型的高考成绩。
所有评分老师都认为,大比例模型与真实考生之间仍然存在差距。虽然基础知识获取不错,但大规模模型在逻辑推理和知识灵活应用方面还存在不足。具体来说,在回答主观问题时,大模型无法完全理解问题的主干,无法理解代词的方向,导致答案不准确。对于几何问题,解题过程是机械的、非逻辑的。空间逻辑问题经常出现。推理不一致,对物理、化学实验认识肤浅,无法准确识别和使用实验设备。
另外,大模型可能会伪造虚构的内容,编造看似合理但实际上并不存在的诗句,或者如果有明显的计算错误我也会“硬着头皮”给你答案。所有这些东西都带来了。评分老师有麻烦了。
据IT之家此前报道,上海人工智能研究院去年发布的完整AI高考成绩显示,Qwen2-72B、GPT-4o、学者璞玉2.0文曲星(InternLM2-20B-WQX)为大型模型。月。此次考试,高考前三名的学生成绩均在70%以上。大多数模范“候选人”在语文和英语科目上都表现良好,但数学方面仍有很大的进步空间。
公众评审详情:点此前往