吉姆新闻记者,舒坦
实**生何一平魏文静
6月19日,上海人工智能研究院公布了首届AI高考全卷评估结果,本月初开源的阿里通易前文大模型Qwen2-72B获得了303分,满分420分。取得了第一名。其语文、数学三科成绩均高于OpenAI的GPT-4o和上海人工智能研究院的学者璞玉2.0文曲星(InternLM2-20B-WQX)。
我的语文和英语成绩很好,但数学不及格。
极目新闻记者在上海人工智能研究院公众号上看到一篇文章称,高考涵盖了多种科目和题型。这种为人类设计的极其困难的综合测试,现在被研究人员普遍用来测试大型模型的智能水平。 2024年全国高考一结束,上海人工智能研究院新南评估系统OpenCompass将选取6个开源模型和GPT-4o来完成高考《超越语言》全文。进行了能力测试。和数学。”由于无法确定闭源模型的更新时间,为了维护公平性,我们在本次评测中没有纳入商业闭源模型,仅引入GPT-4o作为评测参考。
本次考核采用国家新课程标准卷一。所有参与考核的开源模型均早于高考开源,保证了考核的“闭卷”性质。整篇论文的测试题包括选择题、填空题等“答案唯一性”题,以及简答、阅读理解、写作等主观题,测试模型的能力。你可以。更接近实际高考的环境。大模型的成绩是由具有高考阅卷经验的老师手工评判的,所以比较接近实际的评分标准。
评测结果,Qwen2-72B击败GPT-4o(296分)和学者璞玉2.0文曲星,获得语文、数学等总分303分,成为这所大型大学的“状元”入学考试表明发生了什么。 (实**生LM2-20B-WQX,295.5)。本次评测的另外三款大型模型分别是法国AI初创公司Mistral的Mistral 8x22B模型、Zero-One Everything公司的Yi-1.5-34B模型、智普AI的GLM-4-9B以及阿里巴巴Qwen2系列混合专家(MoE)模型“Qwen2” “-57B-A14B”和钱文同益的MoE模型也表现出色,以254分的总分获得第四名。
上海人工智能研究院指出,大部分模范考生在语文和英语科目上取得了不错的成绩,但数学方面仍有很大的提升空间。
虽然InternLM2-20B-WQX在数学方面取得了单科最高分,但尚未达到及格水平,说明Masu的大规模模型的数学能力还有相当大的提升空间。
我们计划将来引入多模态大规模模型评估。
与以往的高考采用客观题评估大规模模型不同,这次考试不仅包括选择题、填空题等“唯一答案”题,还包括主观题,例如:问道。能够在高考环境下测试真实简答、阅读理解、写作模型。
为了近似高考的评分模型,研究人员邀请了多位有评分经验的高中老师对主观题的答案进行评分,每道试题至少由三人评分。如果评分存在显着差异,导师会予以考虑,并努力使评分尽可能公平,以便为人工智能学术界和产业界提供更有价值的参考指标。与真正的大学入学考试一样,所有大型答题纸都是匿名的,以避免老师评分时出现“偏见”。
除了语言和数学之外,老师们还对这些“AI考生”的能力进行了公正的评估——
汉语评测测试表明,大型模型中现代文本的阅读理解能力总体良好,但不同模型中汉语文本的阅读理解能力存在较大差异。大型模型写的论文更像是问答题,但它们很少使用人类候选人使用的技术,例如例子、论证、引文和名言。大多数大模型不理解“本体”、“隐喻”、“明喻”等中文概念。文章中存在一些较大模型无法完全理解的“潜台词”。
从数学评价文献来看,大规模模型中主观问题的答案比较杂乱,解题过程混乱,甚至存在过程中出现错误却得到正确答案的情况。虽然大型模型的公式记忆非常强大,但在解决问题的过程中却无法灵活运用。
大模型的整体英语表现不错,大模型写的英语论文通常会因为超出字数限制而被扣分,而大多数真人考生会因为字数不足而被扣分。
据透露,“大模高考”的答案生成脚本、各模答题卡、老师评分明细均已公开。未来,研究团队将在测评中引入多模态、大规模的模型,测试模型解决更多题型的能力,打造覆盖不同领域、不同地区的完整高考测评。阶段。
(来源:健身房新闻)
更多精彩资讯,请在应用市场下载“极目新闻”客户端。未经许可请勿转载。欢迎新闻提示,如果接受,将获得报酬。我们的24小时举报热线是027-86777777。