国研经济研究院:讯飞星火已达国际一流水平,7个测评行业超越chatgpt部分行业优于gpt4-亚博im
2023-11-07 11:35:44爱云资讯
经过一年时间追赶,国产大模型正在逐步实现对 chatgpt 的领先和超越。
过去一年,中国已发布的大模型数量已达 158 个,10 亿级参数以上大模型数量超 80 个,大模型数量与美国不相上下,成为全球人工智能的又一座高峰。
在底座能力上突发猛进的同时,市场也逐步达成共识:大模型本身并不产生价值,它的价值必须通过赋能千行百业来实现。
近日,国务院发展研究中心国研经济研究院就开展了一项大模型行业应用能力测评,来对比国产大模型与国际一流大模型的行业表现,并在此基础上提出我国大模型产业高水平发展的政策建议。
据了解,此次测评选取星火大模型 3.0 版、chatgpt、gpt-4 及国内其他大模型为测评对象进行对比,测评行业方面选择了知识密集型的生产性服务业(法律服务与工业设计)、个性化需求高的生活性服务业(、教育与零售)以及部分制造业(汽车工程、计算机),并基于临床执业医师资格考试、中医执业医师资格考试、国家统一法律职业资格考试、机动车检测维修专业技术人员执业资格、全国计算机技术与软件专业技术资格等权威职业资格考试构建了测评题目,以评估大模型在行业知识、技能掌握水平、生产经营场景理解能力等维度的表现。
经过对比测评,科大讯飞最新发布的讯飞星火 3.0 综合能力已达国际一流水平,在所有 7 个测评行业中表现均大幅超越 chatgpt,并在部分行业优于 gpt-4,国内领先。
(图:各行业综合准确率对比)
从具体的测评结果来看,星火大模型 3.0 版在、法律、教育、零售、汽车工程、计算机和工业设计的综合准确率分别达到 69.3%、71.4%、82.2%、61.2%、78.4%、76.9% 和 66.4%,平均准确率达 72.3%,在所有测评行业中表现均优于 gpt3.5 版,并且与 gpt4.0 各有优劣,且相对落后项的差距也均在 10% 以内。
国研经济研究院在报告中总结:“星火大模型 3.0 版的知识储备与语言理解能力已具备独立完成部分行业任务和辅助人类完成复杂任务的能力。”
在、法律、教育等行业,星火大模型表现更是格外突出。报告称,星火 3.0 在、法律领域的中文领域知识和语言理解能力已分别超越 gpt4 表现 5.3% 和 4.1%,在教育领域基础能力的表现与 gpt4 的表现差距小于 1%。
从应用能力上看,星火大模型的行业知识掌握水平较高,且已经初步具备处理行业内复杂问题的能力。星火大模型在各行业基础知识与领域知识问答中的表现突出,在所有测评行业中准确率均超过 gpt3.5。
其中,临床诊断、法律案例判决和零售企业战略制定等考核领域属于较为复杂的题目,需要模型在具备行业知识的同时从给定场景中提取出关键信息,并作出判断。星火大模型在该类问题中的表现优异,正确率分别达到 65.2%、63.0%、66.7%,均优于 gpt3.5 表现,在临床诊断、法律案例判决中的正确率与 gpt4.0 表现接近,仅在零售企业战略制定方面略弱于 gpt4.0。
星火大模型在场景下的领先并非一蹴而就。事实上,早在 2017 年讯飞智医助理就已经通过国家执业医师资格考试,排名超过 96.3% 的人类考生,并且已经向基层医院及等级医院的医生提供帮助。据了解,讯飞的能力已经在全国 400 多个县区实现了规模化的成功应用,累计为医生提供了 6.9 亿次辅助诊断,并修正了 100 多万次基层医生的首次不合适诊断。
但因为场景的特殊性,“需要非常严谨地对待”,星火大模型一直未对外公开。直到近期打磨成熟,整体超越 gpt4 才对外正式发布。据了解,科大讯飞的大模型是首个通过信通院和国家卫健委制定的健康大模型标准规范测评的大模型。
国研经济研究院指出,行业应用将是大模型未来发展的必由之路,而随着大模型底座技术的不断提升,探索赋能不同行业场景的落地方式将成为我国大模型企业快速发展的重要方向,而行业应用价值也将成为评判大模型的核心指标。
上海财经大学校长刘元春此前在接受媒体采访时指出,对于通用人工智能,大模型的长期价值将通过行业应用实现,而应用场景是关键。清华大学人工智能研究院视觉智能研究中心主任、教授邓志东同样表示,大模型的价值在于应用,而只有在多样化的实际应用场景中赋能智能经济与智能社会的发展,才能找到产业价值。
今年年中,高盛研究院在一份报告中指出,生成式 ai 具有巨大的经济潜力,预计在未来十年内广泛应用后,每年可提高全球劳动生产率超过 1 个百分点以上。通过使用生成式 ai,企业可以提高生产效率、降低成本,甚至创造全新的商业模式。
然而,想要实现这一大规模的转型并不容易。对于大多数企业而言,面向垂直场景、垂直行业、垂直领域探索基于大模型的应用创新,都将是未来重点攻克的方向。
国研经济研究院总结道,参照移动互联网的发展路径,唯有出现成千上万个解决生产、生活真实需求的 ai 原生应用,大模型才能真正由“样板间”变为“商品房”,深入社会经济的各个角落,助力各行各业的产业升级,推动中国经济的快速复苏,深刻改变人们的生活方式。