目前部分人工智能沉迷刷榜,在基准测试时高分通过,表现优异,但实际应用中却还会犯一些非常基础的错误。
近日,有媒体报道,目前部分人工智能沉迷刷榜,在基准测试时高分通过,表现优异,但实际应用中却还会犯一些非常基础的错误。这种沉迷刷榜,忽略实用性质的行为造成了部分AI模型“高分低能”的现象。那么,对于AI发展而言,基准测试是否必要?在实际应用中,基准测试哪些问题有待改进完善呢?
AI模型哪家好,基准测试来说话
AI模型应该如何衡量其性能?
“目前AI模型能力的高低取决于数据,因为AI的本质是学习数据,输出算法模型。为了公平衡量AI能力,很多机构、企业甚至科学家会收集、设计不同的数据集,其中一部分喂给AI训练,得到AI模型,另外一部分数据用于考核AI模型的能力,这就是基准测试。”近日,西安电子科技大学电子工程学院教授吴家骥接受科技日报记者采访时表示。
吴家骥介绍说,机器学习越来越多地用于各种实际应用场景,例如图像和语音识别、自动驾驶汽车、医学诊断等。因此,了解其在实践中的行为和性能变得非常重要。其鲁棒性和不确定性的高质量估计对于许多功能至关重要,尤其是在深度学习领域。为掌握模型的行为,研究人员要根据目标任务的基线来衡量其性能。
2010年,基于ImageNet数据集的计算机视觉竞赛的推出,激发了深度学习领域一场算法与数据的革命。从此,基准测试成为衡量AI模型性能的一个重要手段。微软公司的计算机科学家马塞洛·里贝罗表示,基准测试应该是从业者工具箱中的一个工具,人们用基准来代替对于模型的理解,通过基准数据集来测试“模型的行为”。
【资料图】
例如,在自然语言处理领域,GLUE科研人员让AI模型在包含上千个句子的数据集上训练,并在9个任务上进行测试,来判断一个句子是否符合语法,并分析情感,或者判断两个句子之间是否是逻辑蕴涵等,一度难倒了AI模型。随后,科研人员提高了基准测试难度,一些任务要求AI模型不仅能够处理句子,还要处理来自维基百科或新闻网站的段落后回答阅读理解问题。仅经过1年的发展,AI模型的性能从不到70分轻松达到90分,超越了人类。
吴家骥表示:“科学研究要有科学问题、方法、计算、试验对比等要素。因此在进行科学研究,包括人工智能的科研中,也必须有计算与试验对比,也就是说AI算法的能力应该是可测量的,目的是验证研究方法的可行性、有效性。因此,基准测试很有必要,这样才可以公平验证AI算法能力的高低好坏,避免各说各话,‘王婆卖瓜自卖自夸’。”
算法最终服务实践,而非刷榜
有人说,高分是AI模型的兴奋剂。于是,有的人工智能为了取得好成绩而频频刷榜。
微软公司2020年发布报告指出,包括微软、谷歌和亚马逊在内的各种sota模型包含诸多隐含错误,比如把句子里的“what"s”改成“what is”,模型的输出结果就会截然不同,而在此前,从没有人意识到这些曾被评价还不错的商业模型竟会在应用中如此糟糕。显然,这样训练出的AI模型就像一个只会考试、成绩优异的学生,可以成功通过科学家设置的各种基准测试,却不懂为什么。
“为了获得好成绩,研究人员可能会使用特殊的软硬件设置对模型进行调整和处理,让AI在测试中表现出色,但这些性能在现实世界中却无法施展。”西安电子科技大学研究员尚坤指出。
在智能手机领域,我们谈及手机的使用体验时一般都不免会涉及手机的性能表现,这些性能通常会用跑分成绩来表现。然而,我们常常会遇到一款手机的跑分成绩处于排行榜领先水平,但是在实际使用过程中却出现动画掉帧、页面滑动卡顿、应用假死等的现象。全球顶级评测网站AnandTech的一篇报道曾对这种现象提出质疑,指出某品牌手机跑分时启动了“性能模式”,而在平时的使用中“性能模式”很少被调用开启。这种处理方式虽然能够获得高跑分,但是不能模拟用户真实的使用情景,这让基准测试不具有参考意义。
尚坤认为,针对上述问题,改进基准的方法主要有:一种是增加更多的数据集,让基准变得更难。用没有见过的数据测试,这样才能判断AI模型是否能够避免过拟合。研究人员可创建一个动态数据收集和基准测试平台,针对每个任务,通过众包的方式,提交他们认为人工智能模型会错误分类的数据,成功欺骗到模型的样例被加入基准测试中。如果动态地收集数据增加标注,同时迭代式的训练模型,而不是使用传统的静态方式,AI模型应该可以实现更实质性的进化。
尚坤说,另一种是缩小实验室内数据和现实场景之间的差距。基线测试无论分数多高,还是要用实际场景下的数据来检验,所以通过对数据集进行更贴近真实场景的增强和扩容使得基准测试更加接近真实场景。如ImageNet-C数据集,可根据16种不同的实际破坏程度对原有的数据集进行扩充,可以更好模拟实际数据处理场景。
应用广泛,需尽快建立国家标准
美国麻省理工学院Cleanlab实验室的研究指出,常用的10个作为基准的数据集中,有超过3%的标注是错误的,基于这些基准跑分的结果则无参考意义。
“如果说,基准测试堪称人工智能领域的‘科举制’,那么,‘唯分数论’输赢,是不可能训练出真正的好模型。要打破此种现象,一方面需要采用更全面的评估方法,另一方面可以考虑把问题分而治之,比如用多个AI模型解决复杂问题,把复杂问题转化为简单确定的问题。简单且经过优化的基线模型往往优于更复杂的方法。谷歌的研究人员为常见的AI任务引入了不确定性基线库,来更好评估AI应用的稳健性和处理复杂不确定性的能力。”远望智库人工智能事业部部长、图灵机器人首席战略官谭茗洲指出。
虽然行业正在改变对于基准的态度,但目前基准测试研究仍然是一个小众研究。谷歌在一份研究中采访了工业界和学术界的53位AI从业者,其中许多人指出,改进数据集不如设计模型更有成就感。
谭茗洲表示,AI应用基准研究是构建国内统一大市场的内在需要,当前AI已经在国计民生的各类领域中得到广泛应用,更需要设立标准对AI模型进行全面有效的评估,片面追求和采用高分AI模型,可能会让模型在复杂极端场景下出现“智障”行为,并且可能由于训练和推理性能的低效,造成不良社会影响、经济损失和环境破坏。
谭茗洲强调,AI应用基准研究关乎国家战略。针对重要领域,建立我国自己的AI基准测试标准、AI数据集、AI模型评估标准等迫在眉睫。
据了解,西安电子科技大学的DvcLab也在AI基准测试这个领域进行了前瞻性研究,特别是针对AI应用基准测试中数据集的整体质量与动态扩展两个关键问题,正在开发可在线协作的数据标注与AI模型研发托管项目,并计划今年陆续开源,正在为构建国家AI基准评估标准体系进行积极探索。(记者 华 凌)
-
郑州市召开“郑州爱眼联盟”筹备会为预防和减少可避免性视力障碍发生,促进学生健康成长,以实际行动落实习总书记关于青少年视力健康的重要指示精神,携手爱心...
-
河南飞播造林,助力筑建绿色生态屏障图片来自河南省林业调查规划院官网飞播造林,助力筑建绿色生态屏障。2019年是河南省飞播造林40周年。记者从河南省林业部门获...
-
老师发朋友圈自省拖堂问题张晟远同学所写的作文。优美的下课铃声响了,我像灌了一大桶咖啡一样,全身的每个细胞都活跃起来了。可是老师的耳朵像塞上了...
-
印尼锡纳朋火山沉寂400年喷发6月9日,在印度尼西亚北苏门答腊省卡罗县,锡纳朋火山喷出大量火山灰。锡纳朋火山位于印尼北苏门答腊省的卡罗县,在沉寂近400...
-
巨型“抹香鲸”亮相江苏南通倡海洋环保这是由海洋垃圾拼制成的巨型抹香鲸图案(6月10日无人机拍摄)。 6月10日,一幅由海洋垃圾拼制成的巨型抹香鲸图案亮相江苏省南...
-
郑州市召开“郑州爱眼联盟”筹备会
2021-05-12 13:38:12
-
河南飞播造林,助力筑建绿色生态屏障
2019-07-04 09:02:36
-
老师发朋友圈自省拖堂问题
2019-06-13 08:54:29
-
印尼锡纳朋火山沉寂400年喷发
2019-06-11 10:23:36
-
巨型“抹香鲸”亮相江苏南通倡海洋环保
2019-06-11 10:23:34
-
全球今头条!河南卫视《出彩项目看河南》节目组在明港镇信钢公司取景
2022-07-01 10:10:07
-
天天微头条丨优化营商环境|淮滨政务服务中心:24小时自助服务专区 有事“随时办”
2022-07-01 10:13:09
-
世界关注:优化营商环境|淮滨政务服务中心:安全无小事 中心在行动
2022-07-01 10:05:23
-
每日观察!优化营商环境|淮滨政务服务中心:政策咨询窗口 助力淮滨营商环境又快又好
2022-07-01 10:06:57
-
世界热门:美交易所FTX拟白菜价收购加密货币贷款公司BlockFi 价格据称仅为估值1%
2022-07-01 10:21:14
-
全球今亮点!优化营商环境|淮滨政务服务中心:“受审分离”新模式 让企业更加满意
2022-07-01 10:14:21
-
世界关注:“先买后付”模式在美遇阻?这家澳洲公司暂停美国业务
2022-07-01 10:07:50
-
焦点快看:贵州大木村:红色旅游助力乡村振兴
2022-07-01 10:13:16
-
天天热资讯!美国批准!SpaceX星链可为飞机、船舶等交通工具提供移动互联网服务
2022-07-01 10:10:20
-
微头条丨西藏博物馆新馆将于近期开馆
2022-07-01 10:17:12
-
环球即时看!核心业务面临挑战,高管称Meta下半年将非常艰难
2022-07-01 10:10:51
-
环球最新:国际旅游业复苏加速 携程开启“超级目的地”纽约站
2022-07-01 10:01:45
-
环球快讯:市领导督导黄河防汛工作
2022-07-01 10:09:46
-
【全球速看料】市级人力资源服务产业园昨日揭牌
2022-07-01 10:11:04
-
每日视点!全市防汛应急工作专题培训班开班
2022-07-01 09:59:45
-
环球消息!我市举行人才集团成立暨人才社区项目启动仪式 李卫东、魏建平等为项目培土奠基
2022-07-01 10:07:09
-
当前热讯:6月份企业生产经营恢复性扩张 三大指数均升至扩张区间
2022-07-01 10:05:09
-
天天关注:前老板欠款未还,继任者被“限高”,律师:法院应纠正
2022-07-01 10:10:08
-
环球速看:天价雪糕袭击“无辜”消费者 “雪糕刺客”凉了谁的心?
2022-07-01 10:13:30
-
每日快讯!“直播带岗”提高匹配效率 求职路上以“点投”代替“跑腿”
2022-07-01 10:11:47
-
速递!上半年仅有8家房企销售额过千亿 累计销售额约1.25万亿
2022-07-01 10:01:18
-
【环球新要闻】宜阳县人民检察院召开党组理论学习中心组学习(扩大)会议
2022-07-01 10:02:16
-
重点聚焦!洛阳市孟津区朝阳镇:唤醒“沉睡”资产赋能乡村振兴
2022-07-01 10:13:52
-
环球消息!嵩县人民检察院组织开展“七一”慰问老党员活动
2022-07-01 10:04:30
-
快看:偃师区人民检察院防范养老诈骗宣传活动走进翟东村
2022-07-01 09:57:26
-
环球热点!楼阳生在郑州航空港经济综合实验区调研时强调,优势再造抢跑新赛道,创新驱动培育新动能
2022-07-01 10:15:54
-
环球快消息!多部门联动开展货车非法改装整治工作
2022-07-01 10:00:52
-
环球热消息:市水利局组织开展“全市安全日”暨防洪防汛应急演练活动
2022-07-01 10:10:54
-
最新:息县县委副书记张鑫带队到淮滨县观摩学习工业发展
2022-07-01 10:07:33
-
天天热讯:连续19个月同比正增长!神龙交答卷!
2022-07-01 10:12:55