人工智能参与高考阅卷,给1078万考生批卷的,可能不是个人

发布日期:2021-06-08

目前人工智能已经与教育领域深度融合,利用大数据开展的个性化学习覆盖学生已超千万。

又一年高考开始了,4000余万份高考试卷成绩,还有背后1078万考生的命运,都在各位阅卷组老师手中。

自1978年恢复高考,至今已有43年,高考阅卷抛弃了上世纪传统的手改手核的方式,换上电脑开始无纸化阅卷。近几年,全国多省陆续试点人工智能阅卷。采用人工智能辅助网上评卷质量监控系统,最大限度考分的真实性。人工智能辅助网上评卷质量监控系统主要使用在作文评卷方面,它会在后台对试卷进行评判,将其结果与人工教师评卷结果进行对照,如果发现偏差较大,就会对现场的人工评卷进行提醒,保证评卷按照标准化操作继续处理、进行。未来,高考或许会抛弃人工,让机器独立阅卷。

近年来,人工智能技术快速发展,或许会成为解救阅卷老师的希望。

谁在雇佣AI阅卷?

人工智能阅卷的历史,最早可以追溯到1996年。

美国杜克大学的埃利斯·佩奇设计开发出一款名为PEG的作文评分系统,是世界上最早智能评分系统。

到2005年,美国一家非盈利性考试服务中心Educational Testing Service(简称ETS)便推出了一个名为E-rater的机器评分系统,应用于GRE、TOFEL等考试。

该组织官网资料,该系统用到了人工智能技术给试卷打分。这个AI系统不光能指出考生的语法、用词和拼写错误,在作文题中还可以评价考生的文章立意、组织结构和语言风格[7]。

2016年,日本文部科学省宣布,考虑引入AI为日本高考判卷[8]。

而国内涉足AI评卷的科技公司,有两家。

一家是阿里。2017年,浙江外国语学院在一次考试中,用阿里的人工智能系统为外国留学生的中文试卷阅卷,并宣称AI阅卷准确率已超过人类[9]。

次年9月,阿里又发起一场全球数学比赛,“阅卷老师”同样是阿里自研的人工智能。

另一家,则是发迹于教育的科大讯飞。

科大讯飞在早年便开发出口语测评系统,为多地普通话考试提供智能评分服务。后来,讯飞又把注意力从口语转向文字,研究智能批改技术。

2015年11月,科大讯飞曾在安庆、合肥等地的学校试点用AI批改作文[11];一个月后的科大讯飞年度发布会上,董事长刘庆峰又推出智学网,宣称能实现全科阅卷、智能批改。

语文作文智能评分流程 | 来源:科大讯飞智慧教育

2017年中考,湖北襄阳首次引入讯飞的人工智能阅卷系统。一年后,安徽首次把该系统应用于高考。

兹事体大,安徽教育考试院没敢让AI在高考中挑大梁,该系统主要用于作文题辅助阅卷,给老师“打打下手”。中安在线曾报道,“它在后台对试卷进行评判,与老师的阅卷结果进行对照,如果偏差较大,会进行提醒。”[13]

虽然人工智能暂时还是“辅助”角色,但并不影响各地教育考试院的采购热情。自2018年起,科大讯飞先后中标安徽、河北、湖北等地的采购需求。科大讯飞智慧教育公众号文章中称,该技术每年服务的中高考考生,已超过600万。

讯飞子公司——讯飞启明中标湖北省教育考试院人工智能阅卷项目 | 来源:中国政府采购网[15]

Z老师也表示,当地高考虽然未曾使用过人工智能阅卷,但教育考试院的技术部门确实在对接相关事宜。

虽然暂时派不上什么用处,但往好处看,这些系统的采购价格都不贵——

2018年8月,安徽省教育招生考试院采购智能阅卷网评质量控制服务,价格为15.8万元;

2020年7月,湖北省教育考试院采购高考人工智能评卷服务和研考人工智能评卷检测服务,价格为20.3万元;

2020年10月,河北省教育考试院采购人工智能AI质检技术测试服务,价格为19.76万元。

若按照每个高考阅卷老师补贴2000元计算,20万元不过是100个老师的成本。一旦投入使用,将给教育考试院节省大量人力支出。

谁更有资格决定考生命运?

从前,考生的命运掌握在阅卷老师手心,他们答个卷都得想着阅卷老师的体验——

答卷要用黑色签字笔,阅卷老师看得更清楚;

写字要写楷体(至少要整洁),方便阅卷老师分辨;

答题卡要严格分区,让阅卷老师理解作答顺序。

即便如此,人工阅卷仍然不尽人意。

2014年高考,有浙江阅卷老师反映阅卷速度过快,“主观题平均用时9秒,作文平均1分钟判阅完成”。上海交通大学教授、21世纪教育研究院副院长熊丙奇称此类问题普遍存在,甚至有人直言高考阅卷是“草菅人命”[16]。

2020年,一篇名为《生活在树上》的满分作文引发争议,浙江语文评卷组作文组组长被举报开课卖书,“既做教练,又当裁判”。

把阅卷任务交给AI,对考生来说就是好事吗?

与人工阅卷相比,AI不知疲倦、阅卷速度快,而且有标准统一,犯错几率也小。但是,AI“眼中”的标准,一定适用于高考吗?

一方面,AI的偏见在阅卷中已有先例。

Vice曾指出,前述ETS的智能评分系统E-rater存在算法偏见——它更倾向于给中国学生高分,而给非裔美国学生、阿拉伯学生和西班牙学生低分。后经ETS研究,发现这是由于中国学生作文篇幅更长,使用的句式和词汇更加复杂[18]。但拗口的句子和华丽的辞藻,显然不是高考作文的“金标准”。

另一方面,AI阅卷系统的“智能程度”,还有待检验。

2020年,美国一款服务于两万所学校的AI阅卷系统被指存在漏洞,考生只要列出相应关键词,就能被系统识别并获得高分[19]。事实上,在中国高三学生群体中,“高分作文模板”也已流行多年,AI到底能给高分还是判定“抄袭”?一旦再出一篇半文半白的文章,AI读得懂吗?

根据科大讯飞在2021年4月公布的数据,人工智能评阅语文作文的人机评分一致率为99.33%。但若全国均使用人工智能阅卷,今年上千万的考生中,最终也会有7.2万人受到AI的不公正对待,谁来保证少数考生的利益?

2020年8月,教育部考试中心称要“坚决维护高考评卷和命题工作公平公正”,但是要做到绝对的公平,靠人很难,靠AI也还需要时日。

目前已有多个省市针对语文、英语作文等主观性命题引入了机器阅卷。将机器阅卷与人工阅卷结合,当机器与人工阅卷结果分差较大时,会自动挑选出来交给专家组进行最后判别,从而减少主观评价的差异性,使得主观题的评价更加客观、公平。


分享到: