碌曲信息网
热点专题 当前位置:首页 > 热点专题 > 正文

用 AI 来改试卷?现在或许还早了点

我喜欢昨天分享它

根据调查,基于自然语言处理的人工智能纸评分系统已被美国至少21个州正式引入官方考试评分工作中。

满月不仅是外国人,而且中国的“机器评估员”已经被放入考场。

早在2016年,中国教育考试中心和科技大学就建立了联合实验室,共同开展人工智能技术在考试标记,命题和评估方面的研究。此外,2017年,湖北阜阳正式引进机器评分系统作为高中毕业工作的得分助手。

在这些机器评估员的背后,有大量的信息可供参考。即使一天中有无数的论文,也不会因疲劳和不愉快的情绪而影响标记的效率和公平性。

但情况确实如此吗?最近,VICE的一份报告显示,这些AI审稿人实际上没有大家想象的正义。

▲图片来自:VICE

不可避免的算法偏差

人工智能评估实际上并不像大家想象的那样公平。第一个问题首先是算法偏差。

事实上,教育行业一直在努力消除不同语言背景的学生产生的潜意识偏见,但这个问题在人工智能标记系统中相当严重。

ETS(美国非专业测试服务中心)提供的E-rater机器评分系统目前正在为GRE,托福和其他考试提供评分参考。 ETS也是许多机器评分系统提供商之一,很少有人会提供偏见研究报告。

ETS新产品开发副总裁David Williamson说:

事实上,评分系统中存在算法偏差是一个常见问题,但大多数提供商不会像我们这样对公众开放。

在多年的研究中,ETS发现机器评分系统“更喜欢”来自中国大陆的学生,总体得分高于人类评论者。与此同时,非裔美国人,阿拉伯学生和西班牙学生等群体更容易受到机器的偏见,他们获得的分数会更低。

▲图片来自:VICE

为此,ETS在2018年对该算法进行了深入研究,最终找到了原因。

以GRE(美国研究生入学考试)为例,来自中国大陆的学生篇幅较长,并且会在论文中使用大量复杂的词汇,这使得机器错误地认为论文的水平将高于平均水平,从而给予更多的分数。即使这些复杂的句型与人类法官眼中的论文主题没有太大关联,但很明显,应用了预先报道的论文。

相反,由于非洲裔美国人和阿拉伯语学生的语言风格往往更加简单直接,因此很难在机器评分系统中获得更高的分数。

这些偏见实际上直接反映在分数中。在测试期间,在同等水平的学生群体中,E-rater机器评分系统给予中国大陆学生平均得分1.31,而非洲裔美国人只有0.81。分钟。

当然,如果你有一个GRE读者,不要担心,因为系统只是为人类得分手“帮助”,最终论文仍然由人类决定。

除了ETS之外,新泽西理工学院还发现了自己使用的机器评分系统中的算法偏差。

新泽西理工学院之前曾使用一种称为ACCUPLACER的评分系统来确定一年级学生是否需要额外的辅导,但后来技术委员会的研究发现该系统偏向于亚洲和西班牙裔学生撰写的论文。判决不能公平。

即使是“狗屎”的论文也能获得高分

如果算法偏差仅影响分数,则对测试公平性的影响不是特别大,那么机器评分系统存在更严重的缺陷。

只是你无法识别它。

几年前,麻省理工学院的预备主任莱斯佩雷尔曼和一群学生使用纸质语言生成器BABEL拼凑了几篇论文。

这些论文与普通论文不同。虽然它们使用了许多先进的词汇和复杂的句型,但大多数都是序言中没有使用的序言,甚至可以被描述为“狗”。

他们将这些论文提交给了几个不同的机器评分系统进行评分。出乎意料的是,这些论文取得了不错的成绩。

更令人意想不到的是,几年后VICE也复制了实验,结果非常相似。新泽西理工学院教授埃利奥特说:

目前的论文评分系统强调语法的准确性和书面语的标准化。但很难找到学生的敏锐观点和特殊见解。然而,这两点是人类法官眼中最有价值的地方。

目前,许多教育领域的人质疑这些机器标记,而澳大利亚已经宣布在标准考试中引入机器评分系统。

来自AI Now研究所的Sarah Myers West表示,与更广泛的AI应用领域一样,消除评分系统中的算法偏差也是一场持久战。

尽管如此,新泽西理工大学教授艾略特和AI Now研究所的Sarah Myers West都是开发机器评分系统的支持者。正如犹他州考试发展评估员Cydnee Carter所说,用机器评估论文不仅为国家教育系统节省了大量的人力和物力,而且还为学生和教师提供了及时的学术反馈。教育效率高。

但在它们完全公平公正之前,这些机器标记只能发挥辅助作用更好。

收集报告投诉

根据调查,基于NLP的人工智能纸评分系统已正式引入美国至少21个州的正式考试评分工作中。

此外,满月不仅在国外,而且我国的“机器标记”已经被放入考场。

早在2016年,中国教育考试中心和迅飞科技大学就成立了联合实验室,共同开展人工智能技术研究,在论文,命题,考试评估和分析方面进行。 2017年,湖北省襄阳市在中学试卷工作中正式引进机器评分系统作为评分艾滋病。

在这些机器评估员的背后,有大量的信息可供参考。即使一天中有无数的论文,也不会因疲劳和不愉快的情绪而影响标记的效率和公平性。

但情况确实如此吗?最近,VICE的一份报告显示,这些AI审稿人实际上没有大家想象的正义。

▲图片来自:VICE

不可避免的算法偏差

人工智能评估实际上并不像大家想象的那样公平。第一个问题首先是算法偏差。

事实上,教育行业一直在努力消除不同语言背景的学生产生的潜意识偏见,但这个问题在人工智能标记系统中相当严重。

ETS(美国非专业测试服务中心)提供的E-rater机器评分系统目前正在为GRE,托福和其他考试提供评分参考。 ETS也是许多机器评分系统提供商之一,很少有人会提供偏见研究报告。

ETS新产品开发副总裁David Williamson说:

事实上,评分系统中存在算法偏差是一个常见问题,但大多数提供商不会像我们这样对公众开放。

在多年的研究中,ETS发现机器评分系统“更喜欢”来自中国大陆的学生,总体得分高于人类评论者。与此同时,非裔美国人,阿拉伯学生和西班牙学生等群体更容易受到机器的偏见,他们获得的分数会更低。

▲图片来自:VICE

为此,ETS在2018年对该算法进行了深入研究,最终找到了原因。

以GRE(美国研究生入学考试)为例,来自中国大陆的学生篇幅较长,并且会在论文中使用大量复杂的词汇,这使得机器错误地认为论文的水平将高于平均水平,从而给予更多的分数。即使这些复杂的句型与人类法官眼中的论文主题没有太大关联,但很明显,应用了预先报道的论文。

相反,由于非洲裔美国人和阿拉伯语学生的语言风格往往更加简单直接,因此很难在机器评分系统中获得更高的分数。

这些偏见实际上直接反映在分数中。在测试期间,在同等水平的学生群体中,E-rater机器评分系统给予中国大陆学生平均得分1.31,而非洲裔美国人只有0.81。分钟。

当然,如果你有一个GRE读者,不要担心,因为系统只是为人类得分手“帮助”,最终论文仍然由人类决定。

除了ETS之外,新泽西理工学院还发现了自己使用的机器评分系统中的算法偏差。

新泽西理工学院之前曾使用一种称为ACCUPLACER的评分系统来确定一年级学生是否需要额外的辅导,但后来技术委员会的研究发现该系统偏向于亚洲和西班牙裔学生撰写的论文。判决不能公平。

即使是“狗屎”的论文也能获得高分

如果算法偏差仅影响分数,则对测试公平性的影响不是特别大,那么机器评分系统存在更严重的缺陷。

只是你无法识别它。

几年前,麻省理工学院的预备主任莱斯佩雷尔曼和一群学生使用纸质语言生成器BABEL拼凑了几篇论文。

这些论文与普通论文不同。虽然它们使用了许多先进的词汇和复杂的句型,但大多数都是序言中没有使用的序言,甚至可以被描述为“狗”。

他们将这些论文提交给了几个不同的机器评分系统进行评分。出乎意料的是,这些论文取得了不错的成绩。

更令人意想不到的是,几年后VICE也复制了实验,结果非常相似。新泽西理工学院教授埃利奥特说:

目前的论文评分系统强调语法的准确性和书面语的标准化。但很难找到学生的敏锐观点和特殊见解。然而,这两点是人类法官眼中最有价值的地方。

目前,已经有很多教育领域的人质疑这些换机器,澳大利亚也宣布将暂时搁置机器评分系统进行标准测试。

来自AI Now Institute的Sarah Myers West表示,与更广泛的人工智能应用领域一样,消除评分系统中的算法偏差是一场持久战。

新泽西理工学院的教授Elliot或AI Now Institute的Sarah Myers West仍然支持开发机器评分系统。因为这确实是未来的发展方向,正如犹他州考试发展评估员Cydnee Carter所说,通过机器评估论文可以为国家的教育系统节省大量的人力和物力。它可以为学生和教师提供及时的学术反馈,大大提高教育效率。

只是这些机器评估员只有在公平公正之前才能充当辅助角色。

http://lady.gz-yued.com.cn



碌曲信息网 版权所有© www.cr555.cn 技术支持:碌曲信息网 | 网站地图