考试星在11月正式发布了LLM智能判分,实现多类型主观题的智能阅卷;1个月后,经历了多轮优化,我们再一次刷新了主观题判分效果。
经过测试比对,智能判分与人工判分的一致性差异在10%以内,也就是说对于主观题的判分,AI智能已经能够很好的替代或检校人工判分的效果了。
AI智能判分,在实际应用过程中,不仅仅是提高判分效率,还可以大大杜绝因为人工差异带来的判分差异:如高强度长时间阅卷工作带来的精神疲惫、经验学识差异、主观感受等等),充分维护考试的公平公正。
我们以某英语作文考试项目为例,一位判卷老师每天可判100份左右,大约需要7天时间判完所有试卷;使用智能判卷仅需要1个小时时间。判分时间缩减效果明显;同步带来的是判卷成本下降和判卷质量提升。在试卷量较大、主观题多、判卷老师有限的情况下,使用智能判分将获得非常直观的效果。
经多个项目测试,目前AI评分可达到与人工评分的90%~95%相似度。我们以某场中文作文考试为例,经过人机判分数据对比,一致性达到90%以上。
一致性是体现智能评分与人工评分差异的数据指标,差值在20%以内基本可视为评分结果一致。在以上案例中,差值已缩减到5%,也显示出了智能评分高可信的效果。可以应用到以下↓↓↓各类主观题的判分项目中。
每个判分项目运作由模型层-应用层-服务层三层结构组成,采取标准功能+定制服务的模式交付每一个判分项目。模型层根据判分项目的题型、判分规则做微调;应用层:使用考试星平台运行判分功能模块;服务层:专业服务团队,精细管理判分任务与各类资源调度。
目前考试星已经完成了多个项目的判分交付,判分质量得到了客户一致好评。
以上内容未解决您的问题?
立即咨询
领取方案