证据与复核
用证据等级解决“结果倒推原因”的黑盒问题
AI 和教师不需要从单题直接猜唯一真实错因,而要说明判断依据有多强,哪些地方需要复核。
证据等级
| 等级 | 含义 | 例子 | 处理方式 |
|---|---|---|---|
| 3 | 卷面直接证据 | 公式写错、漏检定义域、单位漏写。 | 可作为主标签强证据。 |
| 2 | 题目与作答对照可合理推出 | 所求目标明显读偏。 | 可主标,但需写排除理由。 |
| 1 | 仅为可能推测 | 可能读不懂、可能习惯差、可能紧张。 | 只能疑似,需复核。 |
| 0 | 证据不足 | 卷面无法区分粗心还是不会。 | 不应作为训练强标签。 |
哪些判断必须复核
长期性标签
L16L17L18 不能凭单题定论。
心理和语言原因
“读不懂”“焦虑”“不会反思”需要复述、访谈、多题记录或教师观察。
训练数据入库
疑似标签不能直接当训练强标签,必须经过教师或专家复核。
样例入库流程
收集真实错题或教师构造样本
初标主标签、疑似标签、证据文本
双人复核两位教师独立判断
仲裁分歧样本由专家裁定
黄金样例形成稳定标签边界
训练评测区分训练集和测试集
训练集只应吸收有证据、有复核的稳定标签;疑似深层原因可以保存,但不能未经复核就当作强监督数据。