证据与复核

用证据等级解决“结果倒推原因”的黑盒问题

AI 和教师不需要从单题直接猜唯一真实错因,而要说明判断依据有多强,哪些地方需要复核。

证据等级

等级含义例子处理方式
3卷面直接证据公式写错、漏检定义域、单位漏写。可作为主标签强证据。
2题目与作答对照可合理推出所求目标明显读偏。可主标,但需写排除理由。
1仅为可能推测可能读不懂、可能习惯差、可能紧张。只能疑似,需复核。
0证据不足卷面无法区分粗心还是不会。不应作为训练强标签。

哪些判断必须复核

长期性标签

L16L17L18 不能凭单题定论。

心理和语言原因

“读不懂”“焦虑”“不会反思”需要复述、访谈、多题记录或教师观察。

训练数据入库

疑似标签不能直接当训练强标签,必须经过教师或专家复核。

样例入库流程

收集真实错题或教师构造样本
初标主标签、疑似标签、证据文本
双人复核两位教师独立判断
仲裁分歧样本由专家裁定
黄金样例形成稳定标签边界
训练评测区分训练集和测试集

训练集只应吸收有证据、有复核的稳定标签;疑似深层原因可以保存,但不能未经复核就当作强监督数据。