石云升
2024-09-06
来自广东
题目太单一:都是选择题,应该加点开放式或主观题,测试更全面。 难度分级不够:难度划分可以更细,增加挑战性。 缺人类反馈:可以用专家反馈,评估更准确。 题库更新慢:题目固定,跟不上技术进步,需要动态更新。 分析不深入:除了看对错,也要分析模型的推理和理解过程。