作者回复: 是的,模型的持续迭代和更新是机器学习工程中的一个重要主题。正如其它同学提到的,可以进行持续学习与在线学习: 在线学习:模型可以在新数据上进行增量训练,而不是重新使用全量数据。这种方法适用于数据流模型或数据持续增长的情境。 批量更新:定期(例如每天、每周或每月)用最近的数据(或增量数据)重新训练模型。 模型验证与监控: 部署后,持续监控模型的性能指标。如果性能下降到某个阈值以下,则触发模型的重新训练或调整。 使用A/B测试策略在实际环境中对比新模型和旧模型的性能。 数据的滑动窗口策略:对于一些模型,你不需要使用全部的历史数据,而是只用最近的数据。例如,你可以使用过去三个月的数据而不是使用过去三年的数据。 转移学习与增量学习: 转移学习:使用预训练模型作为起点,并在特定任务的新数据上进行微调。 增量学习:只使用新数据对模型进行更新。 考虑存储与计算成本:全量数据的重新训练可能需要大量的存储和计算资源。在实际部署中,可能需要权衡重新训练的好处和成本。 对于你提到的搜索引擎分词器的情况:当新的网络用语出现时,确实需要更新分词器以提高其性能。但这并不意味着每次都需要使用全部的历史数据来重新训练。可以采用增量训练、在线学习或者使用近期的数据进行滑动窗口训练。 值得注意的是,一些老的数据可能在某些情境下变得不太相关。例如,十年前的网络用语可能与现在的环境有很大的不同。 总体而言,持续的模型迭代和更新策略取决于具体的应用场景、数据属性以及业务需求。适当的策略可以确保模型在面对新的数据时仍然保持良好的性能,同时又能控制计算和存储的成本。
作者回复: UnsupportedOperation: not writable,通常是在写入只读文件的时候报错。看一看是否对所有文件有写权限,是不是有一些文件是只读文件。这只是猜测,我没有遇到过同样错误。 我们看看其它同学是否遇到了类似的问题呢?