机器学习中数据可能出错的方式数不胜数

没有什么魔术可以避免它们，但是有方法可以在某种程度上减轻它们。

机器学习中，数据可能出错的方式数不胜数！虽然没有什么神奇的技巧可以避免这些问题，但有一些方法可以在某种程度上减轻它们。

泄露变量是指在训练数据中使用了在预测时无法知道的信息。在某种意义上，你是在将要预测的内容作为特征集的一部分，这导致模型似乎表现过于良好。
概念漂移是指底层输入变量的分布保持不变，但它们与目标变量的关系发生了变化。这就是为什么需要有定期的重新训练或持续训练策略的原因。
反馈环是指当前模型的预测被用来积累未来的训练数据。由于这种原因，它会导致选择偏差，未来模型训练的数据不能很好地代表生产数据。在推荐引擎中经常会发生这种情况！这实际上可能会导致更好的模型，但也可能强化以前模型犯下的错误。
平稳性是统计学习中的一个基本假设，我们假设样本是同分布的。如果它们的概率分布随时间变化（非平稳），则同分布假设被违反。这就是为什么要构建尽可能平稳的特征的原因。例如，美元金额不是一个好的特征（因为通货膨胀），但相对美元变化（Δ $/$ ）可能更好。
人口漂移是一个典型的问题，导致概念漂移和非平稳性。用于模型推断的底层人口随时间变化，原始训练数据不再代表当前的人口。同样，定期重新训练是解决这个问题的好方法。
法规变化是一个棘手的问题！有一天，新数据法案被通过，或者苹果商店改变了其隐私政策，使得捕获特定特征变得不可能。一些公司因为依赖于特定数据而破产，因为谷歌Play或苹果商店允许捕获这些数据，但第二天就禁止了。
过拟合显然是最为人所知的问题，而且幸运的是，每个机器学习工程师都为此做好了准备！这就是模型不能很好地推广到测试数据，因为它捕获了太多训练数据中的统计噪声。
训练数据偏差是指训练期间的样本分布不代表生产数据分布，导致模型偏差。了解偏差如何影响推断至关重要。
协变量漂移是指输入特征分布P(X)发生变化，但它们与目标P(Y|X)的关系保持不变。这可能导致训练数据选择过程中的偏差，导致模型不准确。

请注意，中文版本是由 AI 辅助翻译的，因此可能存在细微错误。

作者

Ai Base Network (ABN), ABN ASIA由具有深厚学术背景的人员创立，他们在美国、荷兰、匈牙利、日本、韩国、新加坡和越南等国家有工作经验。ABN Asia是学术界和技术相遇的地方。凭借我们领先的解决方案和优秀的软件开发服务，我们帮助企业提升水平，走向全球舞台。我们的承诺：更快。更好。更可靠。在大多数情况下：也更便宜。

无论您需要IT服务、数字咨询、现成软件解决方案，还是想向我们发送招标要求（RFPs），都请随时与我们联系。您可以通过[email protected]与我们联系。我们随时准备为您提供所有技术需求的帮助。