发布于

机器学习中数据可能出错的方式数不胜数

作者

没有什么魔术可以避免它们,但是有方法可以在某种程度上减轻它们。

Image

机器学习中,数据可能出错的方式数不胜数!虽然没有什么神奇的技巧可以避免这些问题,但有一些方法可以在某种程度上减轻它们。

  • 泄露变量是指在训练数据中使用了在预测时无法知道的信息。在某种意义上,你是在将要预测的内容作为特征集的一部分,这导致模型似乎表现过于良好。

  • 概念漂移是指底层输入变量的分布保持不变,但它们与目标变量的关系发生了变化。这就是为什么需要有定期的重新训练或持续训练策略的原因。

  • 反馈环是指当前模型的预测被用来积累未来的训练数据。由于这种原因,它会导致选择偏差,未来模型训练的数据不能很好地代表生产数据。在推荐引擎中经常会发生这种情况!这实际上可能会导致更好的模型,但也可能强化以前模型犯下的错误。

  • 平稳性是统计学习中的一个基本假设,我们假设样本是同分布的。如果它们的概率分布随时间变化(非平稳),则同分布假设被违反。这就是为什么要构建尽可能平稳的特征的原因。例如,美元金额不是一个好的特征(因为通货膨胀),但相对美元变化(Δ//)可能更好。

  • 人口漂移是一个典型的问题,导致概念漂移和非平稳性。用于模型推断的底层人口随时间变化,原始训练数据不再代表当前的人口。同样,定期重新训练是解决这个问题的好方法。

  • 法规变化是一个棘手的问题!有一天,新数据法案被通过,或者苹果商店改变了其隐私政策,使得捕获特定特征变得不可能。一些公司因为依赖于特定数据而破产,因为谷歌Play或苹果商店允许捕获这些数据,但第二天就禁止了。

  • 过拟合显然是最为人所知的问题,而且幸运的是,每个机器学习工程师都为此做好了准备!这就是模型不能很好地推广到测试数据,因为它捕获了太多训练数据中的统计噪声。

  • 训练数据偏差是指训练期间的样本分布不代表生产数据分布,导致模型偏差。了解偏差如何影响推断至关重要。

  • 协变量漂移是指输入特征分布P(X)发生变化,但它们与目标P(Y|X)的关系保持不变。这可能导致训练数据选择过程中的偏差,导致模型不准确。

请注意,中文版本是由 AI 辅助翻译的,因此可能存在细微错误。

作者

Ai Base Network (ABN), ABN ASIA由具有深厚学术背景的人员创立,他们在美国、荷兰、匈牙利、日本、韩国、新加坡和越南等国家有工作经验。ABN Asia是学术界和技术相遇的地方。凭借我们领先的解决方案和优秀的软件开发服务,我们帮助企业提升水平,走向全球舞台。我们的承诺:更快。更好。更可靠。在大多数情况下:也更便宜。

无论您需要IT服务、数字咨询、现成软件解决方案,还是想向我们发送招标要求(RFPs),都请随时与我们联系。您可以通过[email protected]与我们联系。我们随时准备为您提供所有技术需求的帮助。

ABNAsia.org

© ABN ASIA