黑洞资源笔记
00:30 · Jan 5, 2021 · Tue
机器学习避坑指南:训练集/测试集分布一致性检查_机器学习算法与Python实战的博客-CSDN博客
Telegraph
机器学习避坑指南:训练集/测试集分布一致性检查_机器学习算法与Python实战的博客-CSDN博客
工业界有一个大家公认的看法,“数据和特征决定了机器学习项目的上限,而算法只是尽可能地逼近这个上限”。在实战中,特征工程几乎需要一半以上的时间,是很重要的一个部分。缺失值处理、异常值处理、数据标准化、不平衡等问题大家应该都已经手到擒来小菜一碟了,本文我们探讨一个很容易被忽视的坑:数据一致性。 众所周知,大部分机器学习算法都有一个前提假设:训练数据样本和位置的测试样本来自同一分布。如果测试数据的分布跟训练数据不一致,那么就会影响模型的效果。 在一些机器学习相关的竞赛中,给定的训练集和测试集中的部分特征本身很…
Home