机器学习实验评估与 A/B 测试：从离线指标到真实业务收益

机器学习模型离线指标提升，并不一定代表线上业务收益。推荐系统 AUC 提升，可能没有提高留存；风控模型召回提升，可能带来过多误杀；文本分类准确率提高，可能只是某个大类变好了。

因此，机器学习实验要同时关注离线评估和线上验证。

一个好的实验应该有明确假设：

1
2
3

如果引入用户最近 7 天行为特征，
模型能更准确识别高意向用户，
从而提高推荐点击率并保持投诉率不变。

没有假设的实验，很容易变成“换模型试试”。这种方式难以复盘，也难以积累经验。

离线评估用于快速筛选方案，降低线上试错成本。它要回答：

离线评估不能替代线上实验，但可以防止明显不靠谱的模型上线。

很多机器学习任务不能随机切分。时间序列、推荐、风控、用户行为预测都应该按时间切分，模拟真实上线场景。

常见方式：

1
2
3

训练集：历史较早数据
验证集：中间时间段
测试集：最近时间段

如果随机切分，模型可能在训练集中看到同一用户未来行为，导致指标虚高。

每次实验至少记录：

没有实验记录，团队很快会陷入“这个指标当时为什么变好”的混乱。

A/B 测试把用户随机分为实验组和对照组，只改变一个核心变量，观察指标差异。

关键点：

主指标是你希望提升的指标，例如点击率、转化率、留存。护栏指标是不能明显变差的指标，例如投诉率、退款率、延迟、用户停留质量。

统计显著不等于业务有价值。一个指标在大流量下提升 0.01% 也可能显著，但收益可能覆盖不了工程成本。反过来，小流量实验没有显著，也不代表方向一定错误。

评估时要同时看：

实验结束后，不管成功还是失败，都应该复盘：

失败实验也有价值。它能帮助团队排除错误方向，修正对业务和数据的理解。

机器学习团队需要把实验能力产品化。离线评估、线上分流、指标看板、实验记录和复盘模板，都应该成为固定流程。

模型效果不是靠感觉判断，而是靠可复现的离线证据和真实业务实验共同确认。