机器学习模型离线指标提升,并不一定代表线上业务收益。推荐系统 AUC 提升,可能没有提高留存;风控模型召回提升,可能带来过多误杀;文本分类准确率提高,可能只是某个大类变好了。

因此,机器学习实验要同时关注离线评估和线上验证。

一、实验从假设开始

一个好的实验应该有明确假设:

1
2
3
如果引入用户最近 7 天行为特征,
模型能更准确识别高意向用户,
从而提高推荐点击率并保持投诉率不变。

没有假设的实验,很容易变成“换模型试试”。这种方式难以复盘,也难以积累经验。

二、离线评估的作用

离线评估用于快速筛选方案,降低线上试错成本。它要回答:

  • 模型是否比基线好。
  • 哪些分组改善,哪些分组变差。
  • 错误样本集中在哪里。
  • 指标提升是否稳定。
  • 是否存在数据泄漏。

离线评估不能替代线上实验,但可以防止明显不靠谱的模型上线。

三、数据切分要符合业务时间

很多机器学习任务不能随机切分。时间序列、推荐、风控、用户行为预测都应该按时间切分,模拟真实上线场景。

常见方式:

1
2
3
训练集:历史较早数据
验证集:中间时间段
测试集:最近时间段

如果随机切分,模型可能在训练集中看到同一用户未来行为,导致指标虚高。

四、实验记录要可复现

每次实验至少记录:

  • 数据版本。
  • 特征版本。
  • 代码版本。
  • 模型参数。
  • 随机种子。
  • 训练环境。
  • 指标结果。
  • 重要结论。

没有实验记录,团队很快会陷入“这个指标当时为什么变好”的混乱。

五、A/B 测试的基本逻辑

A/B 测试把用户随机分为实验组和对照组,只改变一个核心变量,观察指标差异。

关键点:

  • 随机分流,保证组间可比。
  • 流量足够,避免样本太小。
  • 实验时间覆盖业务周期。
  • 避免多个实验互相干扰。
  • 提前定义主指标和护栏指标。

主指标是你希望提升的指标,例如点击率、转化率、留存。护栏指标是不能明显变差的指标,例如投诉率、退款率、延迟、用户停留质量。

六、显著性与业务显著性

统计显著不等于业务有价值。一个指标在大流量下提升 0.01% 也可能显著,但收益可能覆盖不了工程成本。反过来,小流量实验没有显著,也不代表方向一定错误。

评估时要同时看:

  • 统计置信度。
  • 绝对提升幅度。
  • 对关键人群的影响。
  • 长期指标。
  • 成本和风险。

七、实验复盘

实验结束后,不管成功还是失败,都应该复盘:

  • 假设是否成立。
  • 哪些分组表现最好。
  • 哪些分组变差。
  • 是否有意外副作用。
  • 是否值得全量上线。
  • 下一轮实验做什么。

失败实验也有价值。它能帮助团队排除错误方向,修正对业务和数据的理解。

八、实践建议

机器学习团队需要把实验能力产品化。离线评估、线上分流、指标看板、实验记录和复盘模板,都应该成为固定流程。

模型效果不是靠感觉判断,而是靠可复现的离线证据和真实业务实验共同确认。