机器学习模型离线指标提升,并不一定代表线上业务收益。推荐系统 AUC 提升,可能没有提高留存;风控模型召回提升,可能带来过多误杀;文本分类准确率提高,可能只是某个大类变好了。
因此,机器学习实验要同时关注离线评估和线上验证。
一、实验从假设开始
一个好的实验应该有明确假设:
1 | 如果引入用户最近 7 天行为特征, |
没有假设的实验,很容易变成“换模型试试”。这种方式难以复盘,也难以积累经验。
二、离线评估的作用
离线评估用于快速筛选方案,降低线上试错成本。它要回答:
- 模型是否比基线好。
- 哪些分组改善,哪些分组变差。
- 错误样本集中在哪里。
- 指标提升是否稳定。
- 是否存在数据泄漏。
离线评估不能替代线上实验,但可以防止明显不靠谱的模型上线。
三、数据切分要符合业务时间
很多机器学习任务不能随机切分。时间序列、推荐、风控、用户行为预测都应该按时间切分,模拟真实上线场景。
常见方式:
1 | 训练集:历史较早数据 |
如果随机切分,模型可能在训练集中看到同一用户未来行为,导致指标虚高。
四、实验记录要可复现
每次实验至少记录:
- 数据版本。
- 特征版本。
- 代码版本。
- 模型参数。
- 随机种子。
- 训练环境。
- 指标结果。
- 重要结论。
没有实验记录,团队很快会陷入“这个指标当时为什么变好”的混乱。
五、A/B 测试的基本逻辑
A/B 测试把用户随机分为实验组和对照组,只改变一个核心变量,观察指标差异。
关键点:
- 随机分流,保证组间可比。
- 流量足够,避免样本太小。
- 实验时间覆盖业务周期。
- 避免多个实验互相干扰。
- 提前定义主指标和护栏指标。
主指标是你希望提升的指标,例如点击率、转化率、留存。护栏指标是不能明显变差的指标,例如投诉率、退款率、延迟、用户停留质量。
六、显著性与业务显著性
统计显著不等于业务有价值。一个指标在大流量下提升 0.01% 也可能显著,但收益可能覆盖不了工程成本。反过来,小流量实验没有显著,也不代表方向一定错误。
评估时要同时看:
- 统计置信度。
- 绝对提升幅度。
- 对关键人群的影响。
- 长期指标。
- 成本和风险。
七、实验复盘
实验结束后,不管成功还是失败,都应该复盘:
- 假设是否成立。
- 哪些分组表现最好。
- 哪些分组变差。
- 是否有意外副作用。
- 是否值得全量上线。
- 下一轮实验做什么。
失败实验也有价值。它能帮助团队排除错误方向,修正对业务和数据的理解。
八、实践建议
机器学习团队需要把实验能力产品化。离线评估、线上分流、指标看板、实验记录和复盘模板,都应该成为固定流程。
模型效果不是靠感觉判断,而是靠可复现的离线证据和真实业务实验共同确认。