时间序列预测实践：从趋势季节性到机器学习建模

时间序列预测是机器学习中非常常见的任务。销量预测、访问量预测、库存计划、服务器负载、资金流水、用户活跃度都属于这一类。它和普通监督学习最大的区别在于：数据有时间顺序，不能随意打乱。

如果忽略时间结构，用普通随机划分训练集和测试集，很容易制造数据泄漏，让离线指标看起来很好，线上预测却明显失真。

一条时间序列通常包含几种结构：

建模前先画图非常重要。很多时间序列问题在图上能直接看出规律，例如周末流量下降、月底交易上升、节假日销量突增。

时间序列预测需要明确几个问题：

不同定义会影响特征、模型和评估方式。预测未来 1 小时流量和预测未来 30 天库存，是完全不同的问题。

机器学习模型本身不理解时间，需要把时间信息转成特征。常见特征包括：

构造这些特征时要严格保证只使用预测时刻之前的信息。任何未来信息都会造成数据泄漏。

时间序列验证通常使用按时间切分：

1
2
3

训练集：过去数据
验证集：之后一段时间
测试集：最后一段时间

更稳的方法是滚动验证，也叫 walk-forward validation。模型在多个历史窗口上训练和预测，观察不同时间段的表现，避免只在某一个时间段上碰巧表现好。

传统统计模型包括 ARIMA、指数平滑、状态空间模型等。它们适合规律较清晰、变量较少、解释性要求较高的场景。

机器学习模型包括随机森林、XGBoost、LightGBM、神经网络等。它们适合有大量外部变量、多条序列、非线性关系明显的场景。

选择建议：

常见指标包括 MAE、RMSE、MAPE、SMAPE、WAPE。不同指标关注点不同。RMSE 对大误差更敏感，MAE 更直观，MAPE 在真实值接近 0 时会失真。

业务上还要看预测误差的方向。例如库存预测中，低估销量可能导致缺货，高估销量可能导致积压，两者成本不同。指标不能脱离决策成本。

时间序列模型上线后，要持续监控：

时间序列预测不是一次性建模，而是持续校准。市场、用户和业务策略都会变化，模型必须跟着变化。

先做简单基线，例如“明天等于今天”“下周同一天”等朴素预测。很多复杂模型如果连朴素基线都打不过，就说明问题定义、数据或验证方式存在问题。

真正稳定的时间序列系统，通常不是一个炫目的模型，而是一套可靠的数据口径、特征窗口、回测流程、异常处理和业务反馈机制。