无监督学习与聚类分析：在没有标签时发现数据结构

监督学习依赖明确标签，而真实业务中很多数据一开始并没有标签。用户行为、交易流水、设备日志、文本集合、图像特征，往往只是大量样本和特征。无监督学习的价值，就是在没有人工答案的情况下，尝试发现数据内部结构。

无监督学习并不直接回答“对不对”，它更像一种探索工具：把相似样本放在一起，把异常样本分出来，把高维结构投影到低维空间，让人能看见数据中原本隐藏的模式。

常见场景包括：

这类任务的重点不是追求一个唯一正确答案，而是得到业务可解释、可行动、可复用的分组。

聚类之前，要先处理数据表示。距离度量对聚类结果影响极大。数值特征如果没有缩放，金额、次数、时长等不同量纲会互相压制。类别特征如果编码不当，也可能制造不存在的距离关系。

一个基本流程是：

聚类结果一定要回到业务语境中解释。一个算法分出的簇，如果不能解释、不能运营、不能验证，价值就很有限。

K-Means 的思想很直接：预先指定簇数 K，不断把样本分配给最近的簇中心，再更新簇中心，直到收敛。

优点：

局限：

工程上常用肘部法、轮廓系数和业务可解释性一起选择 K。不要只看某一个指标，因为聚类本身没有绝对标签。

DBSCAN 不需要指定簇数，而是根据密度连接样本。它有两个关键参数：邻域半径 eps 和最少样本数 min_samples。

适合场景：

局限：

DBSCAN 常用于地理位置、异常轨迹、设备状态和空间分布类任务。

K-Means 会把每个样本硬分配到某个簇，而高斯混合模型会输出样本属于每个簇的概率。这种软聚类在业务中很有用，因为用户或商品不一定只属于一个群体。

例如一个用户可能同时具备“价格敏感”和“高频活跃”两种特征。概率输出可以用于后续规则、推荐或运营策略。

常见指标包括：

如果有少量人工标签或业务标签，也可以用 NMI、ARI 等外部指标。但更重要的是业务验证：不同簇在留存、购买、风险、活跃度等指标上是否真的不同。

无监督学习最容易犯的错误，是把聚类结果当成事实。聚类只是从某种特征视角出发得到的一种划分方式。换一组特征、换一种距离、换一个时间窗口，结果可能完全不同。

更稳的做法是：先用聚类做探索，再用业务指标解释簇，最后把有价值的分群沉淀为可复现的数据标签或特征。这样无监督学习才会从一次性分析变成长期可用的数据资产。