当前位置：首页 > 未命名 > 正文内容

[W8]聚集

u3blog9年前 (2016-12-02)未命名647

非监督学习：介绍

非监督学习和监督学习相反，是一种无标签学习。换而言之，我们不知道y的具体分类。非监督学习适用于： 1.市场分割 2.社交网络分析 3.组织电脑集群 4.天文数据分析

K-Means算法是最广泛应用的自动分类算法。具体过程如下 1.随机在数据集合中初始化两个点，叫做聚类中心 2.将整个集合分为两个子集，一个是对于中心1较近的点，一个是对中心2较近的点 3.将划分好的集合中的点求出一个平均值，把聚类中心移到这个点 4.重复2和3过程

我们的算法有时会在局部最优解停留，我们需要做的是重复随机赋值几次，来确保取到全局最优解。

绘制代价曲线J和聚类数量k的图像，在代价曲线扁平化的那个点选择K的数量。代价函数J的公式如下

其中： c(i)表示x（i）当前属于的集群的序号 uk 表示集群中心k uc(i) 表示x(i)属于集群的集群中心

有时候一个数据有多个维度的数据，但是我们为了一些需求，会想办法降低其维度，主要场景有两个 1.数据压缩 2.数据可视化

最常见和常用的维度下降算法就是PCA(Principal Component Analysis)

这类问题是为了用一条线来同时描述多个特征，以及适配新的特征。 PCA的目的就是为了让每个点到这条线的投射距离的平均值最小。

在线性回归中，我们计算的是每个点的方差在PCA中，我们计算的是每个点到线上的距离最小值

1.给出训练样本集合 2.均值化训练集合

3.让每个样本减去均值化结果 4.将处于不同规格范围的特征处理为可比较的范围内

首先计算协方差矩阵

然后使用SVD（奇异值分解）算法得到U，S，V 然后取U的前x列作就是我们的结果

扫描二维码推送至手机访问。

分享给朋友：

返回列表