[W8]聚集
非监督学习:介绍
非监督学习和监督学习相反,是一种无标签学习。
换而言之,我们不知道y的具体分类。
非监督学习适用于:
1.市场分割
2.社交网络分析
3.组织电脑集群
4.天文数据分析
K-Means算法
K-Means算法是最广泛应用的自动分类算法。
具体过程如下
1.随机在数据集合中初始化两个点,叫做聚类中心
2.将整个集合分为两个子集,一个是对于中心1较近的点,一个是对中心2较近的点
3.将划分好的集合中的点求出一个平均值,把聚类中心移到这个点
4.重复2和3过程
优化算法
随机赋值
我们的算法有时会在局部最优解停留,我们需要做的是重复随机赋值几次,来确保取到全局最优解。
选择聚类的数量
绘制代价曲线J和聚类数量k的图像,在代价曲线扁平化的那个点选择K的数量。
代价函数J的公式如下
其中:
c(i)表示x(i)当前属于的集群的序号
uk 表示集群中心k
uc(i) 表示x(i)属于集群的集群中心
维度下降
有时候一个数据有多个维度的数据,但是我们为了一些需求,会想办法降低其维度,主要场景有两个
1.数据压缩
2.数据可视化
PCA问题分析公式
最常见和常用的维度下降算法就是PCA(Principal Component Analysis)
问题描述
这类问题是为了用一条线来同时描述多个特征,以及适配新的特征。
PCA的目的就是为了让每个点到这条线的投射距离的平均值最小。
PCA并不是线性回归
在线性回归中,我们计算的是每个点的方差
在PCA中,我们计算的是每个点到线上的距离最小值
PCA算法
1.给出训练样本集合
2.均值化训练集合
3.让每个样本减去均值化结果
4.将处于不同规格范围的特征处理为可比较的范围内
如何降低维度
首先计算协方差矩阵
然后使用SVD(奇异值分解)算法得到U,S,V
然后取U的前x列作就是我们的结果