当前位置:首页 > 未命名 > 正文内容

[W8]聚集

u3blog8年前 (2016-12-02)未命名244

非监督学习:介绍

非监督学习和监督学习相反,是一种无标签学习。 换而言之,我们不知道y的具体分类。 非监督学习适用于: 1.市场分割 2.社交网络分析 3.组织电脑集群 4.天文数据分析

K-Means算法

K-Means算法是最广泛应用的自动分类算法。 具体过程如下 1.随机在数据集合中初始化两个点,叫做聚类中心 2.将整个集合分为两个子集,一个是对于中心1较近的点,一个是对中心2较近的点 3.将划分好的集合中的点求出一个平均值,把聚类中心移到这个点 4.重复2和3过程

优化算法

随机赋值

我们的算法有时会在局部最优解停留,我们需要做的是重复随机赋值几次,来确保取到全局最优解。

选择聚类的数量

绘制代价曲线J和聚类数量k的图像,在代价曲线扁平化的那个点选择K的数量。 代价函数J的公式如下
%e9%9b%86%e7%be%a4%e4%bb%a3%e4%bb%b7%e5%87%bd%e6%95%b0 其中: c(i)表示x(i)当前属于的集群的序号 uk 表示集群中心k uc(i) 表示x(i)属于集群的集群中心

维度下降

有时候一个数据有多个维度的数据,但是我们为了一些需求,会想办法降低其维度,主要场景有两个 1.数据压缩 2.数据可视化

PCA问题分析公式

最常见和常用的维度下降算法就是PCA(Principal Component Analysis)

问题描述

这类问题是为了用一条线来同时描述多个特征,以及适配新的特征。 PCA的目的就是为了让每个点到这条线的投射距离的平均值最小。

PCA并不是线性回归

在线性回归中,我们计算的是每个点的方差 在PCA中,我们计算的是每个点到线上的距离最小值

PCA算法

1.给出训练样本集合 2.均值化训练集合
%e5%9d%87%e5%80%bc%e5%8c%96 3.让每个样本减去均值化结果%e5%9d%87%e5%80%bc%e5%8c%96%e6%9b%bf%e4%bb%a3 4.将处于不同规格范围的特征处理为可比较的范围内

如何降低维度

首先计算协方差矩阵
%e5%8d%8f%e6%96%b9%e5%b7%ae%e7%9f%a9%e9%98%b5%e8%ae%a1%e7%ae%97 然后使用SVD(奇异值分解)算法得到U,S,V 然后取U的前x列作就是我们的结果

扫描二维码推送至手机访问。

版权声明:本文由u3blog发布,如需转载请注明出处。

本文链接:https://u3blog.xyz/?id=599

分享给朋友:

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。