[W1]机器学习的概念以及最简单的算法
什么是机器学习
Tom Mitchell provides a more modern definition: "A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E."
简单翻译一下就是,有任务T,经验E,结果P,当经验E增加时,一个计算机程序对任务T的结果P会越来越准确。
机器学习的分类
机器学习主要分为两个大类,监督学习和非监督学习。下面来简单总结一下。
监督学习
监督学习是指,在这一类的问题之中,我们的学习结果分类是已经明确的,比如,判断一封邮件是否为垃圾邮件,我们已经明确了结果的分类,是或者不是。
非监督学习
对应监督学习,非监督学习是指这样的问题当中,结果是没有明确划分的,比如,给出一大堆新闻,将内容相近的新闻划分出来,进行归类,这时我们的结果是不确定的,随着我们给出的文章进行变换。
最简单算法
一元线性回归
这种问题只有一个变量,从公式上来讲就是我们最常见的一元函数
y = θ0 + θ1x
代价函数
代价函数是指这样一个函数,它表示了使用输入X所得出的结果y与实际输入的结果y之间的平均偏差值。
从定义可以得出,我们希望代价函数越接近0越好,这时代表着我们的输入X通过公式得出的结果能够完全符合实际结果Y.
对于一元线性回归,我们的代价函数可以写为:
从最后的一个公式来看,我们可以理解为,使用现有的参数[θ0,θ1],我们得到的结果与实际结果的差的平方的均值。
梯度下降法寻找参数最小化代价函数