1-机器学习初入
1.监督学习
监督学习是一种机器学习方法,在训练模型时,使用的是已标注的数据。这意味着每个训练样本都有一个已知的目标输出(标签)。模型通过学习输入与输出之间的关系,来预测新的未标注数据的输出。简单来说就是输出结果是来源于一直的数据集和标注数据带来的指引学习而得出的结果。
我们用一个例子介绍什么是监督学习把正式的定义放在后面介绍。假如说你想预测房价。
🌰 前阵子,一个学生从波特兰俄勒冈州的研究所收集了一些房价的数据。你把这些数据画出来,看起来是这个样子:横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是千美元。那基于这组数据,假如你有一个朋友,他有一套750平方英尺房子,现在他希望把房子卖掉,他想知道这房子能卖多少钱。
我们应用学习算法,可以在这组数据中画一条直线,或者换句话说,拟合一条直线,根据这条线我们可以推测出,这套房子可能卖$15000,当然这不是唯一的算法。可能还有更好的,比如我们不用直线拟合这些数据,用二次方程去拟合可能效果会更好。根据二次方程的曲线,我们可以从这个点推测出,这套房子能卖接近$20000。稍后我们将讨论如何选择学习算法,如何决定用直线还是二次方程来拟合。两个方案中有一个能让你朋友的房子出售得更合理。这些都是学习算法里面很好的例子。以上就是监督学习的例子。
可以看出,监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成。在房价的例子中,我们给了一系列房子的数据,我们给定数据集中每个样本的正确价格,即它们实际的售价然后运用学习算法,算出更多的正确答案。比如你朋友那个新房子的价格。用术语来讲,这叫做回归问题。我们试着推测出一个连续值的结果,即房子的价格。
特点:
-
数据要求:需要带有标签的训练数据。
-
目标:训练模型,使其能够根据已知数据的特征和标签预测未知数据的标签。
-
应用场景:用于分类(Classification)和回归(Regression)任务。
2.无监督学习
无监督学习是一种机器学习方法,在训练模型时,使用的是未标注的数据。即训练数据没有目标输出或标签,模型的目标是从数据中发现潜在的结构或模式。
对于监督学习里的每条数据,我们已经清楚地知道,训练集对应的正确答案了。
在无监督学习中,我们已知的数据。看上去有点不一样,不同于监督学习的数据的样子,即无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。所以我们已知数据集,却不知如何处理,也未告知每个数据点是什么。别的都不知道,就是一个数据集。
无监督学习就能判断出数据有两个不同的聚集簇。这是一个,那是另一个,二者不同。是的,无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。事实证明,它能被用在很多地方。常见的无监督聚类例子:谷歌新闻每天都在,收集非常多,非常多的网络的新闻内容。它再将这些新闻分组,组成有关联的新闻。所以谷歌新闻做的就是搜索非常多的新闻事件,自动地把它们聚类到一起。所以,这些新闻事件全是同一主题的,所以显示到一起。
特点:
-
数据要求:数据不需要标签。
-
目标:通过数据中的结构、模式、相似性等进行聚类或降维,揭示数据的内在规律。
-
应用场景:主要用于聚类(Clustering)和降维(Dimensionality Reduction)任务。
3.损失函数
损失函数也称为代价函数(),是机器学习和深度学习中非常重要的一个概念,它用于衡量模型预测值与真实值之间的差距。通过优化损失函数,我们可以训练模型使其逐渐减少误差,提高预测准确性。
损失函数用于评估模型参数指导训练的结果与真实结果之间的误差,我们当然是希望其越小越好,损失函数的设计是为了让模型选择更合适的参数,参数决定了我们得到的模型结果相对于我们的训练集的准确程度,模型所预测的值与训练集中实际值之间的差距(下图中蓝线所指)就是建模误差