概论

什么是机器学习

课程中提供了两种机器学习(Machine Learning)的定义:

  1. 未经过显式编程,而让计算机拥有了学习的能力。
  2. 从经验E(experience)学习,改善任务T(task)和性能度量P(performance measure)的程序。
    比如说下棋:
    E=下很多盘棋的经验
    T=下棋的任务
    P=接下来一盘棋胜利的可能性

总体来说,机器学习可以分为2类:

  • 监督式学习
  • 非监督式学习

监督式学习

被我们一个已知的数据集,已经知道正确的输出应该像什么样子,并且知道输入和输出有一个特定的关系,我们称之为监督式学习(Supervised Learning)。

监督式学习问题可以分为“回归”与“分类”问题。

  • 回归问题(regression)
    我们试图预测一个连续的输出结果,意味着我们试图将输入参数映射到一些连续性函数中。

  • 分类问题(classification)
    我们试图预测一个离散的结果,意味着我们试图将输入参数映射到离散的分类中。

  1. 例1

    给定房地产市场上房子的面积,预测价格。房价是面积的连续函数,所以这是一个回归问题。

    如果我们将问题改成这个房子能比标价卖得高还是低,那就变成了分类问题。

  2. 例2

    (a)回归 - 给定一个人的肖像,预测他的年龄。
    (b)分类 - 给定一名病人的肿瘤情况,预测肿瘤是良性还是恶性。

非监督式学习

非监督式学习(Unsupervised learning)让我们可以解决那些我们不知道结果具体是什么样子的问题。我们可以不必知道数据中每个变量的影响,而获取一些结构性的结果。

我们根据数据中变量的关系,来聚类数据。

例如:

聚类算法(Clustering):收集1千万份不同的基因集合,来找到一个来将这些基因,按照不同的变量,如寿命、地域、角色等,自动按照相似性分组的方式。

非聚类算法(Non-clustering):鸡尾酒晚会算法,可以在一个吵杂的环境中,从一团乱码的声音中,辨别每个人的声音和音乐。