机器学习绪论学习(一) | StriveZs的博客

机器学习绪论学习(一)

什么是机器学习?

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论凸分析算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

基本术语:
  1. 目标:使得学得的模型能很好的适用于“新样本”,而不仅仅在训练样本上工作得很好,即便是对聚类这样的无监督学习,也希望学得的聚划分能适用于没在训练集中出现的样本。
  2. 样本(示例、特征向量): 数据集中的每个记录称之为样本或者示例。
  3. 属性空间(样本空间、输入空间):样本属性张成的空间称为属性空间(样本空间、输入空间),每个样本对应空间中的一个点,故而一个示例也称为一个“特征向量”。
  4. 模型:模型也称为学习器,可看作学习算法在给定数据集和参数空间的实例化。
  5. 学习:从数据中学得模型的过程称为“学习”或“训练”,这个过程通过执行某个学习算法来完成。
  6. 训练集:训练过程中使用的数据称为训练数据,训练样本组成的集合称为训练集。学得的模型对应了关于数据的某种潜在的规律,因此称为“假设”。这种潜在规律自身,则是称为真相或真实,学习过程就是为了找出或逼近真相。训练集通常是样本空间中很小的一个采样。
  7. 测试:学得模型后,使用其进行预测的过程称为“测试”,被测试的样本称为测试样本。
  8. 监督学习与无监督学习:根据训练数据是否拥有标记信息,学习任务可以分为两类,监督学习和无监督学习:分类和回归是前者的代表,聚类是后者的代表(学习过程中使用的训练样本通常不拥有标记信息)。
  9. 泛化 : 学得模型适用于新样本的能力,称为“泛化”能力,具有强泛化能力的模型能很好地适用整个样本空间。
  10. 假设:通过学习得到的模型对应了假设空间中的一个假设。
  11. 学习过程:通常假设样本空间中全体样本服从一个未知分布,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”。一般而言,训练样本越多,我们得到的关于该未知分布的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。
  12. 概念学习:概念学习(归纳学习)的目标就是泛化,即是通过对训练集中的训练样本进行学习以获得对测试集进行判断的能力。
  13. 归纳学习:“从样例中学习”显然是一个归纳过程,称之为归纳学习。
  14. 归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好我们称之为“归纳偏好”,简称“偏好”。
  15. 聚类:将训练集中的个体分成若干组,每一组称为一个簇;这些自动形成的簇可能对应一些潜在的概念划分。
  16. 训练:从数据中学的模型的过程称为“学习”或者“训练”。每一个样本称为训练样本。
  17. 在某些书籍中将模型称为“学习器”。
  18. 样例:拥有标记信息的示例。
  19. 归纳学习亦有广义和狭义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学习概念,称之为概念学习。
  20. 版本空间:一个与训练集一直的“假设集合”,我们称之为“版本空间”

StriveZs wechat
Hobby lead  creation, technology change world.
  • Post author: StriveZs
  • Post link: 347.html
  • Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 3.0 unless stating additionally.