机器学习(Machine Learning) 介绍与决策树(Decision Tree)
机器学习入门系列 是 个人学习过程中的一些记录与心得。其主要以要点形式呈现,简洁明了。
1.什么是机器学习?
一个比较概括的理解是: 根据现有的数据,预测未来
2.核心思想 : Generalization可以理解为,归纳、概括。就像是人的学习一样,找出一件事物与与一件事物的联系
3.归纳性的机器学习(Inductive machine learning)
其核心思想是使用训练数据,并从其中摸索出一套适用于现实中的公式 f。然后用这个公式来预测现实中的结果
其分为四种类型Regression 回归类型: 主要适用于预测真实数据Binary Classification : Yes 和 No 的分类问题Multiple Classification: 一对多的分类问题Ranking:相关性的排序问题
4.第一个模型:决策树决策树的核心思路:divide and conquer。 相信大家在学习 递归编程(recursion)的时候已经很熟悉了这个概念了,那就是将问题拆分到足够简单,然后解决掉它。
为了将现实中的问题转化为我们可以使用的模型,在这里我们提出几个概念feature(特性):每次决策树在做决定时要问的问题feature value (特性值):简单理解为问题的回答training data : 训练数据 > > 即有很多个例子的集合。每个例子 通常以 (x,y)形式形式出现,x 是输入数据,y是实际的结果
5.决策树的工作原理例如下面的决策树虚拟代码取自《A Course in Machine Learning》(Hal)
其核心思路是,从剩余的feature 中选择一个最有用的来提问,如果答案可以直接决定最终结果那么,跳出递归。如果没有剩余的feature 来提问那么返回默认答案。否则将整个数据一分为二,分别是yes 组合 no 组,然后分成两个分支继续递归(16,17行)。
6.Loss Function,L(y , y*)y 是真正的结果,y* 是机器预测的结果 L 代表 loss 函数。所以loss function 是用来量化错误的。根据不同类型可以分为:
Regression 回归类:Square loss: 平方损失: L(y , y*) = (y – y*)2Absolute loss: 绝对损失: L(y , y*) = |y – y*|Binary 是和否的问题 以及多组分类问题 :L(y , y*) = 0 , if y = y* (零损失)L(y , y*) = 1 , if y y*
7. 平均损失 Expected LossExpected loss = Sum(x,y)( D(x , y) * L(y , y*) )
D(x,y) 是 (x,y) 发生的概率分布,这里可以理解为(x,y)发生的概率。 所以就是期望值的一般算法, 把概率乘以损失 然后求和。
所以对于我们机器学习推导出来的方程式 f,需要Expected Loss 越低越好。
8.Inductive Bias 归纳偏见不同的模型或者方法的选择会产生不同的偏见。例如决策树会比较擅长处理单独的一个一个的问题,但是对于几个feature相互作用的问题就收效甚微。在后续文章会继续介绍不同模型的偏见,这里先提出来。
9. Shallow Decision Tree即有最大深度的 决策树,我们可以用一个深度 d 来限制决策树的最深层数
10. Underfitting 和 Overfitting这是两个非常重要的概念, Underfitting 是指的,学的不够多,例如学生什么都不学就去考试,自然不会考的好。Overfitting 是指,学生学成了书呆子,只会死记硬背,考试的题目改几个数字就完全不会做了。
在决策树里面,如果一个feature 都不问,那么就是 underfitting ,什么都不学,每次只返回训练数据里面的多数答案。如果问很多个feature 把 所有的feature都问一边就有可能 overfitting, 完全的照着训练数据在记忆而不是归纳学习。
11.数据分配
超级参数(Hyperparameters) 是指的可以影响普通参数的参数。例如 刚刚最高询问深度 d,就是一个超级参数。
12.机器学习一般方法
将数据分成 70% 的训练数据,10% 研发数据, 20% 测试数据for loop 所有的 hyperparame免费云主机域名ter (超级参数)使用训练数据,训练模型 f使用 研发数据 计算 Expected Loss (平均损失)从上面所有的 超级参数中,选择平均损失最低的那组作为最终模型使用 测试数据对最终模型进行评估
ReferenceHal, Daum III.A Course In Machine Learning. 2nd ed. Self-published, 2017. Print.
本文小编为大家详细介绍“nginx配置优化实例分析”,内容详细,步骤清晰,细节处理妥当,希望这篇“nginx配置优化实例分析”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。代码如下:读到这里,这篇“nginx免费云主机域名配置优化实例…
免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。