intellij idea汉化 CGLib动态代理 分布式 multithreading magento installation ssh swift3 ionic3 drupal7 vue官方下载 jquery的点击事件 pr序列设置哪个好 matlab求矩阵最大值 mysql分区表优劣分析 汇编语言clr python生成随机数 python文件写入 python获取输入 javatrim java的数据类型 java基础学习 java怎么配置 linux密码忘记 php实例 html实例教程 迷宫解锁 onenote2003 源计划卡特 rar去广告 ps怎么插入表格 程序员面试宝典 backtrack3 画图怎么添加文字 windowsjs延时函数 xmind画流程图 java表白代码 编程之家 视频字幕制作软件 linux系统下载
当前位置: 首页 > 学习教程  > 编程语言

机器学习深版03:决策树和随机森林

2020/12/5 9:37:56 文章标签:

机器学习深版03:决策树和随机森林 文章目录机器学习深版03:决策树和随机森林1. 信息熵1.熵2. 条件熵H3. 相对熵D(互熵、交叉熵、鉴别信息)4. 互信息I(与信息增益本质一样)5.整理得到的等式6. 相互关系2. 决…

机器学习深版03:决策树和随机森林

文章目录

  • 机器学习深版03:决策树和随机森林
    • 1. 信息熵
      • 1.熵
      • 2. 条件熵H
      • 3. 相对熵D(互熵、交叉熵、鉴别信息)
      • 4. 互信息I(与信息增益本质一样)
      • 5.整理得到的等式
      • 6. 相互关系
    • 2. 决策树
      • 1. CART:基尼系数
        • 1. gini系数
      • 2. ID3:信息增益
      • 3. C4.5:信息增益率
      • 4.区别与联系
    • 3. Bagging 与 随机森林

1. 信息熵

1.熵

熵越小,样本集合的不纯度越低;熵越小,知识的不确定性越小。
理解:越不可思议的事件发生了,给人带来的信息量就越大。
在这里插入图片描述
在这里插入图片描述

2. 条件熵H

H(Y|X)表示在已知随机变量X的条件下,随机变量Y的不确定性。
在这里插入图片描述

3. 相对熵D(互熵、交叉熵、鉴别信息)

相对熵:可以度量两个随机变量的距离,如果是实际与预测之间,则让它越小越好。
设偏p(x)、q(x)是X取值中的两个概率分布,则p(x)对q(x)的相对熵定义:
在这里插入图片描述

4. 互信息I(与信息增益本质一样)

两随机变量的公共信息。
相互独立结果就是0,不独立的话就是非零。
在这里插入图片描述
两个随机变量X、Y的互信息定义:
在这里插入图片描述
在这里插入图片描述

5.整理得到的等式

结论:给了Y这个条件,X的不确定性不会增大,可能减少可能不变。
在这里插入图片描述

6. 相互关系

Venn图表示熵、条件熵与互信息之间的关系。

2. 决策树

优点:训练速度快
示例:决策树就是建立一棵熵不断减少的树,但是不一定会让他最后为0,因为可能会过拟合。
和梯度下降一样,都可以理解为一种贪心算法。
在这里插入图片描述

1. CART:基尼系数

Classification and Regression Trees 分类与回归树
CART和C4.5之间主要差异在于分类结果上,CART可以回归分析也可以分类,C4.5只能做分类;C4.5子节点是可以多分的,而CART是无数个二叉子节点;

(1) 设结点的训练数据集为D,计算现有特征对该数据集的基尼指数.此时,对于每个特征,每次取其中一个每个可能取得值,根据样本点对该值的测试结果为”是”或”否”将D分成2部分,并计算基尼指数.
(2) 在所有可能的特征,以及他们所有可能的切分点中,选择基尼指数最小的特征,该选择的特征为最优特征,该特征中的切分点为最优切分点,依照最优特征和最优切分点生成二叉树,并把训练数据集分配到子节点中。
(3)对两个子节点递归调用 (1) (2) ,直至满足停止条件
(4)生成CART决策树。

1. gini系数

本质是用一条直线段代替曲线段的近似。一阶近似。
与经济学上的gini系数不一样。
两个东西不区分好坏都能用。
在这里插入图片描述

2. ID3:信息增益

与CART不同,ID3计算信息增益,C4.5计算信息增益比,首先求所有特征的信息增益或信息增益比,其中计算的数值是针对每一个特征,不将特征划分,而后以该特征将树延伸,在父节点确定的条件下,继续对子节点求所有特征的信息增益,后在划分。

3. C4.5:信息增益率

C4.5是基于ID3优化后产出的算法,主要优化了关于节点分支的计算方式,优化后解决了ID3分支过程中总喜欢偏向取值较多的属性。
在这里插入图片描述

4.区别与联系

ID3和C4.5用于分类,CART可用于分类与回归
ID3和C4.5生成的决策树可以是多叉的,每个节点下的叉树由该节点特征的取值种类而定,比如特征年龄分为(青年,中年,老年),那么改节点下可分为3叉。而CART为假设决策树为二叉树,内部结点特征取值为”是”和”否”。左分支取值为”是”,有分支取值为”否”。

3. Bagging 与 随机森林


本文链接: http://www.dtmao.cc/news_show_450031.shtml

附件下载

相关教程

    暂无相关的数据...

共有条评论 网友评论

验证码: 看不清楚?