Machine Learning
1、基础知识
1.1 机器学习方式
1.2 模型评估
1.2.1 错误率与精度
1.2.2 查准率与查全率
2、分类-基本算法
2.1 决策树
2.1.1 决策树的基本原理
2.1.2 决策树的三要素
2.1.3 决策树算法的优缺点
2.1.4 熵和信息增益的区别
2.1.5 剪枝处理的作用及策略
2.1.6 决策树算法-id3
2.1.7 决策树算法-c4.5
2.1.8 决策树算法-cart
3、分类-组合算法
3.1 集成学习概述
3.2 个体学习器
3.3 结合策略
3.4 Bagging和Boosting的联系与区别
3.5 Bagging
3.5.1 随机森林原理
3.6 Boosting
3.6.1 AdaBoost原理
-
+
游客
注册
登录
熵和信息增益的区别
## 1 信息熵 ### 1.1 意义 **熵**主要用于**度量随机变量的不确定性**,**熵越小表示样本对目标属性的分布越纯,反之熵越大表示样本对目标属性的分布越混乱。** ### 1.2 定义 假定 $S$ 为训练集,$S$ 的**目标属性**$C$ 具有 m 个可能的类标号值,$C={C_1,C_2,...,C_m}$,假定训练集 $S$ 中,$C_i$ 在所有样本中出现的概率为 $(i=1,2,3,...,m)$,则该训练集 $S$ 所包含的信息熵的定义为: $$ Entropy(S)=Entropy(p1,p2,...,pm)=-\sum_{i=1}^mp_i\log_2p_i $$ ## 2 分类信息熵 分类信息熵是指按某一个属性 $A$ 划分 $S$ 后的样本子集的信息熵,其定义为:假定属性 $A$ 有 $k$ 个不同的取值,从而将 $S$ 划分为 $k$ 个样本子集 ${S_1,S_2,...,S_k}$,则按属性 $A$ 划分 $S$ 后的样本子集的信息熵为: $$ Entropy_A(S)=\sum_{i=1}^k\frac{\vert S_i\vert}{\vert S\vert}Entropy(S_i) $$ 其中 $|S_i|(i=1,2,...k)$ 为样本子集 $S_i$ 中包含的样本数,$|S|$ 为样本集 $S$ 中包含的样本数。 ## 3 信息增益 ### 3.1 意义 **信息增益**主要用于衡量使用**当前特征对于样本集合 D 划分效果的好坏**。 ### 3.2 定义 **信息增益是指以某特征划分数据集前后的熵的差值。** 假设划分前样本数据集为 $S$,并用属性 $A$ 来划分样本集 $S$,则按属性 $A$ 划分 $S$ 的信息增益 $Gain(S,A)$ 为样本集 $S$ 的熵减去按属性 $A$ 划分 $S$ 后的样本子集的熵: $$ Gain(S,A)=Entropy(S)-Entropy_A(S) $$ 信息增益越大,说明使用属性 $A$ 划分后的样本子集越纯,越有利于分类。 ## 4 分裂信息量 ### **4.1 意义** **分裂信息量**主要用来**衡量属性分裂数据的广度和均匀**, 一般来说,属性的可能取值数目越大,则其对应的分类信息量越大。 ### 4.2 定义 分裂信息量的定义如下: $$ \begin{array}{l}Split(A)=-\overset k{\underset{i=1}{\sum\;}}\frac{\vert S_i\vert}{\vert S\vert}\log\frac{\vert S_i\vert}{\vert S\vert}\\\end{array} $$ 其中 $|S_i|(i=1,2,...k)$ 为样本子集 $S_i$ 中包含的样本数,$|S|$ 为样本集 $S$ 中包含的样本数。 ## 5 信息增益率 ### **5.1 意义** * **信息增益率**在**信息增益**的基础上增加了**惩罚项**,惩罚项是**特征的分裂信息量**,从而减少**信息增益对可取值数目较多的属性有所偏好**可能带来的不利影响。 * **信息增益率同时也有一个缺点,****当特征的可能取值数目较少时,分裂信息量较小**,因此其**倒数越大**,进而**信息增益率越大**,所以**信息增益率会偏向取值数目较少的特征**。 ### 5.2 定义 信息增益率的定义如下: $$ Gain\_ratio(A)=\frac{Gain(S,A)}{Split(A)} $$ ## 6 Gini指数 > Gini指数最早应用在经济学中,主要用来衡量收入分配公平度的指标。 > > 在决策树**CART算法**中用Gini指数来**衡量数据的不纯度或者不确定性**,同时用Gini指数来**确定类别变量的最优二分值的切分问题**。 在分类问题中,假设有$k$个分类,样本点属于第$k$类的概率为$P_k$,则概率分布的$Gini$指数的定义为: $$ Gini(p)=\sum_{k=1}^kp_k(1-p_k)=1-\sum_{k=1}^kp_k^2 $$ 如果样本集合$D$根据某个特征$A$被分割为$D_1$和$D_2$两个部分,那么在特征$A$的条件下,集合$D$的$Gini$指数的定义为: $$ Gini(D,A)=\frac{D_1}DGini(D_1)+\frac{D_2}DGini(D_2) $$ $Gini$指数$Gini(D,A)$表示特征$A$不同分组的数据集$D$的不确定性,**$Gini$****指数值越大,样本集合的不确定性也就越大**,这一点与熵的概念比较类似。
ricear
2021年4月2日 16:54
©
BY-NC-ND(4.0)
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码