在信息论中,熵是对不确定性的一种度量。信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。
熵权法是一种客观附权法,因为它仅仅依赖于数据本身的离散型(离散型数据类似于整数,比如人数等)。本文主要讲述用熵值来判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响(权重)越大。
1.对$n个$样本,$m$个指标,则$x_{ij}$为第$i$个样本的第$j$个指标的数值
($i=1,…n;j=1,…,m$);
2.将评价矩阵归一化处理后得到$y_{ij}$ ,其计算公式如下:$y_{ij}= \frac{x_{ij}-min(x_j)}{max(x_j)-min(x_j)}$, ps:$x_j$代表该数据对应的列
3.求各指标的信息熵
据信息论中信息熵的定义,一组数据的信息熵为$E_j=-\frac{1}{ln n}\sum\limits_{i=1}^n(a_{ij} *ln(a_{ij}))$
ps:定义$a_{ij}=0$, 相应的$ln(a_{ij})=0$
4.确定各指标权重
据信息熵的计算公式,计算出各个指标的信息熵$E_1,E_2,..,E_k$,通过信息熵计算各指标的权重:$W_i=\frac{1-E_i}{k-\sum(E_i)}$,$(i=1,2,..,k)$.
1.数据标准化
表1 四个森林五个评价指标得分表
森林可燃物 | 气候条件 | 火源 | 地形因素 | 林区管理 | |
---|---|---|---|---|---|
加州森林 | 100 | 100 | 89 | 100 | 80 |
黄石森林 | 100 | 100 | 87.9 | 96.8 | 87 |
大烟山森林 | 90 | 80 | 90 | 80 | 85 |
亚利桑那森林 | 85.7 | 97 | 80 | 85 | 80 |
表2 四个森林五个评价指标得分标准化表
森林可燃物 | 气候条件 | 火源 | 地形因素 | 林区管理 | |
---|---|---|---|---|---|
加州森林 | 1 | 1 | 0.9 | 1 | 0 |
黄石森林 | 1 | 1 | 0.79 | 0.84 | 1 |
大烟山森林 | 0.301 | 0 | 1 | 0 | 0.71 |
亚利桑那森林 | 0 | 0.85 | 0 | 0.25 | 0 |
2.求各指标的信息熵
根据信息熵的计算公式,可以得出5项指标各自的信息熵如下:
$X_1$ | $X_2$ | $X_3$ | $X_4$ | $X_5$ | |
---|---|---|---|---|---|
信息熵 | 0.26 | 0.1 | 0.203 | 0.356 | 0.173 |
3.计算各指标的权重
根据指标权重计算公式$W_i=\frac{1-E_i}{n-\sum(E_i)}(i=1,2…5)$,得到各个指标的权重表如下:
$X_1$ | $X_2$ | $X_3$ | $X_4$ | $X_5$ | |
---|---|---|---|---|---|
权重 | 0.189 | 0.23 | 0.204 | 0.165 | 0.212 |
4.计算各样本的得分
根据计算出的指标权重,以及得分表。设$z_l$为第$l$个样本的最终得分,则$Z_l=\sum\limits_{n=1}^5x_{ij}*w_i $,最后各森林的得分情况如下
森林 | 加州 | 黄石森林 | 大烟山森林 | 亚利桑那森林 |
---|---|---|---|---|
得分 | 93 | 94 | 84 | 85 |
ps:上述所有计算均由excel计算所得,最近发现excel在普通计算方面还是挺有作用的呢。