济南市 禹州市 宜州市 黄平县 叙永县 通河县 临泉县 凤台县 左云县 达州市 天全县 石景山区 连平县 凉城县 宁远县 延寿县

文章导航软件下载单机游戏安卓资源苹果资源

pc软件新闻网络操作系统办公工具编程服务器软件评测

安卓新闻资讯应用教程刷机教程安卓游戏攻略tv资讯深度阅读综合安卓评测

苹果ios资讯苹果手机越狱备份教程美化教程ios软件教程mac教程

单机游戏角色扮演即时战略动作射击棋牌游戏体育竞技模拟经营其它游戏游戏工具

网游cf活动dnf活动lol周免英雄lol礼包

手游最新动态手游评测手游活动新游预告手游问答

您的位置:单机游戏角色扮演 → 怪物猎人世界新装备介绍 怪物猎人世界新装备新系统一览

帝都_信息论随笔3: 交叉熵与TF-IDF模型

标签:丰川悦司 时时彩送彩金提现100元

接上文:信息论随笔2: 交叉熵、相对熵,及上上文:信息论随笔

在读《数学之美》的时候,相关性那一节对TF-IDF模型有这样一句描述:“其实 IDF 的概念就是一个特定条件下、关键词的概率分布的交叉熵(Kullback-Leibler Divergence)”;

当时尚不明白,等我看懂交叉熵与相对熵之后,再看TF-IDF,略有所获,本想与上一篇合写在一起的加速世界_2018年最新新闻网,但越写越多,于是单独成文;

文档的信息量

一篇文档由m个词组成

( d = (w_{1}, w_{2}, w_{3}, ......, w_{m} ) )

这篇文档d成文的概率是

( p(d) = p(w_{1}, w_{2}, w_{3}, ......, w_{m}) )

这篇文档d的自信息量是

( I(d) = -log_{2}p(d) = -log_{2}p(w_{1}, w_{2}, w_{3}, ......, w_{m}) )

假设1:每个词的出现是独立事件,则有

(p(w_{1}, w_{2}, w_{3}, ......, w_{m}) = p(w_{1})p(w_{2})p(w_{3})......p(w_{m}) )

这篇文档d的自信息量是

( I(d) =-log_{2}p(w_{1}, w_{2}, w_{3}, ......, w_{m}) = -log_{2}p(w_{1})-log_{2}p(w_{2})-log_{2}p(w_{3}) ...... -log_{2}p(w_{m}) )

( = I(w_{1}) + I(w_{2}) + I(w_{3}) + ...... + I(w_{m}) )

至此,得到一个很显而易见的结论,结论1:在假设1条件下,一篇文档的信息量是组成它的所有词的信息量之和

再考虑到词可能出现重复,设m个词中共有k个不重复词,每个词的重复次数是( n_{k} 快递爱心汤有怪味_2018年最新新闻网),则:

这篇文档d的自信息量是

( I(d) = n_{1}I(w_{1}) + n_{2}I(w_{2}) + n_{3}I(w_{3}) + ...... + n_{k}I(w_{k}) )

( = sumlimits_{i=1}^{k}n_{i}I(w_{i}) )

词的概率分布估计

在上面文档信息量公式中,需要计算每个词的自信息量,但事实上这是做不到的,因为一个词在语言中的真实概率分布是不可知的,只能进行估计;

设我们估计得到的词概率分布为q;通常求q的方法可以是统计一个比较大的语料库中各个词的出现概率,为了迎合IDF是KL散度的一说法,我只能再把《数字之美》中的两个假设拉进来;

假设2:每篇文档大小基本相同,都为m个词;

假设3:一个词如果出现在文档中,则在每个文档中出现的次数都相同;(注:我也觉得这个假设太过理想了)

有了以上假设后,我们可以估计每个词的概率分布进而求解其信息量了;

设共有D篇文档,每篇文档有m个词,其中包含词(w_{i})的文档有(D(w_{i}))篇,有:

( q(w_{i}) = frac{n_{i}D(w_{i})}{mD})

设词(w_{I})在文档d中的真实概率分布为p",于是:

( p"(w_{i}) = frac{n_{i}}{m} )

然后把p"、q套进相对熵公式:

( D_{KL}(p" || q) = sumlimits_{i=1}^{k}p"(w_{i})log_{2}frac{p"(w_{i})}{q(w_{i})} )

( =sumlimits_{i=1}^{k}frac{n_{i}}{m}log_{2}frac{n_{i}/m}{ n_{i}D(w_{i})/mD} )

( =sumlimits_{i=1}^{k}frac{n_{i}}{m}log_{2}frac{1}{D(w_{i})/D} )

( =sumlimits_{i=1}^{k} TF(w_{i})IDF(w_{i}) )

由此得到一个结论,结论2:利用假设1、2、3条件下的词概率分布估计一个文档中某个词W的可能性所多产生的不确定性就是d中所有词的TF-IDF之和

这个结论2写得有点拗口,只是尽力让结论成一句话,下面试着多写几句话进行解释:

  1. 首先,这个结论基于特定的条件,即假设1、2、3所设定的条件;
  2. 在这个特定条件下,我们得到了一种双城记_2018年最新新闻网关于词概率分布的估计q;
  3. 用q去估计文档d中某个词W的可能性是浪费的,因为q几乎不可能与文档d中的真实词概率分布p"相同,交叉熵大于等于信息熵,即相对熵恒大于0;
  4. 以上相对熵是描述d中的某个词时的相对熵(多出来的不确定度);重要的事情说三遍,某个词、某个词、某个词;
  5. 对文档d中的所有词求TF-IDF之和,就是这个相对熵;
  6. 每个词的TF-IDF,是对这个相对熵的贡献,其中IDF是对相对熵的关键贡献值,TF是个权重;这应该就是吴军在《数学之美》中所讲的“IDF 的概念就是一个特定条件下、关键词的概率分布的交叉熵(Kullback-Leibler Divergence)”,只不过在中英文对照上出了问题,KL散度应该对应是相对熵,而相对熵与交叉熵在很多时候又分不清楚;
  7. 当这个相对熵(TF-IDF之和)越大,q对文档d的描述央视航拍钓鱼岛_2018年最新新闻网越差,说明文档d的内容指向性越强,因为q是对整个语言中所有词的概率分布的估计;当这个相对熵越小(TF-IDF之和)越小,q对文档d的描述越好,说明文档d的内容指向性越差,越可能是随机按q选取词堆砌成文;

词交叉熵与文档估计信息量

上面既然推算出了相对熵,那再来看看交叉熵;

同样将p"、q带入交叉熵公式:

( H(p", q) = -sumlimits_{i=1}^{k}p"(w_{i})log_{2}q(w_{i}) )

( = sumlimits_{i=1}^{k}frac{n_{i}}{m} I"(w_{i}) , 设 I"(w_{i}) = -log_{2}q(w_{i}) )

( = frac{1}{m} sumlimits_{i=1}^{k} n_{i}I"(w_{i}) )

( = frac{1}{m} I"(d) )

即:

( I"(d) = mH(p", q) )

上面说过了,因为我们无法获知一个词的真实自信息量,所以无法获知文档d的真实自信息量,但我们引入假设2、3条件后,可以用q做估计,从而得到在q概率分布下,文档d的估计信息量,就是这个I"(d);

这个I"(d)为啥是交叉熵的m倍?还记得上面那个说三遍吗,不管是这里的交叉熵还是相对熵,都是与某个词有关的熵;而文档d有m个词,当然信息量会翻m倍了;

例子:

仍然使用上一篇随笔中的例子:

含有4个字母(A,B,C,D)的数据集,组成了一篇文档d,d的内容只有两个字母“AB”,我们不知道数据集元素的真实分布p,只知在文档d内p‘=(1/2, 1/2, 0, 0);

如果使用p"来编码,H(p") = 1,每个字母使用一位编码,设定"A" = 0, "B" = 1,则d=01,文档d的编码长度为2;

根据假设2、3条件,共有12篇文档,每篇长度是2(假设2),且每个字母在所有包含它的文档中出现次数都相同(假设3),分别是

AB  AC  AD

BA  BC  BD

CA  CB  CD

DA  DB  DC

得到估计分布q=(1/4, 1/4, 1/4, 1/4),使用q来编码,则得到H(p’,q)=2,每个字母需要2位编码来识小米手机_2018年最新新闻网为4;

字母的交叉熵是2,相对熵是1,文档d的估计信息量为4;

IDF(A) = log(12/6) = 1,IDF(B) = log(12/6) = 1;

TF(A)*IDF(A) + TF(B) *IDF(B) = 1/2* 1 + 1/2 * 1 = 1,与相对熵相等;

当前文章:http://hf7utq31-youzaijing-com.piebio.cn/7g7/05285_152594.html

发布时间:2019-09-19 14:22:20

银河娱乐官网yh163am.com  中兴提交关于暂停执行拒绝令的申请  银河娱乐手机版yh163am.com  澳门银河娱乐yh163am.com  银河优越会会员申请  澳门银河娱乐送彩金网站  银河国际中心游戏厅2018年诺贝尔文学奖取消!历史上曾有7次暂停颁奖  2288银河主站线路检测  银河娱乐手机版yh163am.com  澳门银河yh7788.bet  

相关阅读 动漫星空晚报:《食戟之灵》学园新秩序大小姐威严坐镇 《名侦探柯南》票房突破75亿日元前端测试框架Jest系列教程 -- Expect(验证)北京物资学院MBA调剂:构建物流流通专业翘楚院校路透社:中国监管机构仍在审查高通收购恩智浦交易为打击“仿冒”公立医院,百度向网友征集医院简称浅析Javascript单例模式史上最强!美图T9手机新增微软AI语音控制拍照技术《食戟之灵》264话图透:男主出征讨逆 大小姐威严坐镇

文章评论
发表评论

热门文章 引爆“抢才大战”的武汉晒成绩单:半年14万毕业生落户金家胜:京西矿山“补山匠”《逍遥情缘》夏日深海捕个鱼 顺便拿本高书曝微软正在谈判收购GitHub

最新文章 诺基亚出售数字健康业务,技术部门主管离职四川女子公招复试被拒录:自考法律专业不属法学类 小米8发布会前瞻:除了小米手机,还有其他值得期待的摩拜单车进军墨西哥市场,但惨遭盗窃商汤科技:已完成6.2亿美元C+轮融资,估值超45亿美元小步快跑的公司可以最简化操作直接通过log4net将日志写入ElasticSearch

人气排行 今日头条:已对腾讯的不正当竞争行为提出诉讼乘客不按时付款?美团打车上线垫付功能中国联通联合OPPO推O粉卡:月租低至9元,全国流量1元1GB抛开硬件和系统,苹果WWDC的意义究竟在哪?四川美术学院上万件毕业作品展 开启艺术盛宴上海圆明园路拍照1小时收费2万元 物业:是服务费2017年四六级口语考试报名ing,揭秘流程题型金家胜:京西矿山“补山匠”