1. 首页
  2. Python

python实战,中文自然语言处理,应用jieba库来统计文本词频

“u003Cdivu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F15335380082693ec7caac1a” img_width=”1280″ img_height=”961″ alt=”python实战,中文自然语言处理,应用jieba库来统计文本词频” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Ch1u003E模块介绍u003Cu002Fh1u003Eu003Cpu003E安装:pip install jieba 即可u003Cu002Fpu003Eu003Cpu003Ejieba库,主要用于中文文本内容的分词,它有3种分词方法:u003Cu002Fpu003Eu003Cpu003E1. 精确模式, 试图将句子最精确地切开,适合文本分析:u003Cu002Fpu003Eu003Cpu003E2. 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;u003Cu002Fpu003Eu003Cpu003E3. 搜索引擎模式,在精确模式的基础上,对长词再词切分,提高召回率,适合用于搜索引擎分词。u003Cu002Fpu003Eu003Cpu003E我们用个小例子演示下u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F1533539009160250e883e79″ img_width=”1279″ img_height=”155″ alt=”python实战,中文自然语言处理,应用jieba库来统计文本词频” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E这上面的小例子中我们看到了一个问题,如果我们只是简简单单的将所有词切分出来,然后去统计它们出现的次数,那么你会发现,其中的“是”,“的”等等词语以及各种标点符号是出现频率最高的,那么这里有2种方式,1是直接去掉长度为1的所有词语,比如上面所说的“是”,“的”或者标点符号等等,还有一种呢,是用到了TF-IDF技术u003Cu002Fpu003Eu003Cblockquoteu003Eu003Cpu003ETF-IDF (term frequency-inverse document frequency)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术,比较容易理解的一个应用场景是当我们手头有一些文章时或者微博评论,我们希望计算机能够自动地进行关键词提取。而TF-IDF就是可以帮我们完成这项任务的一种统计方法。u003Cstrongu003E它能偶用于评估一个词语对于一个文集或一个语料库中的其中一份文档的重要程度。这个方法又称为”词频-逆文本频率”。u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cu002Fblockquoteu003Eu003Cpu003E不好理解的话,我们一样来写一个小例子:u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F15335407013629396a0c505″ img_width=”931″ img_height=”364″ alt=”python实战,中文自然语言处理,应用jieba库来统计文本词频” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003EwithWeight=True 参数为是否返回权重值,默认是关闭的,我们直接打印出所有词和它对于的权重,就可以用于计算了!u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002F1533541495476ec13f5de01″ img_width=”1024″ img_height=”722″ alt=”python实战,中文自然语言处理,应用jieba库来统计文本词频” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Ch1u003E小说词频分析u003Cu002Fh1u003Eu003Cpu003E简单的写个小demo,分析小说的词频,并将前10个打印出来!篇幅有限,就以《天龙八部》的第1章为例,大概有4万多个字符,直接上代码了!u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F15335454653345c359401e2″ img_width=”982″ img_height=”621″ alt=”python实战,中文自然语言处理,应用jieba库来统计文本词频” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Cpu003E在第425行,进行分词,然后将结果进行遍历(426-433行),遍历中,剔除单个字符,每个词语和它所出现的次数写入字典,第434、435行将字典转化为元组所组成的列表,并依据出现次数进行排序,然后遍历列表,取出前10名。u003Cu002Fpu003Eu003Cpu003E第二段代码(441-445行)是依据权重取出了关键词,可以看出,这章小说,主要讲的就是段誉的事情了,不论是权重还是词频都是他最高。。。u003Cu002Fpu003Eu003Cpu003E文本内容有大概400多行,就折叠了,大家可以直接套用代码,自己试试。u003Cu002Fpu003Eu003Cdiv class=”pgc-img”u003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002F1533545143116036c939f6c” img_width=”1280″ img_height=”832″ alt=”python实战,中文自然语言处理,应用jieba库来统计文本词频” inline=”0″u003Eu003Cp class=”pgc-img-caption”u003Eu003Cu002Fpu003Eu003Cu002Fdivu003Eu003Ch1u003E后记u003Cu002Fh1u003Eu003Cpu003E今天的分享就这些了,python的自然语言处理其实还有好多内容,比如停止词的使用,词性等等好多,大家如果有兴趣,可以来找我一起深入学习!u003Cu002Fpu003Eu003Cu002Fdivu003E”

原文始发于:python实战,中文自然语言处理,应用jieba库来统计文本词频

主题测试文章,只做测试使用。发布者:敢吻,转转请注明出处:http://www.cxybcw.com/13248.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code