安装jieba pip install jieba/或Spyder中安装,需在anaconda promote中conda install jieba
jieba中默认精准模式21、全模式import jiebasentence="我喜欢上海东方明珠"#cut_all设置模式,Ture全模式w1=jieba.cut(sentence,cut_all=True)#结果通过循环显示for item in w1:print(item)
2、精准
import jiebasentence="我喜欢上海东方明珠"#cut_all设置模式,False精准模式w2=jieba.cut(sentence,cut_all=False)for item in w2: print(item)print("")
3、使用搜索引擎切分:cut_for_search
w3=jieba.cut_for_search(sentence)for item in w3: print(item)
词性标注posseg
import jieba.possegsentence2=("天善智能公司是很好的机构")w5=jieba.posseg.cut(sentence2)#.flag属性调用词性 #word调用词语 for i in w5: print(i)#print(item.word+"---"+item.flag)a:形容词c:连词d:副词e:叹词f:方位词i:成语m:数次n:名词nr:人名ns:地名nt:机构团体nz:其他专有名词p:介词r:代词t:时间u:助词v:动词vn:动名词w,标点符号un:未知词语
词典加载:(别忘了编码)utf-8
jieba.load_userdict("新建文件地址")sentence2="天善智能公司是很好的机构"w6=jieba.cut(sentence2)for item in w6: print(item)#加在原来的词典dict中,会持久性输出#加在自己建的词典里,不会
更改词频
sentence="我喜欢上海东方明珠"w7=jieba.cut(sentence)for i in w7: print(i)jieb.suggest_freq("上海东方",True)w8=jieba.cut(sentence)for item in w8: print(item)
返回文本中频数多的词语
sentence="我喜欢上海东方明珠"#提取关键词tag=jieba.analyse.extract_tags(sentence,3)print(tag)
返回词语位置
sentence="我喜欢上海东方明珠"w9=jieba.tokenize(sentence)for item in w9: print(item)w10=jieba.tokenize(sentence,mode="search")for item in w9: print(item)
实战:提取盗墓笔记中的关键字
import jieba.analysedata=open("C:/Users/。。。。/Desktop/shenmmingzi/dmbj.txt").read()tag=jieba.analyse.extract_tags(data,20)print(tag)