博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
jieba学习
阅读量:4593 次
发布时间:2019-06-09

本文共 1469 字,大约阅读时间需要 4 分钟。

安装jieba pip install jieba/或Spyder中安装,需在anaconda promote中conda install jieba

jieba中默认精准模式2
1、全模式

import jiebasentence="我喜欢上海东方明珠"#cut_all设置模式,Ture全模式w1=jieba.cut(sentence,cut_all=True)#结果通过循环显示for item in w1:print(item)

2、精准

import jiebasentence="我喜欢上海东方明珠"#cut_all设置模式,False精准模式w2=jieba.cut(sentence,cut_all=False)for item in w2:    print(item)print("")

3、使用搜索引擎切分:cut_for_search

w3=jieba.cut_for_search(sentence)for item in w3:    print(item)

词性标注posseg

import jieba.possegsentence2=("天善智能公司是很好的机构")w5=jieba.posseg.cut(sentence2)#.flag属性调用词性  #word调用词语  for i in w5:    print(i)#print(item.word+"---"+item.flag)a:形容词c:连词d:副词e:叹词f:方位词i:成语m:数次n:名词nr:人名ns:地名nt:机构团体nz:其他专有名词p:介词r:代词t:时间u:助词v:动词vn:动名词w,标点符号un:未知词语

词典加载:(别忘了编码)utf-8

jieba.load_userdict("新建文件地址")sentence2="天善智能公司是很好的机构"w6=jieba.cut(sentence2)for item in w6:    print(item)#加在原来的词典dict中,会持久性输出#加在自己建的词典里,不会

更改词频

sentence="我喜欢上海东方明珠"w7=jieba.cut(sentence)for i in w7:    print(i)jieb.suggest_freq("上海东方",True)w8=jieba.cut(sentence)for item in w8:    print(item)

返回文本中频数多的词语

sentence="我喜欢上海东方明珠"#提取关键词tag=jieba.analyse.extract_tags(sentence,3)print(tag)

返回词语位置

sentence="我喜欢上海东方明珠"w9=jieba.tokenize(sentence)for item in w9:    print(item)w10=jieba.tokenize(sentence,mode="search")for item in w9:    print(item)

实战:提取盗墓笔记中的关键字

import jieba.analysedata=open("C:/Users/。。。。/Desktop/shenmmingzi/dmbj.txt").read()tag=jieba.analyse.extract_tags(data,20)print(tag)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

转载于:https://www.cnblogs.com/qiuyuyu/p/9158070.html

你可能感兴趣的文章
zabbix 分布式监控(proxy)源码安装
查看>>
Jmeter Web 性能测试入门 (五):Jmeter 参数化 Request
查看>>
2-8
查看>>
C# 可空值类型
查看>>
JVM介绍
查看>>
Java中this关键字在构造方法中的使用
查看>>
使用vue-router进行页面切换时滚动条位置与滚动监听事件
查看>>
UVA1635 Irrelevant Elements —— 唯一分解定理 + 二项式定理
查看>>
51Nod 1089 最长回文子串 V2 —— Manacher算法
查看>>
$.ajax()方法详解
查看>>
Python基础之函数二
查看>>
null和undefined区别
查看>>
Unit06 - 抽象类、接口和内部类(下) 、 面向对象汇总
查看>>
软件测试工具
查看>>
input text 的事件及方法
查看>>
(转载)Android之有效防止按钮多次重复点击的方法(必看篇)
查看>>
简单多线程拷贝单文件v2.1
查看>>
2015.5.11站立会议
查看>>
Oracle PL/SQL编程之过程
查看>>
Spring(三)--Spring bean的生命周期
查看>>