jieba学习-白红宇

jieba学习

阅读量：4593 次

发布时间：2019-06-09

本文共 1469 字，大约阅读时间需要 4 分钟。

安装jieba pip install jieba/或Spyder中安装，需在anaconda promote中conda install jieba

jieba中默认精准模式2

1、全模式

import jiebasentence="我喜欢上海东方明珠"#cut_all设置模式，Ture全模式w1=jieba.cut(sentence,cut_all=True)#结果通过循环显示for item in w1:print(item)

2、精准

import jiebasentence="我喜欢上海东方明珠"#cut_all设置模式，False精准模式w2=jieba.cut(sentence,cut_all=False)for item in w2:    print(item)print("")

3、使用搜索引擎切分：cut_for_search

w3=jieba.cut_for_search(sentence)for item in w3:    print(item)

词性标注posseg

import jieba.possegsentence2=("天善智能公司是很好的机构")w5=jieba.posseg.cut(sentence2)#.flag属性调用词性  #word调用词语  for i in w5:    print(i)#print(item.word+"---"+item.flag)a:形容词c:连词d:副词e:叹词f:方位词i:成语m:数次n:名词nr:人名ns:地名nt:机构团体nz:其他专有名词p:介词r：代词t:时间u:助词v:动词vn:动名词w,标点符号un:未知词语

词典加载：(别忘了编码)utf-8

jieba.load_userdict("新建文件地址")sentence2="天善智能公司是很好的机构"w6=jieba.cut(sentence2)for item in w6:    print(item)#加在原来的词典dict中，会持久性输出#加在自己建的词典里，不会

更改词频

sentence="我喜欢上海东方明珠"w7=jieba.cut(sentence)for i in w7:    print(i)jieb.suggest_freq("上海东方",True)w8=jieba.cut(sentence)for item in w8:    print(item)

返回文本中频数多的词语

sentence="我喜欢上海东方明珠"#提取关键词tag=jieba.analyse.extract_tags(sentence,3)print(tag)

返回词语位置

sentence="我喜欢上海东方明珠"w9=jieba.tokenize(sentence)for item in w9:    print(item)w10=jieba.tokenize(sentence,mode="search")for item in w9:    print(item)

实战：提取盗墓笔记中的关键字

import jieba.analysedata=open("C:/Users/。。。。/Desktop/shenmmingzi/dmbj.txt").read()tag=jieba.analyse.extract_tags(data,20)print(tag)

转载于:https://www.cnblogs.com/qiuyuyu/p/9158070.html

你可能感兴趣的文章

zabbix 分布式监控（proxy）源码安装

查看>>

Jmeter Web 性能测试入门 (五)：Jmeter 参数化 Request

Java中this关键字在构造方法中的使用

查看>>

使用vue-router进行页面切换时滚动条位置与滚动监听事件

查看>>

UVA1635 Irrelevant Elements —— 唯一分解定理 + 二项式定理

查看>>

51Nod 1089 最长回文子串 V2 —— Manacher算法

Unit06 - 抽象类、接口和内部类（下）、面向对象汇总

（转载）Android之有效防止按钮多次重复点击的方法(必看篇)

Spring（三）--Spring bean的生命周期

查看>>