结巴的中文分词支持3种模式
例子:
import jieba
seg_list = jieba.cut(s) #默认是精确模式
print("Default Mode:",'/'.join(seg_list))
s = '我来到新华大学'
seg_list = jieba.cut(s,cut_all=True) #全模式
print("Full Mode:",'/'.join(seg_list))
seg_list = jieba.cut_for_search(s) #搜索引擎模式
print("搜索引擎模式:",'/'.join(seg_list))
结果:
Full Mode: 我/来到/新华/华大/大学
Default Mode: 我/来到/新华/大学
搜索引擎模式: 我/来到/新华/大学
cut_all
用来控制分词的模式jieba.cut()返回的是一个可以迭代的生成器,可以用for循环来获得分词得到得每一个词语,也可以用list(jieba.cut(...))转化为列表。
基本用法如下:
jieba.load_userdict(file_name) # file_name 为自定义词典的路径
词典格式是一个词占一行;每一行分三部分,一部分为词语,另一部分为词频,最后一部分为词性(可省略,jieba的词性标注方式和ICTCLAS的标注方式一样。ns为地点名词,nz为其他专用名词,a是形容词,v是动词,d是副词),三部分用空格隔开。例如下面自定义词典
免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删