概述

jieba库支持三种分词模式:精确模式,将句子最 精确地切开,适合文本分析;全模式,把句子中 所有可以成词的词语都扫描出来,速度非常快, 但是不能解决歧义;搜索引擎模式,在精确模式 基础上,对长词再次切分,提高召回率,适合用 于搜索引擎分词。

安装

pip install jieba

函数使用

  • jieba.lcut(s)是最常用的中文分词函数,用于精准 模式,即将字符串分割成等量的中文词组,返回 结果是列表类型。
In [1]: import jieba

In [2]: jieba.lcut("我曾经跨过山和大海")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.988 seconds.
Prefix dict has been built succesfully.
Out[2]: ['我', '曾经', '跨过', '山', '和', '大海']
  • jieba.lcut(s, cut_all = True)用于全模式,即将字 符串的所有分词可能均列出来,返回结果是列表 类型,冗余性最大。
In [4]: jieba.lcut("全国计算机等级",cut_all=True)
Out[4]: ['全国', '国计', '计算', '计算机', '算机', '等级']
  • jieba.lcut_for_search(s)返回搜索引擎模式,该 模式首先执行精确模式,然后再对其中长词进一 步切分获得最终结果。
In [6]: jieba.lcut_for_search("全国计算机等级")
Out[6]: ['全国', '计算', '算机', '计算机', '等级']

说明: 搜索引擎模式更倾向于寻找短词语,这种方式具 有一定冗余度,但冗余度相比全模式较少。 n 如果希望对文本准确分词,不产生冗余,只能选 择jieba.lcut(s)函数,即精确模式。如果希望对文 本分词更准确,不漏掉任何可能的分词结果,请 选用全模式。如果没想好怎么用,可以使用搜索 引擎模式。

  • jieba.add_word()函数,顾名思义,用来向jieba 词库增加新的单词。
In [7]: jieba.add_word("Python项目")

In [8]: jieba.lcut("我的Python项目")
Out[8]: ['我', '的', 'Python项目']

发表回复