jieba（中文分词函数库）的使用 – 不爱学习的硕硕

撰写 icenturyw 于 2019年 3月 12日 2019年 3月 12日 Python

概述

jieba库支持三种分词模式：精确模式，将句子最精确地切开，适合文本分析；全模式，把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

安装

pip install jieba

函数使用

jieba.lcut(s)是最常用的中文分词函数，用于精准模式，即将字符串分割成等量的中文词组，返回结果是列表类型。

In [1]: import jieba

In [2]: jieba.lcut("我曾经跨过山和大海")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.988 seconds.
Prefix dict has been built succesfully.
Out[2]: ['我', '曾经', '跨过', '山', '和', '大海']

jieba.lcut(s, cut_all = True)用于全模式，即将字符串的所有分词可能均列出来，返回结果是列表类型，冗余性最大。

In [4]: jieba.lcut("全国计算机等级",cut_all=True)
Out[4]: ['全国', '国计', '计算', '计算机', '算机', '等级']

jieba.lcut_for_search(s)返回搜索引擎模式，该模式首先执行精确模式，然后再对其中长词进一步切分获得最终结果。

In [6]: jieba.lcut_for_search("全国计算机等级")
Out[6]: ['全国', '计算', '算机', '计算机', '等级']

说明：搜索引擎模式更倾向于寻找短词语，这种方式具有一定冗余度，但冗余度相比全模式较少。 n 如果希望对文本准确分词，不产生冗余，只能选择jieba.lcut(s)函数，即精确模式。如果希望对文本分词更准确，不漏掉任何可能的分词结果，请选用全模式。如果没想好怎么用，可以使用搜索引擎模式。

jieba.add_word()函数，顾名思义，用来向jieba 词库增加新的单词。

In [7]: jieba.add_word("Python项目")

In [8]: jieba.lcut("我的Python项目")
Out[8]: ['我', '的', 'Python项目']

发表回复取消回复

要发表评论，您必须先登录。