Python中文分词神器jieba：入门与进阶指南

2024-01-18 10:26:35

中文分词的利器：jieba指南

自然语言处理（NLP）中，中文分词是第一步也是至关重要的一步。jieba，作为一款基于Python的中文分词工具，以其易用性和强大功能而闻名。本文将为您提供一份全面的jieba指南，包括入门、进阶技巧和实用案例。

入门

安装

安装jieba非常简单，只需使用pip命令：

pip install jieba

使用

jieba最基本的用法就是使用cut函数：

import jieba
text = "今天天气很好"
words = jieba.cut(text)
print(",".join(words))  # 输出："今天,天气,很好"

进阶

用户词典

jieba支持使用自定义用户词典来提高分词准确率。可以通过load_userdict()函数加载词典：

jieba.load_userdict("my_dict.txt")  # 加载自定义词典

分词模式

jieba提供不同的分词模式，包括：

精确模式（cut()）： 追求准确的分词，适合NLP任务。
搜索模式（cut_for_search()）： 倾向于产生更多候选词，适合搜索场景。
全模式（cut_all()）： 穷举所有可能的分割结果。

词性标注

jieba可以对分词结果进行词性标注，通过posseg()函数实现：

words = jieba.posseg("自然语言处理")
for word, flag in words:
    print(word, flag)
# 输出："自然 n", "语言 n", "处理 v"

案例

文本摘要

import jieba
import heapq

text = "今天天气很好，我出去玩了一整天。今天天气很好，晚上还看了电影。"
words = jieba.cut(text)
freq = {}
for word in words:
    if word in freq:
        freq[word] += 1
    else:
        freq[word] = 1

top20 = heapq.nlargest(20, freq.keys(), key=lambda k: freq[k])

summary = " ".join(top20)
print(summary)

文本分类

import jieba
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

texts = ["文本1", "文本2", "文本3"]  # 实际应用中，texts包含大量文本
vectorizer = CountVectorizer(tokenizer=jieba.cut)
X = vectorizer.fit_transform(texts)

y = [0, 1, 1]  # 实际应用中，y包含文本对应的分类标签
classifier = MultinomialNB()
classifier.fit(X, y)

new_text = "新文本"
new_vector = vectorizer.transform([new_text])
prediction = classifier.predict(new_vector)
print(prediction)  # 输出预测的分类标签