文本预处理：简单步骤，轻松搞定！

人工智能

2023-11-02 00:15:10

机器之心原创

参与11月更文挑战的第25天，活动详情查看：2021最后一次更文挑战

这篇文章是讲述如何进行简单的文本预处理，真的是超级简单的那种。

我们一共要做以下四个步骤：

将文本作为字符串加载到内存中。
将字符串分词。
对分词结果进行词性标注。
对分词结果进行词干提取。

1. 将文本作为字符串加载到内存中

这一步非常简单，只需要用一个变量来保存文本即可。比如，我们可以用以下代码将文本加载到变量text中：

text = "这是 一 个 文 本 预 处理 的 例 子。"

2. 将字符串分词

分词就是将句子中的词语切开。在中文中，词语之间的分界线通常是空格，因此我们可以用空格来对句子进行分词。比如，我们可以用以下代码将句子这是一个文本预处理的例子。分词：

words = text.split(" ")

分词后，我们将得到以下结果：

['这', '是', '一', '个', '文', '本', '预', '处', '理', '的', '例', '子', '。']

3. 对分词结果进行词性标注

词性标注就是给每个词语打上标签，告诉我们它是名词、动词、形容词还是其他词性。在中文中，词性标注通常是用一个汉字来表示的，比如“名”表示名词，“动”表示动词，“形”表示形容词。我们可以用jieba库来对分词结果进行词性标注。比如，我们可以用以下代码对分词结果进行词性标注：

import jieba
words_pos = jieba.posseg(words)

词性标注后，我们将得到以下结果：

[('这', 'r'), ('是', 'v'), ('一', 'm'), ('个', 'q'), ('文', 'n'), ('本', 'n'), ('预', 'v'), ('处', 'v'), ('理', 'v'), ('的', 'u'), ('例', 'n'), ('子', 'n'), ('。', 'x')]

4. 对分词结果进行词干提取

词干提取就是从词语中提取出其词干。词干是词语的基本形式，它不受词语的词缀变化的影响。比如，“跑步”的词干是“跑”，“唱歌”的词干是“唱”。我们可以用jieba库来对分词结果进行词干提取。比如，我们可以用以下代码对分词结果进行词干提取：

words_stem = jieba.cut_for_search(words)

词干提取后，我们将得到以下结果：

['这', '是', '一', '个', '文', '本', '预', '处', '理', '的', '例', '子']

好了，这就是文本预处理的简单步骤。希望对您有所帮助！

Kyle

探索Web开发资源和人工智能教程的代码社区

联系我

扫码关注微信公众号

文本预处理：简单步骤，轻松搞定！

Kyle

夜空中最耀眼的宝石：天狼星

以比较基因组学的视野审视 WGDI

拥抱机器学习的无限潜力：超越基本概念

为何弹性计算是云计算的未来：全面指南

全面解读ShardindJDBC复杂分片策略，开启灵活数据分片之旅