返回
文本预处理:简单步骤,轻松搞定!
人工智能
2023-11-02 00:15:10
机器之心原创
参与11月更文挑战的第25天,活动详情查看:2021最后一次更文挑战
这篇文章是讲述如何进行简单的文本预处理,真的是超级简单的那种。
我们一共要做以下四个步骤:
- 将文本作为字符串加载到内存中。
- 将字符串分词。
- 对分词结果进行词性标注。
- 对分词结果进行词干提取。
1. 将文本作为字符串加载到内存中
这一步非常简单,只需要用一个变量来保存文本即可。比如,我们可以用以下代码将文本加载到变量text
中:
text = "这是 一 个 文 本 预 处理 的 例 子。"
2. 将字符串分词
分词就是将句子中的词语切开。在中文中,词语之间的分界线通常是空格,因此我们可以用空格来对句子进行分词。比如,我们可以用以下代码将句子这是 一 个 文 本 预 处理 的 例 子。
分词:
words = text.split(" ")
分词后,我们将得到以下结果:
['这', '是', '一', '个', '文', '本', '预', '处', '理', '的', '例', '子', '。']
3. 对分词结果进行词性标注
词性标注就是给每个词语打上标签,告诉我们它是名词、动词、形容词还是其他词性。在中文中,词性标注通常是用一个汉字来表示的,比如“名”表示名词,“动”表示动词,“形”表示形容词。我们可以用jieba库来对分词结果进行词性标注。比如,我们可以用以下代码对分词结果进行词性标注:
import jieba
words_pos = jieba.posseg(words)
词性标注后,我们将得到以下结果:
[('这', 'r'), ('是', 'v'), ('一', 'm'), ('个', 'q'), ('文', 'n'), ('本', 'n'), ('预', 'v'), ('处', 'v'), ('理', 'v'), ('的', 'u'), ('例', 'n'), ('子', 'n'), ('。', 'x')]
4. 对分词结果进行词干提取
词干提取就是从词语中提取出其词干。词干是词语的基本形式,它不受词语的词缀变化的影响。比如,“跑步”的词干是“跑”,“唱歌”的词干是“唱”。我们可以用jieba库来对分词结果进行词干提取。比如,我们可以用以下代码对分词结果进行词干提取:
words_stem = jieba.cut_for_search(words)
词干提取后,我们将得到以下结果:
['这', '是', '一', '个', '文', '本', '预', '处', '理', '的', '例', '子']
好了,这就是文本预处理的简单步骤。希望对您有所帮助!