2021CCF BDCI新闻摘要自动生成竞赛于近期落下帷幕,该竞赛旨在推动新闻摘要自动生成技术的发展,为新闻工作者提供更加高效的摘要生成工具。在这项竞赛中,笔者使用Hugging Face的预训练模型和pipeline方法构建了一个新闻摘要自动生成基线系统,并在最终的评测中取得了0.22的Rouge_L分数,位列第八名。
在本文中,笔者将详细介绍该基线系统的构建过程和具体实现方法,希望能够为其他研究者和开发者提供借鉴和启发。
系统概述
该基线系统采用Hugging Face的预训练模型和pipeline方法构建,整体架构如下图所示。
[图片]
预训练模型方面,笔者采用了Hugging Face的T5模型,该模型在文本生成任务上表现优异。pipeline方法方面,笔者使用了Hugging Face提供的pipeline工具,该工具可以快速构建一个文本摘要自动生成模型。
数据预处理
在构建新闻摘要自动生成模型之前,需要对数据进行预处理。本文使用的数据集是CCF BDCI新闻摘要自动生成竞赛提供的训练集,该数据集包含约10万条新闻数据,每条数据由新闻标题、新闻正文和新闻摘要组成。
在预处理过程中,笔者首先对新闻正文进行分词和去停用词处理,然后将新闻标题和新闻正文连接成一个文本序列。最后,笔者将文本序列转换为TensorFlow格式,以便模型训练。
模型训练
在数据预处理完成后,就可以开始训练新闻摘要自动生成模型了。笔者使用Hugging Face的Trainer类进行模型训练,训练过程如下:
- 将预训练模型加载到Trainer类中。
- 设置模型的训练参数,包括学习率、训练轮数等。
- 将数据加载到Trainer类中。
- 启动模型训练。
在训练过程中,模型会不断更新权重,以提高摘要生成质量。
模型评估
在模型训练完成后,需要对模型的性能进行评估。笔者使用Rouge指标对模型的性能进行评估,Rouge指标是一种常用的文本摘要自动生成评估指标,包括Rouge_1、Rouge_2、Rouge_L等多个指标。
在评估过程中,笔者将模型生成的摘要与人工生成的摘要进行比较,并计算Rouge指标的值。Rouge指标的值越高,表示模型生成的摘要质量越好。
竞赛结果
在2021CCF BDCI新闻摘要自动生成竞赛中,笔者使用该基线系统取得了0.22的Rouge_L分数,位列第八名。该结果表明,该基线系统在新闻摘要自动生成任务上具有良好的性能。
总结
本文介绍了笔者在2021CCF BDCI新闻摘要自动生成竞赛中使用的基线系统。该系统采用Hugging Face的预训练模型和pipeline方法构建,经过测试Rouge_L分数为0.22,排名第八。本文提供了详细的基线方法步骤和代码,以便读者能够快速入门新闻摘要自动生成任务。