小红书 & WSDM 2024「对话式多文档问答挑战赛」邀您共赴知识盛宴！

2022-12-18 00:44:07

解锁对话式多文档问答的挑战

对话式多文档问答的魅力

想象一下，你有一个问题，迫不及待地想找到答案。但你面前有一堆文档，每篇都可能包含与你问题相关的碎片信息。如果没有一个高效的方法来整理和综合这些信息，你可能会筋疲力尽，一无所获。

对话式多文档问答 (DocQA) 应运而生，它将自然语言处理 (NLP) 的强大功能与对话式界面的便利性相结合。DocQA 系统能够理解用户的查询，从多个文档中提取相关信息，并生成高质量的答案，满足用户的需求。

小红书与 WSDM 挑战赛：展现你的才华

小红书和 WSDM 携手推出了一场激动人心的 DocQA 挑战赛，旨在推动该领域的创新，促进学术研究和产业应用的融合。此次挑战赛为人工智能爱好者和专业人士提供了一个展示其才华和技能的平台，他们可以开发出能够解决真实世界 DocQA 问题的系统。

丰厚的奖励等你赢取

挑战赛设有丰厚的奖金池，包括一等奖 15,000 元，二等奖 10,000 元，三等奖 5,000 元以及若干优秀奖，奖金为 1,000 元。获奖者不仅可以获得认可，还可以赢取一笔可观的奖金，为他们的研究或项目提供资金。

挑战任务：开发你的 DocQA 系统

挑战赛的核心任务是开发一个对话式多文档问答系统，该系统能够从多个文档中抽取相关信息并生成高质量的答案。系统应具备以下能力：

理解用户的查询并确定相关的文档。
从文档中抽取与查询相关的关键信息。
整合信息并生成简洁、准确的答案。
通过对话式界面与用户交互，逐步获取信息并澄清疑问。

示例代码

以下是使用 Python 和 Hugging Face Transformers 库构建简单的 DocQA 系统的代码示例：

import transformers

# 加载预训练的模型和 tokenizer
model = transformers.AutoModelForQuestionAnswering.from_pretrained("distilbert-base-uncased-finetuned-squad")
tokenizer = transformers.AutoTokenizer.from_pretrained("distilbert-base-uncased-finetuned-squad")

# 文档集合
documents = ["文档 1", "文档 2", "文档 3"]

# 用户查询
query = "文档中有哪些人物角色？"

# 将查询编码成输入
input_ids = tokenizer(query, return_tensors="pt").input_ids

# 从文档中检索答案
start_logits, end_logits = model(input_ids)

# 根据 logits 提取答案
answer_start = torch.argmax(start_logits, dim=1).item()
answer_end = torch.argmax(end_logits, dim=1).item()
answer = tokenizer.decode(input_ids[0, answer_start:answer_end + 1])

# 打印答案
print(f"答案：{answer}")