PaddleWeekly | 开源，飞桨开源项目每周推

2023-12-02 10:51:39

PaddlePaddle 是百度自主研发的高性能开源深度学习平台，目前已集训了 370 余个模型，覆盖图像、语音、自然语言处理、视频等多个领域。PaddlePaddle 的开源项目社区蓬勃发展，涌现出大量的优秀项目，为开发者提供了丰富的资源和便利。

PaddleWeekly 是一个聚焦 PaddlePaddle 开源项目的周报，旨在为开发者提供最新、最全面的开源项目资讯，帮助开发者了解 PaddlePaddle 社区的技术前沿，并激发他们的创新灵感。

本期亮点

AgentMaker 小组新发布 PaTTA，只需插入一行代码即可实现 AI 驱动图像生成。
飞桨 NLP 团队发布 E2E 跨模态检索工具包，助力文本与图片、视频的高效检索。
飞桨 PaddleClas 团队发布图像分类模型库，提供 450 多个预训练模型，覆盖广泛的图像分类任务。

PaTTA：一行代码实现 AI 驱动图像生成

AgentMaker 小组新发布的 PaTTA（Prompt to Prompt Automatic Text to Animation）是一个文本转动画生成模型，用户只需插入一行代码即可实现 AI 驱动图像生成。PaTTA 基于 Transformer 架构，支持文本驱动的图像生成、文本条件下的图像编辑、文本下的视频生成等功能。

具体来说，PaTTA 可以根据文本生成新的图像，也可以根据文本提示编辑现有图像，还可以根据文本描述生成视频。PaTTA 的使用非常简单，只需在代码中调用 PaTTA API，并输入文本描述即可。PaTTA 将自动生成图像或视频。

PaTTA 的发布为开发者提供了更便捷、更高效的图像和视频生成工具，开发者可以利用 PaTTA 轻松创建各种创意内容，例如：

根据文本描述生成插图或封面图
根据文本提示对图像进行编辑或增强
根据文本描述生成动画或视频

E2E 跨模态检索工具包助力文本与图片、视频的高效检索

飞桨 NLP 团队发布了 E2E 跨模态检索工具包，该工具包提供了一系列端到端的跨模态检索解决方案，帮助开发者轻松实现文本与图片、视频的高效检索。

该工具包提供了文本检索图片、文本检索视频、图片检索文本、视频检索文本等多种检索任务的完整解决方案，涵盖了数据预处理、模型训练、推理部署等各个环节。同时，工具包还提供了丰富的预训练模型和示例代码，方便开发者快速上手使用。

E2E 跨模态检索工具包的发布为开发者提供了强大的跨模态检索能力，开发者可以利用该工具包构建各种跨模态检索应用，例如：

图文检索：根据文本描述检索相关的图片或视频
以图搜图：根据一张图片检索相似的图片或视频
视频检索：根据文本描述检索相关的视频
跨模态推荐：根据用户的历史交互数据，推荐相关的文本、图片或视频

PaddleClas 图像分类模型库提供 450 多个预训练模型

飞桨 PaddleClas 团队发布了图像分类模型库，该模型库提供了 450 多个预训练模型，涵盖了广泛的图像分类任务，例如：

通用图像分类
图像识别
物体检测
人脸识别
医学图像分类

这些预训练模型经过了大量数据集的训练，具有很高的准确率和泛化能力。开发者可以根据自己的任务需求，选择合适的预训练模型进行微调或直接部署，从而快速搭建高效的图像分类系统。

PaddleClas 图像分类模型库的发布为开发者提供了丰富的图像分类资源，开发者可以利用这些预训练模型轻松实现各种图像分类任务，例如：

构建图像分类器，对图像进行自动分类
训练定制化的图像分类模型，满足特定业务需求
迁移学习，将图像分类模型应用于其他领域

结语

PaddleWeekly 第四期为大家带来了飞桨开源项目社区的最新资讯，包括 AgentMaker 小组新发布的 PaTTA、飞桨 NLP 团队发布的 E2E 跨模态检索工具包，以及飞桨 PaddleClas 团队发布的图像分类模型库。这些开源项目为开发者提供了丰富的资源和便利，帮助开发者快速搭建各种 AI 应用。

未来，PaddleWeekly 将持续关注飞桨开源项目社区的动态，为开发者提供更多有价值的资讯和资源。开发者可以通过关注「PaddlePaddle」公众号或访问 PaddlePaddle 官网了解更多信息。