返回

PaddleWeekly | 开源,飞桨开源项目每周推

人工智能

PaddleWeekly | 开源,飞桨开源项目每周推

PaddlePaddle 是百度自主研发的高性能开源深度学习平台,目前已集训了 370 余个模型,覆盖图像、语音、自然语言处理、视频等多个领域。PaddlePaddle 的开源项目社区蓬勃发展,涌现出大量的优秀项目,为开发者提供了丰富的资源和便利。

PaddleWeekly 是一个聚焦 PaddlePaddle 开源项目的周报,旨在为开发者提供最新、最全面的开源项目资讯,帮助开发者了解 PaddlePaddle 社区的技术前沿,并激发他们的创新灵感。

本期亮点

  • AgentMaker 小组新发布 PaTTA,只需插入一行代码即可实现 AI 驱动图像生成。
  • 飞桨 NLP 团队发布 E2E 跨模态检索工具包,助力文本与图片、视频的高效检索。
  • 飞桨 PaddleClas 团队发布图像分类模型库,提供 450 多个预训练模型,覆盖广泛的图像分类任务。

PaTTA:一行代码实现 AI 驱动图像生成

AgentMaker 小组新发布的 PaTTA(Prompt to Prompt Automatic Text to Animation)是一个文本转动画生成模型,用户只需插入一行代码即可实现 AI 驱动图像生成。PaTTA 基于 Transformer 架构,支持文本驱动的图像生成、文本条件下的图像编辑、文本下的视频生成等功能。

具体来说,PaTTA 可以根据文本生成新的图像,也可以根据文本提示编辑现有图像,还可以根据文本描述生成视频。PaTTA 的使用非常简单,只需在代码中调用 PaTTA API,并输入文本描述即可。PaTTA 将自动生成图像或视频。

PaTTA 的发布为开发者提供了更便捷、更高效的图像和视频生成工具,开发者可以利用 PaTTA 轻松创建各种创意内容,例如:

  • 根据文本描述生成插图或封面图
  • 根据文本提示对图像进行编辑或增强
  • 根据文本描述生成动画或视频

E2E 跨模态检索工具包助力文本与图片、视频的高效检索

飞桨 NLP 团队发布了 E2E 跨模态检索工具包,该工具包提供了一系列端到端的跨模态检索解决方案,帮助开发者轻松实现文本与图片、视频的高效检索。

该工具包提供了文本检索图片、文本检索视频、图片检索文本、视频检索文本等多种检索任务的完整解决方案,涵盖了数据预处理、模型训练、推理部署等各个环节。同时,工具包还提供了丰富的预训练模型和示例代码,方便开发者快速上手使用。

E2E 跨模态检索工具包的发布为开发者提供了强大的跨模态检索能力,开发者可以利用该工具包构建各种跨模态检索应用,例如:

  • 图文检索:根据文本描述检索相关的图片或视频
  • 以图搜图:根据一张图片检索相似的图片或视频
  • 视频检索:根据文本描述检索相关的视频
  • 跨模态推荐:根据用户的历史交互数据,推荐相关的文本、图片或视频

PaddleClas 图像分类模型库提供 450 多个预训练模型

飞桨 PaddleClas 团队发布了图像分类模型库,该模型库提供了 450 多个预训练模型,涵盖了广泛的图像分类任务,例如:

  • 通用图像分类
  • 图像识别
  • 物体检测
  • 人脸识别
  • 医学图像分类

这些预训练模型经过了大量数据集的训练,具有很高的准确率和泛化能力。开发者可以根据自己的任务需求,选择合适的预训练模型进行微调或直接部署,从而快速搭建高效的图像分类系统。

PaddleClas 图像分类模型库的发布为开发者提供了丰富的图像分类资源,开发者可以利用这些预训练模型轻松实现各种图像分类任务,例如:

  • 构建图像分类器,对图像进行自动分类
  • 训练定制化的图像分类模型,满足特定业务需求
  • 迁移学习,将图像分类模型应用于其他领域

结语

PaddleWeekly 第四期为大家带来了飞桨开源项目社区的最新资讯,包括 AgentMaker 小组新发布的 PaTTA、飞桨 NLP 团队发布的 E2E 跨模态检索工具包,以及飞桨 PaddleClas 团队发布的图像分类模型库。这些开源项目为开发者提供了丰富的资源和便利,帮助开发者快速搭建各种 AI 应用。

未来,PaddleWeekly 将持续关注飞桨开源项目社区的动态,为开发者提供更多有价值的资讯和资源。开发者可以通过关注「PaddlePaddle」公众号或访问 PaddlePaddle 官网了解更多信息。