返回

奇虎360开源深度学习调度平台,赋能AI应用落地

人工智能

前言

随着深度学习技术在各个领域的广泛应用,深度学习模型的训练与部署成为了一大挑战。奇虎360近日开源了其自研的深度学习调度平台,旨在为开发者提供一个高效、灵活的深度学习模型训练与部署解决方案。

深度学习调度平台概述

奇虎360深度学习调度平台(以下简称DL调度平台)是一个基于Kubernetes构建的容器化调度平台,支持TensorFlow、MXNet等主流深度学习框架,提供了一系列丰富的功能,包括:

  • 资源管理: 自动管理GPU、CPU、内存等计算资源,优化资源分配。
  • 作业调度: 高效调度深度学习训练和推理作业,支持分布式训练。
  • 模型管理: 提供模型版本管理、模型转换、模型评估等功能。
  • 监控与告警: 实时监控平台状态、作业运行情况,并提供告警机制。

DL调度平台的优势

奇虎360 DL调度平台具有以下优势:

  • 高性能: 基于Kubernetes的高性能调度算法,保证作业快速启动和高效执行。
  • 灵活扩展: 可根据实际需求灵活扩展平台规模,满足不同场景的应用。
  • 易于使用: 提供友好易用的Web管理界面,降低使用门槛。
  • 生态丰富: 支持主流深度学习框架和工具,满足开发者不同需求。

应用场景

奇虎360 DL调度平台可广泛应用于以下场景:

  • 大规模深度学习训练: 支持分布式训练,大幅缩短模型训练时间。
  • 模型推理服务: 提供高性能、低延迟的模型推理服务,满足在线推断需求。
  • 模型部署管理: 提供模型版本管理、模型部署监控等功能,方便模型的部署和管理。

开源与社区

奇虎360 DL调度平台已在GitHub上开源,开源代码地址为:https://github.com/Qihoo360/xlearning。社区开发者可以自由使用、修改和分发该平台。奇虎360将持续维护和更新DL调度平台,欢迎开发者积极参与和贡献。

结语

奇虎360深度学习调度平台的开源,为深度学习开发者提供了一个强大的工具,将极大促进深度学习技术的落地应用。随着平台的不断完善,我们期待它成为深度学习生态中不可或缺的一环。

**