TensorRT8 中自定义算子 Plugin 的实现方法

2023-09-14 14:56:50

TensorRT8 是 NVIDIA 推出的高性能深度学习推理引擎，它可以将训练好的深度学习模型优化为高性能的推理引擎，从而实现低延迟、高吞吐量的推理。在 TensorRT8 中，自定义算子 Plugin 是一个重要的机制，它允许用户在 TensorRT 中使用自定义操作。

为什么要使用自定义算子 Plugin？

使用自定义算子 Plugin 的主要原因是：

扩展 TensorRT 的功能： TensorRT 虽然提供了丰富的算子库，但它并不支持所有的深度学习操作。通过自定义算子 Plugin，用户可以扩展 TensorRT 的功能，以支持他们需要的特定操作。
提高性能： 自定义算子 Plugin 可以通过直接访问底层硬件来提高特定操作的性能。
灵活性： 自定义算子 Plugin 为用户提供了在 TensorRT 中使用自定义操作的灵活性，这使得他们可以根据自己的需要定制推理引擎。

如何实现自定义算子 Plugin？

实现自定义算子 Plugin 需要遵循以下步骤：

定义 Plugin 接口： 定义一个 C++ 类来实现 ITensorrtPlugin 接口。该接口包含用于初始化、执行和销毁 Plugin 的方法。
创建 Plugin 符： 创建一个 PluginFactory 类来创建 Plugin 的符。描述符包含有关 Plugin 的信息，例如其名称、版本和输入/输出张量。
注册 Plugin： 将 PluginFactory 注册到 TensorRT 中。这使得 TensorRT 可以加载和使用该 Plugin。
实现 Plugin 方法： 实现 ITensorrtPlugin 接口中的方法，以定义 Plugin 的行为。

示例代码

以下是一个简单的自定义算子 Plugin 的示例代码：

#include <tensorrt/tensorrt.h>

class MyPlugin : public nvinfer1::IPluginV2IOExt {
public:
  MyPlugin() = default;
  ~MyPlugin() = default;

  int getNbOutputs() const override { return 1; }
  nvinfer1::Dims getOutputDimensions(int index, const nvinfer1::Dims* inputs, int nbInputs) override {
    return inputs[0];
  }
  int initialize() override { return 0; }
  int preprocess(const nvinfer1::Tensor* inputs[], int nbInputs, const nvinfer1::Tensor* outputs[], int nbOutputs) override { return 0; }
  int run(const nvinfer1::Tensor* inputs[], int nbInputs, const nvinfer1::Tensor* outputs[], int nbOutputs) override { return 0; }
  int destroy() override { return 0; }

  void attachToContext(nvinfer1::cudnnContext* cudnnContext, nvinfer1::cublasContext* cublasContext) override {}
  void detachFromContext() override {}
  bool enqueue(int batchSize, const void* const* inputs, void* const* outputs, void* workspace, cudaStream_t stream) override { return true; }
};

class MyPluginFactory : public nvinfer1::IPluginFactory {
public:
  MyPluginFactory() = default;
  ~MyPluginFactory() = default;

  nvinfer1::IPluginV2IOExt* createPlugin(const char* name, const void* serialData, size_t serialLength) override { return new MyPlugin(); }
  int getNbPlugins() override { return 1; }
  const char** getPluginNames() override { return &mName; }
  void destroyPlugin() override {}

private:
  const char* mName = "MyPlugin";
};

REGISTER_TENSORRT_PLUGIN(MyPluginFactory);

使用自定义算子 Plugin

要使用自定义算子 Plugin，可以在创建 TensorRT 引擎时指定它。以下是一个示例：

nvinfer1::IBuilder* builder = nvinfer1::createInferBuilder(gLogger);
builder->setMaxBatchSize(1);

// 添加自定义算子 Plugin
nvinfer1::IPlugin* myPlugin = new MyPlugin();
builder->addPlugin(&input, &output, myPlugin);

nvinfer1::ICudaEngine* engine = builder->buildCudaEngine(builder->createNetwork());

结论

自定义算子 Plugin 是 TensorRT 中一个强大的机制，它允许用户扩展 TensorRT 的功能，提高性能并提高灵活性。通过遵循本文中概述的步骤，用户可以实现自己的自定义算子 Plugin 并将其用于 TensorRT 推理。

Kyle

探索Web开发资源和人工智能教程的代码社区

联系我

扫码关注微信公众号

TensorRT8 中自定义算子 Plugin 的实现方法

Kyle

量身定制：利用昇腾910B快速测试ChatGLM3-6B/BaiChuan2-7B模型推理

我的手让OpenAI准备好了

新一代的跳绳AI计数器：准确无忧，挑战极限！

从SRNN到Transformer：循环神经网络27年的研究进展

人机对话系统架构与技术应用