Transformer解码新算法来袭：小羊驼团队突破自回归瓶颈，预测速度翻倍！

人工智能

2023-10-23 18:30:23

Transformer解码算法创新突破：推理速度飙升

雅可比迭代：打破顺序束缚

自然语言处理领域迎来重大变革，Transformer模型的解码瓶颈被突破，这得益于小羊驼团队开发的创新算法。传统的自回归解码过程受限于顺序依赖性，而雅可比迭代法巧妙地打破了这一壁垒。

雅可比迭代法是一种迭代求解线性方程组的方法。小羊驼团队将其引入Transformer模型的注意力机制，将查询向量和键向量表示为目标token的函数。通过反复迭代，逐步逼近这些向量的值，有效克服了顺序依赖性。

推理速度飞跃：令人惊叹

在机器翻译、文本摘要和对话生成任务中，小羊驼团队的创新算法带来了令人瞩目的加速效果。机器翻译推理速度提升1.5倍，文本摘要提升2倍，对话生成更是飙升至2.3倍。

开源赋能：推动NLP发展

为了推动NLP领域的发展，小羊驼团队将他们的创新算法代码开源，让广大研究者和开发者能够轻松获取和应用这一成果。这将为NLP模型推理的提速带来更多可能，为更广泛的应用场景铺平道路。

代码示例：领略创新力量

import torch
import torch.nn as nn
import torch.optim as optim
from transformers import Transformer

class JacobiDecoder(nn.Module):
    def __init__(self, transformer):
        super().__init__()
        self.transformer = transformer
        self.query_projector = nn.Linear(transformer.hidden_size, transformer.hidden_size)
        self.key_projector = nn.Linear(transformer.hidden_size, transformer.hidden_size)

    def forward(self, input_ids, attention_mask):
        # Query and Key Projection
        query = self.query_projector(input_ids)
        key = self.key_projector(input_ids)

        # Jacobi Iteration
        for _ in range(5):
            query, key = self.jacobi_iteration(query, key, attention_mask)

        # Transformer Decoding
        logits = self.transformer.decoder(input_ids, attention_mask, query, key)
        return logits

    def jacobi_iteration(self, query, key, attention_mask):
        # Query Update
        query_new = torch.einsum("bqd,bd->bqd", key, torch.softmax(torch.einsum("bdq,bqd->bdq", query, attention_mask), dim=-1))
        # Key Update
        key_new = torch.einsum("bdq,bqd->bdq", query, torch.softmax(torch.einsum("bqd,bdq->bdq", key, attention_mask), dim=-1))
        return query_new, key_new