机器学习之争：Anyscale排行榜遭质疑，AI社区集体吐槽

人工智能

2023-07-18 20:37:49

Anyscale的LLMPerf排行榜因校准问题招致AI社区批评

LLMPerf排行榜的初衷

2023年2月14日，致力于人工智能和机器学习的初创公司Anyscale发布了LLMPerf排行榜。该排行榜旨在推动大型语言模型（LLM）推理领域的发展，鼓励创新和超越。

社区吐槽：基准校准不当

然而，这个排行榜在第二天就收获了来自AI社区的大量吐槽。主要原因是，排行榜的基准「甚至没有得到很好的校准」。这使得排行榜的结果毫无意义，甚至可能误导用户。

例如，在排行榜上，Anyscale的产品Ray获得了第一名。然而，有网友指出，Ray的基准是在一个非常小的数据集上进行的，这使得Ray的性能看起来比实际情况要好。

Anyscale的回应：正在改进排行榜

面对社区的吐槽，Anyscale回应称，他们正在努力改进排行榜。他们表示，他们将重新校准排行榜的基准，并增加更多的数据集。

观点：Anyscale的做法值得商榷

个人认为，Anyscale的做法值得商榷。发布一个没有经过仔细校准的排行榜，不仅会误导用户，还会损害Anyscale的声誉。

希望Anyscale能够尽快改进排行榜，并吸取这次事件的教训。

示例代码：计算语言模型的推理时间

以下是一个使用PyTorch计算语言模型推理时间的代码示例：

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# 加载模型和令牌化器
tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")

# 输入文本
input_text = "我很喜欢这部电影！"

# 令牌化输入
input_ids = tokenizer(input_text, return_tensors="pt").input_ids

# 运行推理
start_time = time.time()
outputs = model(input_ids)
end_time = time.time()

# 计算推理时间
inference_time = end_time - start_time
print(f"推理时间：{inference_time:.4f}秒")