返回

机器学习之争:Anyscale排行榜遭质疑,AI社区集体吐槽

人工智能

Anyscale的LLMPerf排行榜因校准问题招致AI社区批评

LLMPerf排行榜的初衷

2023年2月14日,致力于人工智能和机器学习的初创公司Anyscale发布了LLMPerf排行榜。该排行榜旨在推动大型语言模型(LLM)推理领域的发展,鼓励创新和超越。

社区吐槽:基准校准不当

然而,这个排行榜在第二天就收获了来自AI社区的大量吐槽。主要原因是,排行榜的基准「甚至没有得到很好的校准」。这使得排行榜的结果毫无意义,甚至可能误导用户。

例如,在排行榜上,Anyscale的产品Ray获得了第一名。然而,有网友指出,Ray的基准是在一个非常小的数据集上进行的,这使得Ray的性能看起来比实际情况要好。

Anyscale的回应:正在改进排行榜

面对社区的吐槽,Anyscale回应称,他们正在努力改进排行榜。他们表示,他们将重新校准排行榜的基准,并增加更多的数据集。

观点:Anyscale的做法值得商榷

个人认为,Anyscale的做法值得商榷。发布一个没有经过仔细校准的排行榜,不仅会误导用户,还会损害Anyscale的声誉。

希望Anyscale能够尽快改进排行榜,并吸取这次事件的教训。

示例代码:计算语言模型的推理时间

以下是一个使用PyTorch计算语言模型推理时间的代码示例:

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# 加载模型和令牌化器
tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")

# 输入文本
input_text = "我很喜欢这部电影!"

# 令牌化输入
input_ids = tokenizer(input_text, return_tensors="pt").input_ids

# 运行推理
start_time = time.time()
outputs = model(input_ids)
end_time = time.time()

# 计算推理时间
inference_time = end_time - start_time
print(f"推理时间:{inference_time:.4f}秒")

总结

Anyscale发布的LLMPerf排行榜旨在推动LLM推理领域的发展,却因基准校准问题招致了AI社区的批评。Anyscale回应称正在努力改进排行榜,但个人认为其做法值得商榷。希望Anyscale能够尽快解决问题,并从这次事件中吸取教训。

常见问题解答

1. LLMPerf排行榜的目的是什么?

LLMPerf排行榜旨在推动LLM推理领域的发展,鼓励创新和超越。

2. 为什么AI社区批评该排行榜?

AI社区批评该排行榜是因为其基准「甚至没有得到很好的校准」,这使得排行榜的结果毫无意义,甚至可能误导用户。

3. Anyscale如何回应批评?

Anyscale回应称,他们正在努力改进排行榜,他们将重新校准排行榜的基准,并增加更多的数据集。

4. 为什么Anyscale的做法值得商榷?

发布一个没有经过仔细校准的排行榜不仅会误导用户,还会损害Anyscale的声誉。

5. 如何计算语言模型的推理时间?

可以使用PyTorch或TensorFlow等机器学习框架来计算语言模型的推理时间。