机器学习之争:Anyscale排行榜遭质疑,AI社区集体吐槽
2023-07-18 20:37:49
Anyscale的LLMPerf排行榜因校准问题招致AI社区批评
LLMPerf排行榜的初衷
2023年2月14日,致力于人工智能和机器学习的初创公司Anyscale发布了LLMPerf排行榜。该排行榜旨在推动大型语言模型(LLM)推理领域的发展,鼓励创新和超越。
社区吐槽:基准校准不当
然而,这个排行榜在第二天就收获了来自AI社区的大量吐槽。主要原因是,排行榜的基准「甚至没有得到很好的校准」。这使得排行榜的结果毫无意义,甚至可能误导用户。
例如,在排行榜上,Anyscale的产品Ray获得了第一名。然而,有网友指出,Ray的基准是在一个非常小的数据集上进行的,这使得Ray的性能看起来比实际情况要好。
Anyscale的回应:正在改进排行榜
面对社区的吐槽,Anyscale回应称,他们正在努力改进排行榜。他们表示,他们将重新校准排行榜的基准,并增加更多的数据集。
观点:Anyscale的做法值得商榷
个人认为,Anyscale的做法值得商榷。发布一个没有经过仔细校准的排行榜,不仅会误导用户,还会损害Anyscale的声誉。
希望Anyscale能够尽快改进排行榜,并吸取这次事件的教训。
示例代码:计算语言模型的推理时间
以下是一个使用PyTorch计算语言模型推理时间的代码示例:
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification
# 加载模型和令牌化器
tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
# 输入文本
input_text = "我很喜欢这部电影!"
# 令牌化输入
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
# 运行推理
start_time = time.time()
outputs = model(input_ids)
end_time = time.time()
# 计算推理时间
inference_time = end_time - start_time
print(f"推理时间:{inference_time:.4f}秒")
总结
Anyscale发布的LLMPerf排行榜旨在推动LLM推理领域的发展,却因基准校准问题招致了AI社区的批评。Anyscale回应称正在努力改进排行榜,但个人认为其做法值得商榷。希望Anyscale能够尽快解决问题,并从这次事件中吸取教训。
常见问题解答
1. LLMPerf排行榜的目的是什么?
LLMPerf排行榜旨在推动LLM推理领域的发展,鼓励创新和超越。
2. 为什么AI社区批评该排行榜?
AI社区批评该排行榜是因为其基准「甚至没有得到很好的校准」,这使得排行榜的结果毫无意义,甚至可能误导用户。
3. Anyscale如何回应批评?
Anyscale回应称,他们正在努力改进排行榜,他们将重新校准排行榜的基准,并增加更多的数据集。
4. 为什么Anyscale的做法值得商榷?
发布一个没有经过仔细校准的排行榜不仅会误导用户,还会损害Anyscale的声誉。
5. 如何计算语言模型的推理时间?
可以使用PyTorch或TensorFlow等机器学习框架来计算语言模型的推理时间。