lmarena

lmarena 是一个用于评估和比较大型语言模型性能的基准测试平台,提供多样化任务与场景,帮助研究者衡量模型在实际应用中的表现。