随着大量大型语言模型(LLMs)和聊天机器人每周都在发布,它们往往伴随着对性能的夸大宣称,要筛选出由开源社区所取得的真正进展以及哪个模型是当前的技术领先水平,可能会非常困难。
为此,HF推出了这个大模型开放评测追踪排行榜。? ? Open LLM Leaderboard 旨在追踪、排名和评估开源大型语言模型(LLMs)和聊天机器人在不同评测任务上的得分。
原网页请访问:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
现在各类AI模型,宣传让人眼花缭乱。这个排行榜用客观的评测数据帮我们拨开迷雾,让人能看清各个开源模型的真实实力。平时挑选工具时,心里总算有了个可靠的参考标准,确实挺踏实的好帮手。