FlagEval

FlagEval 是一个综合性大模型评测体系,旨在从多个维度对大语言模型进行系统性评估,涵盖理解能力、推理能力、生成质量等方面,推动大模型技术的持续优化与进步。