谷歌 DeepMind 的研究人员开发了一种名为“Gecko”的评估文本到图像 AI 模型的新方法,并在arXiv 上发表的一项研究中介绍了该方法。他们发现 DALL-E、Midjourney 和 Stable Diffusion 等模型中使用的现有指标和数据集无法提供这些模型功能的完整描述。因此,该团队开发了 Gecko,这是一个新的基准测试套件,它使用 2,000 个文本提示来测试模型并分析模型特定的功能和漏洞。
新框架提供了一个基准数据库,并承诺更全面的人工注释和改进的自动化评估指标。研究人员还收集了超过 10 万个人类对不同模型根据壁虎提示生成的图像的评分。这可以帮助确定性能差异是否是由于模型的实际限制、提示不明确或评估方法不一致造成的。研究人员希望 Gecko 能够让他们在未来更准确地评估文本到图像 AI 的性能,并且他们计划公开 Gecko 的代码和数据。

