Google Brain team 推出的文本到图像生成模型,具有前所未有的写实主义程度和深度的语言理解。
我们提出了Imagen,一个文本到图像的扩散模型,具有前所未有的写实主义程度和深度的语言理解。Imagen建立在理解文本的大型变压器语言模型的基础上,并依赖于在高保真图像生成中扩散模型的强度。我们的关键发现是,在纯文本语料库上进行预训练的通用大型语言模型(例如T5)在编码用于图像合成的文本方面惊人地有效:在Imagen中增加语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像-文本对齐。
这款谷歌的文生图模型让人眼前一亮,它对文字的理解和画面的写实度都挺用心的。虽然目前偏向学术研究,普通人体验还有些门槛,但整体效果确实惊艳。期待未来能降低使用门槛,让大家轻松感受这种AI创作的。
谷歌的Imagen在画面写实度和文字理解上确实让人眼前一亮,能感受到技术背后的用心。不过作为普通用户,目前体验起来可能还稍显专业。期待未来它能更加平易近人,让大众也能轻松享受这种AI绘画的乐趣。