Pika北大斯坦福联手,开源最新文本-图像生成/编辑框架!
无需额外训练,即可让扩散模型拥有更强提示词理解能力。
面对超长、超复杂提示词,准确性更高、细节把控更强,而且生成图片更加自然。
效果超越最强图像生成模型Dall·E 3和SDXL。
比如要求图片左右冰火两重天,左边有冰山、右边有火山。
SDXL完全没有符合提示词要求,Dall·E 3没有生成出来火山这一细节。
还能通过提示词对生成图像二次编辑。
这就是文本-图像生成/编辑框架RPG(Recaption,Plan and Generate),已经在网上引起热议。
目前框架代码已开源,兼容各种多模态大模型(如MiniGPT-4)和扩散模型主干网络(如ControlNet)。
利用多模态大模型做增强
一直以来,扩散模型在理解复杂提示词方面都相对较弱。
一些已有改进方法,要么最终实现效果不够好,要么需要进行额外训练。
因此研究团队利用多模态大模型的理解能力来增强扩散模型的组合能力、可控能力。
从框架名字可以看出,它是让模型“重新描述、规划和生成”。
该方法的核心策略有三方面:
1、多模态重新描述(Multimodal Recaptioning):利用大模型将复杂文本提示拆解为多个子提示,并对每个子提示进行更加详细的重新描述,以此提升扩散模型对提示词的理解能力。
2、思维链规划(Chain-of-Thought Planning):利用多模态大模型的思维链推理能力,将图像空间划分为互补的子区域,并为每个子区域匹配不同的子提示,将复杂的生成任务拆解为多个更简单的生成任务。
3、互补区域扩散(Complementary Regional Diffusion):将空间划分好后,非重叠的区域各自根据子提示生成图像,然后进行拼接。
最后就能生成出一张更加符合提示词要求的图片。
RPG框架还可以利用姿态、深度等信息进行图像生成。
和ControlNet对比,RPG能进一步拆分输入提示词。
用户输入:在一间明亮的房间里,站着一位身穿香槟色长袖正装、正闭着双眼的漂亮黑发女孩。房间左边放着一只插着粉色玫瑰花的精致蓝花瓶,右边有一些生机勃勃的白玫瑰。
基础提示词:一个漂亮女孩站在她的明亮的房间里。
区域0:一个装着粉玫瑰的精致蓝花瓶
区域1:一个身穿香槟色长袖正装的漂亮黑发女孩闭着双眼。
区域2:一些生机勃勃的白玫瑰。
也能实现图像生成、编辑闭环。
实验对比来看,RPG在色彩、形状、空间、文字准确等维度都超越其他图像生成模型。
研究团队
该研究有两位共同一作Ling Yang、Zhaochen Yu,都来自北大。
她是斯坦福计算机博士,在计算机视觉、3D视觉方面有着丰富学术经历,参与的去噪扩散隐式模型(DDIM)论文,如今单篇引用已有1700+。并有多篇生成式AI相关研究发表在ICLR、NeurIPS、CVPR、ICML等顶会上,且多篇入选Oral。
去年,Pika凭借AI视频生成产品Pika 1.0一炮而红,2位斯坦福华人女博士创办的背景,使其更加引人注目。
△左为郭文景(Pika CEO),右为Chenlin Meng
参与研究的还有北大计算机学院副院长崔斌教授,他还是数据科学与工程研究所长。
另外,斯坦福AI实验室博士Minkai Xu、斯坦福助理教授Stefano Ermon共同参与这项研究。
论文地址:https://arxiv.org/abs/2401.11708
代码地址:https://github.com/YangLing0818/RPG-DiffusionMaster
参考链接:https://twitter.com/pika_research/status/1749956060868387101
— 完 —
量子位 QbitAI · 头条号签约
用户评论
这真是个激动人心的进展!我一直觉得扩散模型在理解复杂提示词方面更有优势,能生成更精准、更有创意的内容。期待Pika能够推动这一领域的进一步突破
有19位网友表示赞同!
终于等到这个消息了!北大与斯坦福的合作一直都很强势,相信Pika一定会是优秀的开源框架,可以让我们更好地探索扩散模型的潜力!
有12位网友表示赞同!
我还挺好奇Pika在处理不同类型的复杂提示词的表现怎么样?比如诗歌、代码,还是更有艺术性的创作呢?
有6位网友表示赞同!
开源框架太棒了!期待更多研究人员和开发者加入进来,一起推动扩散模型的发展,让它真正走向大众。
有14位网友表示赞同!
这篇文章写的太好了!对我来说解释复杂提示词的原理非常清楚,让我对Pika更加感兴趣。我马上去下载尝试一下
有8位网友表示赞同!
我个人还是更倾向于传统神经网络模型,因为它们在实际应用中表现得更为稳定。扩散模型虽然潜力很大,但在一些方面仍存在缺陷需要改进。
有6位网友表示赞同!
复杂提示词对于AI理解能力的测试很关键,期待Pika能够在这个领域做出突破性进展!
有11位网友表示赞同!
看这篇文章的时候感觉自己像是打开了新世界的大门,以前从未听说过北大斯坦福在合作开发一个新框架,太令人激动了!
有17位网友表示赞同!
我觉得这篇文章还是有些过于理论化了,没有具体给出Pika的应用场景和优势。希望能够看到更实用的案例展示。
有8位网友表示赞同!
扩散模型确实很厉害,它能生成非常逼真的图片和文本。不过我还是担心过一段时间技术就过时了
有5位网友表示赞同!
文章里提到Pika可以更好地处理多模态数据,这很棒!我希望能够看到在图像识别、语音合成等领域有更广泛的应用。
有5位网友表示赞同!
虽然我还不懂什么扩散模型,但我觉得开源框架总是一个好消息。希望更多优秀的工具和技术能够共享给大众使用。
有5位网友表示赞同!
文章写的比较晦涩难懂,对于没有计算机科学基础的人来说很难完全理解。希望能有更通俗易懂的解释来普及这个知识
有8位网友表示赞同!
一直觉得模型训练资源占用太大了!希望Pika能够像其他开源框架一样,提供高效的训练工具和方法,降低门槛。
有5位网友表示赞同!
感觉扩散模型越来越强大,未来可能在很多领域取代传统模型。比如人工智能写作,我是不是不用再写作业了?
有11位网友表示赞同!
虽然很期待Pika的性能提升,但我也要提醒大家,模型的黑盒问题仍然存在,需要继续加强研究和监管。
有8位网友表示赞同!
这篇文章给我开启了一扇新的窗户!原来复杂提示词可以被理解得这么透彻,扩散模型还有很多可探索的空间!
有8位网友表示赞同!
对Pika框架的使用指南期待已久,希望能够尽快了解如何应用这个新工具开发自己的项目。
有8位网友表示赞同!
北大斯坦福这种顶尖高校的合作始终让我充满期待!相信Pika一定会成为一个重要的开源资源,引领未来人工智能的发展!
有11位网友表示赞同!