从2022年底开始,我一直在使用各大绘画软件,并对AI绘画对世界的理解感到好奇。我经常使用相同的提示词,在不同的AI绘画平台上生成图像,以观察它们的输出结果。这一次,我从地标建筑的角度出发,对几款热门的AI绘画软件进行了评测。
我选择了六款效果较好的AI绘画工具进行对比:Midjourney、Flux、DALL·E 3、Ideogram,以及两款国内的绘画软件——即梦和可灵。评测涵盖了五个著名城市地标:重庆大剧院、解放碑、北京故宫、巴黎埃菲尔铁塔和悉尼歌剧院。为了测试这些工具的表现,我使用了最近流行的Flux虚实结合的画面风格作为提示词。
从评测结果来看,对于巴黎埃菲尔铁塔和悉尼歌剧院,六款AI绘画工具都能较为准确地在画面上体现。然而,对于北京故宫,AI的理解和表现则不如前者准确,
各平台的理解力排名依次为:flux > dalle3 ≥ ideogram/即梦 > midjourney/可灵。
对于重庆大剧院,没有一款平台能够准确地将其呈现出来。
不过,令人惊喜的是,DALL·E 3在其生成的画面中展现了重庆的其他地标性建筑,例如来福士、喜来登酒店及千厮门大桥等。
相比之下,Midjourney也展现了一些重庆的元素,而Ideogram、Flux以及两款国内软件则未能体现出任何与重庆相关的特征。显然,这种差异与城市地标建筑的知名度有着密切的关系。
随后,我又测试了重庆另一著名地标——解放碑,结果如何呢?详情请见文末揭晓哦~~
注:1、这个提示词flux效果最突出,用了训练过的lora。其他AI绘画软件对比起来效果没有这么惊艳,不过这次评测重点是看AI绘画对城市/地标建筑的理解,看一下地标建筑输出是否正确,提示词是否get到。2、输出结果使用相同关键词且保持默认参数的情况下
一、flux大火的虚实结合视觉效果展示
20秒就可生成,想在线体验这个flux lora视觉效果或者lora模型的,点赞关注,评论区留言领取。
二、提示词主体:一个女孩在【重庆/故宫/埃菲尔铁塔/歌剧院】的【自拍/照片】
添加主谓宾之后扩展版本:In the style of TOK, using an edgy dramatic selfie pose, a Chinese girl with a cute bun, sitting at a table with a happy expression on her iPhone, with the Jiangbei Grand Theater in Chongqing, China as the background. On the table is a Chongqing hot pot. The illustration contrasts with the real food and environment, creating a unique mixed media effect and high-angle perspective. The art style combines elements of reality and illustration, surrounded by illustrations of flowers, smoke, fire, ice cream, sparks, rock music以 TOK 的风格,采用前卫的戏剧性自拍动作姿势,一个中国女孩,可爱丸子头,以中国重庆江北大剧院为背景,坐在餐桌旁表情开心地用 iPhone自拍。餐桌上是重庆火锅。插画与真实的食物和环境形成鲜明对比,创造出独特的混合媒体效果和高角度视角。艺术风格结合了现实与插画的元素,周围是花朵、烟雾、火焰、冰淇淋的插图
三、6个AI绘画软件对比
1、中国重庆江北大剧院
1-1、Midjourney 重庆江北大剧院 → 理解力0% 有山有水,有一点重庆渝中半岛的痕迹,没有大剧院的体现(如果使用垫图是可以画出来的,只测试系统默认状态)
朝天门两江游和渝中半岛有所体现
1-2、Flux 重庆江北大剧院 → 理解力0% flux理解不了重庆江北大剧院和重庆,没有一点相关元素的体现
火锅get 画面效果很棒哦
1-3、Dalle3 重庆江北大剧院 → 理解力0% 不过正确体现了重庆地标来福士、喜来登、千厮门大桥等,苹果手机,提示词理解和构图都很棒、手指无残缺,但是图1和图4多了奇怪的建筑,画面美观度比较一般。
南岸区喜来登和来福士有所体现
渝中半岛和千厮门大桥有体现
1-4、Ideogram 重庆江北大剧院 → 理解力0% 没有重庆元素的体现,建筑像80年代的中国建筑有像夜上海有像ZF部门大楼,人物偏老气,但是有一个优点,手指效果还不错。
1-5、即梦 重庆江北大剧院 → 理解力0% 没有重庆地标或者相关元素的体现,非要说的话图2顶部跟重庆大礼堂建筑比较相似,火锅画的跟实物很像
1-6、可灵 重庆江北大剧院 → 理解力0% 没有重庆相关元素,提示词写的一个可爱丸子头女孩在餐桌前自拍,背景是中国重庆江北大剧院,没能很好的理解语义。
2、北京故宫
2-1、Midjourney 北京故宫 → 理解88% 跟使用方法有关
2-2、Flux 北京故宫 → 理解96% 画面整体很棒
2-3、Dalle3 北京故宫 → 理解90% 其他提示词也都get到了
2-4、Ideogram 北京故宫 → 理解92%
2-5、即梦 北京故宫 → 理解力95%
2-6、可灵 北京故宫 → 理解力88% 画面上体现较少
3、巴黎艾菲尔铁塔
3-1、Midjourney 巴黎艾菲尔铁塔 → 理解100%
3-2、Flux 巴黎艾菲尔铁塔 → 理解100%
3-3、Dalle3 巴黎艾菲尔铁塔 → 理解100% 对比dalle3其他提示词出的画面整体画面效果还不错
3-4、Ideogram 巴黎艾菲尔铁塔 → 理解100%
3-5、即梦 巴黎艾菲尔铁塔 → 理解力99%
3-6、可灵 巴黎艾菲尔铁塔 → 理解力95% 垫什么图像什么,自由发挥度比较小
4、 悉尼歌剧院
4-1、Midjourney 悉尼歌剧院 理解力90% 跟使用方法关系很大
4-2、Flux 悉尼歌剧院 理解力100% 轮廓一模一样
4-3、Dalle3 悉尼歌剧院 理解力95%
4-4、Ideogram 悉尼歌剧院 理解力98% 其他的提示词也能准确get
4-5、即梦 悉尼歌剧院 → 理解力97%
4-6、可灵 悉尼歌剧院 → 理解力96%
5、我用几个语言模型搜索了一下重庆地标建筑
发现解放碑排第一,于是新增了一组背景为解放碑的图,还是没有一个软件能准确画出解放碑来,做为重庆人有点感慨呀。
即梦👇
可灵 图2右上有千厮门大桥的影子👇
Flux lora👇
Midjourney 有上海地标的影子👇
DALL·E 3 图2右侧有千厮门大桥的影子👇
Ideogram👇
好啦,这期关于AI绘画对于地标建筑的测评分享到这里结束了,下期再见。
毕竟都是国外的训练数据,所以才对国际知名的景点理解多一点吧
嗯,是的,但是dalle3很出乎人的意料呀,来福士和千厮门大桥准确的表现了出来。我们国内的2个也没有准确表达呀。