没想到……Stable Diffusion 3开源即出现翻车案例。
生成一个躺在草地上的女孩,结果长这样?
而且不是个例,只要是和人(整体)相关的内容,生成结果都有点掉san。
(前方高能)
但如果是局部,比如只生成人脸,确实很nice。
清晰度、写字、写实性等方面都有明显提升。
对于复杂长提示词的理解也很到位,有网友发现提示越长它画的越好。
那么问题来了,为啥偏偏画不好人类?
问题可能在于数据集
先来看看SD3开源的具体情况。
本次开源的版本是Stable Diffusion 3 Medium(中杯)。
它的规模为20亿参数,在笔记本上就能跑了。
官方强调的属性有5方面,逐一来看:
整体质量和写实性
可生成出色的细节,包括色彩、光线、强写实等,带来灵活风格的高质量输出。
通过16通道VAE,成功解决了其他模型的常见缺陷,比如手部和面部的写实问题。
提示词理解
可以理解复杂长提示,包含空间推理、元素组合、动作、风格等。3个文本编码器可以全部或者组合使用,方便用户平衡性能和显存。
有效利用资源
对VRAM占用很低,非常适合在消费级GPU上运行,且性能不降低。
微调
能够利用小数据集微调,方便定制化。
目前在Hugging Face上已经可以下载模型权重。非商业用途可免费下载使用,商业用途需要先拿授权。
那么为啥升级后还是会翻车?
有人发现,如果细看“躺在草坪上的女孩”这张图像,会发现它在局部细节上确实还可以,甚至很棒。
草地上的影子、衣物上反射的光线、头发的质地……都遵循了物理规律。
但人物整体就不敢恭维了。
不少网友都认为,这就是问题的关键。
我认为他们的NSFW过滤器,把所有人类图像都判定为了NSFW。
这个过滤器全称是filtering out adult content,作用在于过滤掉不合规的成人内容。
SD2发布时就出现过类似的问题,研究人员发现审查这部分内容可能影响了模型对人体结构的理解。
后面的SD2.1和SDXL版本有所缓解。
这次SD3的翻车,暴露了一个问题:过于严格的数据审核,可能误删了一些无害的成人图像,所以现在模型没法理解人体结构。
有网友就阴阳说,没多久之前SD还能和Midjourney竞争,现在一比,就像个笑话。
至少我们的数据集是安全和合乎道德的。
Reddit上“SD3-2B发布是个笑话吗”的帖子,热度已经冲到了800+。
当然,除了技术以外的原因,还不少人觉得SD3的性能不佳更进一步暴露了Stability AI的内部混乱。
我猜他们现在可以安全合规地破产了。
欠债1亿、疑似求卖身
Stability AI的动荡,从SD3开源的一再延期就能窥见端倪。
2月发布模型后,一开始,官方说的是搞完RLHF就开源,结果大家伙等了3个多月,官方放出的还是只有API。直到现在,才开源了一个中杯版本。
与此同时,公司CEO Emad辞职+退出董事会。核心团队也被曝集体离职。
今年5月,据The Information消息,这家初创公司已经面临严重现金短缺:第一季度收入不到500万美元,而亏损超过了3000万美元。同时欠了云厂商和其他企业近1亿美元,“求卖身”的消息不断传出。
值得一提的是,消息称SD3还将开源更多版本,包括4B和8B。
不知道更大版本效果会如何呢?
官网传送门:https://stability.ai/news/stable-diffusion-3-medium
本文来源:量子位

Canon佳能r100入门级微单相机 旅行家用学生vlog视频送礼 4k小巧便携半画幅数码相机 R100 18-45套机 送礼好物 官方标配【不含内存卡配件 推荐购买套餐】
¥3299
¥3599
北通鲲鹏70精英无线游戏手柄AI智控自适应双切扳机摇杆 xbox电脑PC蓝牙NS体感steam电视switch2地平线6
索尼(SONY)Alpha 7C II全画幅微单相机 创意外观滤镜 AI智能芯片 银色 单机身(a7c2/A7C II/A7CM2)
索尼(SONY)ZV-E10K微单数码相机ZV-E10相机直播美颜拍摄Vlog照相神器 APS-C半画幅视频zve10侧翻液晶屏 ZV-E10全新单机(黑) 官方标配【无必备配件/推荐购买套餐】
SNAPMAKER快造U1 3D打印机独立4喷头彩色多材料高精度大尺寸AI智能监测家用桌面高速打手板模型5倍省料
¥5399
¥5999
微星品牌游戏主机 酷睿i5 12600KF/14600KF/RTX4060/5060/5060TI海景房主机DIY台式电脑整机组装电脑 配三 14600KF+一线旗舰RTX5060Ti
惠普HP【国家补贴】星Book Pro Air 14轻薄笔记本电脑(酷睿Ultra5 225H 16G 512G 2.8K 120Hz AI)银
¥6998
¥6998
松能显示器支架 电脑支架 松能科技舱 零感显示器支架臂 机械臂 显示器配件 电脑增高架 HT-Zero
¥423.9
¥448.9
盈通(yeston) RTX 5060 Ti 8G GDDR7 游戏高手OC PA 电竞光追游戏AI智能学习电脑独立显卡
网友评论