通义千问团队发布全新图像生成模型 Qwen-Image-Layered,借助“图层拆解”技术让静态图片可编辑。它提出“图像解耦”思路,将图片分解为可独立操作的 RGBA 图层。
该模型亮点颇多,如 RGBA-VAE 技术让 RGB 图像与 RGBA 图层在潜空间“对话”,VLD - MMDiT 架构能灵活处理 3 到 10 层以上。应用上,能完成重着色、物体替换等操作,支持可变数量图层分解。这背后,模型历经多阶段进化。目前,其技术报告、代码仓库及 Demo 已分别在 arXiv、Github、ModelScope 上线,有望推动图像编辑领域发展。
通义千问
专用于苹果45W快充17Promax
辰风三丽鸥联名hello kitty头戴式蓝牙耳机无线全包耳麦长续航高颜值开学生日礼物女生 S05粉色KT猫
德力普5号充电电池话筒
¥20.6
¥30.1
音贝奇Real 2 Pro真无线蓝牙耳机主动降噪入耳式运动游戏低延迟音乐高音质超长续航适用苹果华为小米手机
云仕U1入耳式有线耳机圆孔耳麦
绿联300W氮化镓充电器套装桌面充电站PPS/PD100WType-C多口快充头适用苹果MacbookPro笔记本电脑240W线
达尔优EK815机械键盘87/108键真机械黑青红茶轴网吧电竞游戏专用宿舍高颜值电脑外设牧马人键盘鼠标套装 87键-机械合金版单光【黑轴】
OPPO K13 Turbo Pro 5G 疾风散热引擎 潮汐引擎 第四代骁龙 8s 7000mAh 五年长寿大电池 满级防水 手机 骑士银 12GB+256GB
MelGeek蜜氪 【圣诞礼物】O2矮轴键盘 83键三模无线机械蓝牙轻薄便携静音 适配苹果Mac/win笔记本电脑办公 O2矮轴键盘
网友评论