通义实验室推出Z-Image——一款仅60亿参数、性能卓越的图像生成基础模型。它通过系统性优化,证明了无需庞大模型规模,也能实现顶尖的真实感图像生成和中英文文本渲染,效果媲美领先商业模型。

Z-Image参数量仅为6亿,却能生成媲美十倍规模模型的高质量照片级真实图像,且能在普通显卡(<16GB显存)上流畅运行,极大降低了高端图像生成的门槛。目前已公开发布Z-Image-Turbo(生成版),编辑版Z-Image-Edit即将推出。

架构上,Z-Image采用单流扩散Transformer设计,将文本、图像条件信息与噪声潜变量统一编码为一条序列,简化模型结构,提升计算效率和表现力。

内部ELO竞技测试显示,Z-Image在开放源代码模型中处于领先地位,且与商业巨头模型竞争力强劲。

Z-Image-Turbo在细节、光影、质感控制上表现优异,高清真实且具备良好审美,生成效果兼顾真实感与艺术性。

特别值得一提的是它的双语文本渲染能力:不仅能准确呈现中英文文字,还能在海报设计中展现强大的构图与排版能力,即使小字体环境下也能保证文本清晰且美观。

Z-Image拥有丰富的世界知识与文化认知,能够精准生成名胜古迹、知名人物及特定实物,体现深厚的语义理解力。

内置的提示增强器(Prompt Enhancer)通过结构化推理注入逻辑与常识,支持处理复杂任务,如“鸡兔同笼”问题或古诗意境的视觉化,编辑时也能根据模糊指令推断用户意图,确保结果合乎逻辑。

编辑版Z-Image-Edit支持复杂指令执行,能同时修改与亮化背景,精准调整指定位置文本,并在大幅变换场景下保持人物一致性,实现对图像元素的细粒度控制。

GitHub | ModelScope | HuggingFace | Z-Image gallry
 
 
Back to Top