通義千問發(fā)布了首個開源圖像生成基礎(chǔ)模型Qwen-Image,Qwen-Image是一個200億參數(shù)的MMDiT模型,是通義千問系列中首個圖像生成基礎(chǔ)模型。
該模型在文本渲染方面表現(xiàn)卓越,支持中英文多行段落級高保真文本渲染,對復(fù)雜場景和細(xì)粒度細(xì)節(jié)處理能力強(qiáng)。Qwen-Image具備一致性的圖像編輯能力,通過增強(qiáng)的多任務(wù)訓(xùn)練范式,在編輯過程中能保持內(nèi)容的一致性。
在GenEval、DPG、OneIG-Bench、GEdit、ImgEdit、GSO等多個公開基準(zhǔn)測試中,Qwen-Image均取得了最先進(jìn)(SOTA)的性能。特別是在LongText-Bench、ChineseWord和TextCraft等文本渲染基準(zhǔn)上,Qwen-Image表現(xiàn)突出,尤其是在中文文本渲染方面大幅領(lǐng)先現(xiàn)有模型。Qwen-Image能夠準(zhǔn)確渲染海報、PPT頁面等多種包含復(fù)雜文本和圖像組合的場景。