中國(guó)聯(lián)通元景文生圖大模型開(kāi)源:真正懂中文
中國(guó)聯(lián)通宣布,聯(lián)通數(shù)據(jù)智能公司打造、首個(gè)完全在國(guó)產(chǎn)昇騰AI軟硬件平臺(tái)上實(shí)現(xiàn)訓(xùn)練和推理的中文原生文生圖模型“聯(lián)通元景文生圖模型”,正式開(kāi)源。
該模型實(shí)現(xiàn)了多項(xiàng)自主創(chuàng)新突破:
首先是在架構(gòu)上,通過(guò)在SDXL架構(gòu)中融合復(fù)合語(yǔ)言編碼模塊,實(shí)現(xiàn)了對(duì)中文長(zhǎng)文本、多屬性對(duì)應(yīng)和中文特色詞匯的精確語(yǔ)義理解,對(duì)應(yīng)圖像的生成效果得到了極大提升。
其次是在昇騰AI大規(guī)模算力集群上,實(shí)現(xiàn)了中文原生文生圖模型的訓(xùn)練和推理,并將模型和代碼對(duì)業(yè)界開(kāi)源,以推動(dòng)文生圖領(lǐng)域的國(guó)產(chǎn)化進(jìn)程。
據(jù)悉,原始SDXL的語(yǔ)言編碼器僅使用英文CLIP模型,智能支持英文文本輸入,輸入長(zhǎng)度也不能超過(guò)77個(gè)token。
對(duì)此,聯(lián)通元景文生圖模型一方面將英文CLIP模型替換成中文CLIP,并引入復(fù)合語(yǔ)言編碼架構(gòu),使用基于encoder-decoder架構(gòu)的語(yǔ)言模型,突破文本長(zhǎng)度限制。
通過(guò)引入復(fù)合語(yǔ)言編碼模塊,元景文生圖模型實(shí)現(xiàn)了原生中文語(yǔ)義理解,避免了利用翻譯插件等作為中介調(diào)用英文文生圖模型造成的中文信息損失。
同時(shí),通過(guò)引入海量中文圖文對(duì)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,模型對(duì)中文專(zhuān)屬名詞,如鼠標(biāo)-老鼠、仙鶴-吊車(chē)等英文模型易混淆的對(duì)象,以及中文菜譜等英文模型無(wú)法理解的名詞,都能夠準(zhǔn)確理解并生成對(duì)應(yīng)的高質(zhì)量圖片。