中国商汤科技开源图文交错生成增强版模型
2026-06-13 14:50
收藏

维度网讯,商汤科技6月12日宣布开源其商汤日日新SenseNova U1系列新成员——U1-8B-MoT-Interleaved图文交错增强版模型。

该模型面向图文交错创作与生成(Interleaved Generation)场景进行了专项强化,可支持绘本、故事书、多页PPT、图文教程等连续内容的创作,旨在解决传统多模态模型在多轮生成后出现的角色形象飘移、画风断裂、图文脱节等问题。

此次模型升级主要体现在四个方面。叙事一致性与角色连贯性方面,模型提升了长周期创作中的叙事连贯性、角色一致性与画风统一性,故事线在整个生成过程中被严格遵循,人物形象从第一页到最后一页保持高度一致。图文对应关系方面,模型改善了图像内容与文字描述之间的语义对齐能力,生成的画面能更准确地呈现文本所描述的复杂场景、动态动作与物体间的空间关系。视觉质量方面,针对人物结构、文字渲染、页面排版等高频高难区域进行了定向优化,显著降低了生成物中的视觉瑕疵(Artifact)。此外,该版本首次引入了多页PPT自动生成能力,模型可智能提取输入内容中的要点,自行完成排版设计与文字渲染。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com