九游娱乐|JIUYOU - 官方网页版

欢迎访问九游娱乐,探索3A游戏开发的无限可能! 2024年11月10日 游戏开发者与玩家的交流平台,邀您共享实时渲染技术的魅力!

字节跳动豆包文生图技术发布:数据处理、预训练、RLHF全流程公开

  凤凰网科技讯 (作者/彭坤苹)3月12日,豆包大模型团队正式发布文生图技术,首次公开Seedream 2.0图像生成模型技术细节,涵盖数据构建、预训练框架、后训练RLHF 全流程。该对Seedream 2.0原生中英双语理解、文字渲染、高美感、分辨率与画幅变换等特性的实现进行了详细介绍。

  显示Seedream 2.0于2024年12月初在豆包APP和即梦上线,已服务上亿C端用户,成为国内众多专业设计师辅助创作的首选模型。相较于Ideogram 2.0、Midjourney V6.1、Flux 1.1 Pro等主流模型,它有效解决了文本渲染能力欠佳、对中国文化理解不足等问题,在原生中英双语支持、美感及指令遵循等能力上实现整体提升。其能高精度理解与遵循中英文指令,生成高美感图像作品,在字体渲染和海报设计等场景中,文字崩坏率大幅降低,字体变化更自然美观。对于国风图案与元素,也能输出高品质成果。

  团队构建了Bench-240评测基准评估模型,测试显示,Seedream 2.0面向英文提示词,生成内容的结构合理性、文本理解准确性高于主流模型;中文综合能力同样出色,生成与渲染文字可用率达78%,完美响应率为63%。

  深度融合知识的数据预处理框架:面对百亿量级中英多模态数据,团队构建以 “知识融合” 为核心的预处理框架。创新设计四维拓扑网络,包含优质数据层、分布维持层、知识注入层、定向增强层,平衡数据质量与知识多样性。实现智能标注引擎三级认知进化,提升模型理解、识别能力,并对工程系统重构,提高数据处理效率与质量。

  预训练聚焦双语理解与文字渲染:采用全新预训练架构设计,提出基于 LLM 的双语对齐方案,打破语言视觉次元壁;构建双模态编码融合系统,解决文本渲染困境;对 SD3 的 MMDiT 架构进行三重升级,实现多分辨率生成缩放自如。

  后训练 RLHF 突破能力瓶颈:后训练包含四个阶段,其中基于人类反馈对齐(RLHF)的优化系统最为关键。九游娱乐官方团队构建多维度偏好数据体系,开发三个不同奖励模型,通过反复学习驱动模型进化,提升了Seedream 2.0整体性能。