3月10日,腾讯混元3D团队宣布开源业界首个面向世界模型的强化学习后训练框架WorldCompass。该框架是混元世界模型1.5的官方强化学习扩展模块,旨在提高世界模型的交互准确性和体验。WorldCompass通过引入强化学习机制,指导模型更准确地遵循用户指令探索世界,并保持长时序的视觉一致性。
实验结果显示,WorldCompass能显著提升SOTA开源世界模型WorldPlay的交互准确率和视觉保真度。特别是在复杂的组合动作场景下,交互准确率提升了近35%。团队在最新的开源SOTA模型WorldPlay上进行了验证。结果显示,经过WorldCompass的后训练,模型能力实现了大幅提升。在复合动作场景下,基座模型对于复杂组合式动作序列执行的准确率仅为20%左右,使用WorldCompass训练后,准确率提升至55%左右,提升幅度超过35%。对于基础动作,准确率也提升了约10%。
WorldCompass已在混元WorldPlay模型上得到验证,相关代码和模型细节已开源。这标志着腾讯在强化学习领域的又一重要进展,为长时序、交互式世界模型的研究和应用提供了新的工具和方法。


