今天腾讯正式发布了业内首个毫秒级响应的实时生图大模型——混元图像2.0(Hunyuan Image2.0)。目前已在腾讯混元官方网站上线,并对外开放注册体验,该模型主要有两大特点:实时生图、超写实画质。 ">
5月16日,腾讯今天正式发布业内首个具有毫秒级响应的大规模实时图片生成模型。||_2@981.com混合图像2.0(浑源
图片2.0)。目前已在腾讯官方网站上线并向公众开放注册体验。该模型具有两个主要特点:实时图像生成和超真实图像质量。
与前一代模型相比,腾讯MixedImage2.0模型的参数数量增加了一个数量级。得益于超高压缩比的图像编解码器和新型扩散架构,其图像生成速度明显快于行业领先型号。
在同类商业产品每张图推理速度需要5到10秒的情况下,腾讯混元可实现毫秒级响应,支持用户可以一边打字或者一边说话一边出图,改变了传统“抽卡—等待—抽卡”的方式。
除了速度快之外,腾讯MixedImage2.0模型的图像生成质量也得到了显着提升。通过强化学习等算法和大量人类审美知识的引入,|1@4299.com|
GenEval,一个评估基准,专门测试模型在图像生成领域理解和生成复杂文本指令的能力
OnBench),腾讯MixedImage2.0模型的准确率超过95%,远超其他同类模型。
提示词:人像摄影,爱因斯坦,背景是东方明珠,自拍视角
腾讯方面表示,腾讯混图2.0引入了多模态大型语言模型(MLLM)作为文本编码器,配合其自主研发的结构化字幕系统,不仅可以理解你在说什么,还可以推断出你想要图片如何表达。
即使把三个意思埋在一句话里,也可以一个一个地拆开,一个一个地抽出来。
除了文字输入,腾讯混元图像2.0还可以通过语音直接输入提示词,系统将语音自动转写为文字,并在识别后即时生成图像,适用于直播讲解、移动创作等场景。
您还可以上传草图作为参考。该模型可以自动识别线条草稿的结构和构图逻辑,然后结合提示词的内容,完成光影、材质、背景等细节,并快速展开为图片。
腾讯混元图像2.0模型生成的图片:
肖像摄影风格
动物特写
复古摄影
动漫风格
真实的角色风格