腾讯混元文生图开源模型推出小显存版本仅需6G显存即可运行

admin 2024-07-05 16:00:31 科技阅读: 2389

摘要: 7月4日，腾讯混元文生图大模型（混元DiT）宣布开源小显存版本，仅需6G显存即可运行，对使用个人电脑本地部署的开发者十分友好，该版本与LoRA、ControlNet等插件，都已适配至Diffusers库；并新增对Kohya图形化界面的支持，

7月4日，腾讯混元文生图大模型（混元DiT）宣布开源小显存版本，仅需6G显存即可运行，对使用个人电脑本地部署的开发者十分友好，该版本与LoRA、ControlNet等插件，都已适配至Diffusers库；并新增对Kohya图形化界面的支持，让开发者可以低门槛地训练个性化LoRA模型；同时，混元DiT模型升级至1.2版本，在图片质感与构图方面均有所提升。

此外，腾讯宣布混元文生图打标模型”混元Captioner“正式对外开源。该模型支持中英文双语，针对文生图场景进行专门优化，可帮助开发者快速制作高质量的文生图数据集。

相比起业界的开源打标模型，混元Captioner模型能更好的理解与表达中文语义，输出的图片描述更为结构化、完整和准确，并能精准识别出常见知名人物与地标。模型还支持开发者自行补充和导入个性化的背景知识。

混元Captioner模型开源之后，全球的文生图研究者、数据标注人员，均可使用混元Captioner高效地提升自身图像描述质量，生成更全面、更准确的图片描述，提升模型效果。混元Captioner生成的数据集不仅能用于训练基于混元DiT的模型，亦可用于其他视觉模型训练。

模型易用性再提升，个人电脑可轻松运行

腾讯混元DiT模型宣布了三大更新：推出小显存版本与Kohya训练界面，并升级至1.2版本，进一步降低使用门槛的同时提升图片质量。

基于DiT架构的文生图模型生成图片质感更佳，但对显存的要求却非常高，让许多开发者望而却步。这也是新版本Stable Diffusion模型无法快速普及的原因之一。

应广大开发者的需求，混元DiT推出小显存版本，最低仅需6G显存即可运行优化推理框架，对使用个人电脑本地部署的开发者非常友好。经过与Hugging Face合作，小显存版本、LoRA与ControlNet插件，都已经适配到Diffusers库中。开发者无需下载原始代码，仅用简单的三行代码仅可调用，大大简化了使用成本。

同时，混元DiT宣布接入Kohya，让开发者可以低门槛地训练专属LoRA模型。

Kohya是一个开源的、轻量化模型微调训练服务，提供了图形化的用户界面，被广泛用于扩散模型类文生图模型的训练。用户可以通过图形化界面，完成模型的全参精调及LoRA训练，无需涉及到代码层面的细节。训练好的模型符合Kohya生态架构，可以低成本与 WebUI 等推理界面结合，实现一整套“训练-生图”工作流。

面向文生图、支持中英文，提升数据质量

在提升模型易用性的同时，腾讯混元团队也在开放更多的关键技术，包括此前的训练代码，最新的打标模型混元Captioner。

数据集就像AI训练的教材。训练数据集的质量，影响着模型生成内容的效果。因此，文生图开发者往往需要对原始图片进行清晰、全面的标注，制作高质量的数据集，才能训练出来一个语义理解准确、绘画技艺高超的文生图大模型。

借助打标模型，开发者可以快速生成高质量数据集。具体来说，文生图开发者将原始图片集导入混元Captioner，后者将生成高质量标注；也可以导入图片与原始描述，利用混元Captioner过滤其中的无关信息，并完善和优化图片描述，以提高数据质量。

目前，业界对于图片描述文本的生成，主要使用通用多模态Captioner模型，存在描述过于简单或繁琐（与画面描述的无关信息过多）、缺少背景知识导致无法识别知名人物和地标等问题，并且许多模型并非中文原生，中文描述不够精准。

[MD:Title]
混元Captioner对图片描述进行结构化与准确度提升

[MD:Title]
混元Captioner的背景知识更为完善

混元Captioner模型针对文生图场景专门进行优化：构建了结构化的图片描述体系；并在模型层面，通过注入人工标注、模型输出、公开数据等多种来源提升Caption描述的完整性；并注入知名文学作品形象、地标、食物、动物、中国元素与知识等大量背景知识，让模型输出的描述更为准确、完整。

[MD:Title]
混元Captioner模型构建了结构化的图片描述体系

众多开发者关注，成最受欢迎国产DiT开源模型

作为首个中文原生DiT开源模型，混元DiT自全面开源以来，一直持续建设生态。6月，混元DiT发布的专属加速库，可将推理效率进一步提升，生图时间缩短75%；并进一步开源了推理代码；发布LoRA和ControlNet等插件。于此同时，模型易用性大幅提升，用户可以通过Hugging Face Diffusers快讯调用混元DiT模型及其插件，或基于Kohya和ComfyUI等图形化界面训练与使用混元DiT。

目前，在众多开发者的支持下，混元DiT发布不到2个月，Github Star数已经超过2.6k，成为最受欢迎的国产DiT开源模型。

[MD:Title]

tags: 模型开发者开源

腾讯混元文生图开源模型推出小显存版本仅需6G显存即可运行

华为之外排第一！深开鸿开源鸿蒙主仓代码贡献量超400万行

酷家乐如何制作自己的模型（酷家乐怎么自己做模型）

“买个菜不用开坦克去”！全球AI浪潮开始聚焦“小而美”：告别大模型，拥抱高效率

AI大模型让智慧交通“更聪明” 海信亮相2024世界人工智能大会

中国开源操作系统发布AIPC版本与AI技术深度融合

理想加入“端到端”竞赛：虽只是PPT

我来说两句

精选推荐

三星超级品牌周手机、家电狂欢：最高满减1000元

AMD Zen5锐龙开卖时间定了！桌面、笔记本同时暴击

首款骁龙8 Gen3国产平板！一加平板 Pro来了：安卓最强性能

四川一男子上山采菌被熊咬掉一半鼻子：狂奔5公里获救

米哈游投资的人造太阳启动了：洪荒70托卡马克成功放电！全球首台

华硕推出Z790-AYW OC WIFI主板：最大支持DDR5-8200

最新文章

ipad2充电没反应

年度爆文

跟安卓iOS分庭抗礼！腾讯客服：微信正与华为进行原生鸿蒙操作

荣耀首款小折叠！荣耀Magic V Flip评测：4英寸超大外屏我能玩一天

腾讯课堂宣布停运：10月1日全面停止所有平台服务安卓、苹果商店已无法搜到

烘完直接穿！石头洗烘一体机H1 Air、M1 Pure开售：1999元起

Are You OK！余承东不说遥遥领先了：现场开始飙英语网友喊话雷军

《蛋仔派对》携手社会各界共筑网络安全新防线

华为Mate 70系列核心配置曝光：全系满血无线充满血鸿蒙完全体

现实的“尸香魔芋”：看起来像鲜肉但浓烈的动物腐烂气味

随时随地吃火锅！海底捞自热火锅大促：券后一盒不到10块

打出美洲杯、欧洲杯体育营销组合牌——全球化战略助力品牌腾飞 TCL电视销量蝉联全球第二

热门标签

随机文章

腾讯混元文生图开源模型推出小显存版本 仅需6G显存即可运行

华为之外排第一！深开鸿开源鸿蒙主仓代码贡献量超400万行

酷家乐如何制作自己的模型（酷家乐怎么自己做模型）

“买个菜不用开坦克去”！全球AI浪潮开始聚焦“小而美”：告别大模型，拥抱高效率

AI大模型让智慧交通“更聪明” 海信亮相2024世界人工智能大会

中国开源操作系统发布AIPC版本 与AI技术深度融合

理想加入“端到端”竞赛：虽只是PPT

我来说两句

精选推荐

三星超级品牌周 手机、家电狂欢：最高满减1000元

AMD Zen5锐龙开卖时间定了！桌面、笔记本同时暴击

首款骁龙8 Gen3国产平板！一加平板 Pro来了：安卓最强性能

四川一男子上山采菌被熊咬掉一半鼻子：狂奔5公里获救

米哈游投资的人造太阳启动了：洪荒70托卡马克成功放电！全球首台

华硕推出Z790-AYW OC WIFI主板：最大支持DDR5-8200

最新文章

ipad2充电没反应

年度爆文

跟安卓iOS分庭抗礼！腾讯客服：微信正与华为进行原生鸿蒙操作

荣耀首款小折叠！荣耀Magic V Flip评测：4英寸超大外屏我能玩一天

腾讯课堂宣布停运：10月1日全面停止所有平台服务 安卓、苹果商店已无法搜到

烘完直接穿！石头洗烘一体机H1 Air、M1 Pure开售：1999元起

Are You OK！余承东不说遥遥领先了：现场开始飙英语 网友喊话雷军

《蛋仔派对》携手社会各界 共筑网络安全新防线

华为Mate 70系列核心配置曝光：全系满血无线充 满血鸿蒙完全体

现实的“尸香魔芋”：看起来像鲜肉 但浓烈的动物腐烂气味

随时随地吃火锅！海底捞自热火锅大促：券后一盒不到10块

打出美洲杯、欧洲杯体育营销组合牌——全球化战略助力品牌腾飞 TCL电视销量蝉联全球第二

热门标签

随机文章

腾讯混元文生图开源模型推出小显存版本仅需6G显存即可运行

中国开源操作系统发布AIPC版本与AI技术深度融合

三星超级品牌周手机、家电狂欢：最高满减1000元

腾讯课堂宣布停运：10月1日全面停止所有平台服务安卓、苹果商店已无法搜到

Are You OK！余承东不说遥遥领先了：现场开始飙英语网友喊话雷军

《蛋仔派对》携手社会各界共筑网络安全新防线

华为Mate 70系列核心配置曝光：全系满血无线充满血鸿蒙完全体

现实的“尸香魔芋”：看起来像鲜肉但浓烈的动物腐烂气味