腾讯混元文生图开源模型推出小显存版本 仅需6G显存即可运行

admin admin 2024-07-05 16:00:31 科技 阅读: 2389
摘要: 7月4日,腾讯混元文生图大模型(混元DiT)宣布开源小显存版本,仅需6G显存即可运行,对使用个人电脑本地部署的开发者十分友好,该版本与LoRA、ControlNet等插件,都已适配至Diffusers库;并新增对Kohya图形化界面的支持,

7月4日,腾讯混元文生图大模型(混元DiT)宣布开源小显存版本,仅需6G显存即可运行,对使用个人电脑本地部署的开发者十分友好,该版本与LoRA、ControlNet等插件,都已适配至Diffusers库;并新增对Kohya图形化界面的支持,让开发者可以低门槛地训练个性化LoRA模型;同时,混元DiT模型升级至1.2版本,在图片质感与构图方面均有所提升。

此外,腾讯宣布混元文生图打标模型”混元Captioner“正式对外开源。该模型支持中英文双语,针对文生图场景进行专门优化,可帮助开发者快速制作高质量的文生图数据集。

相比起业界的开源打标模型,混元Captioner模型能更好的理解与表达中文语义,输出的图片描述更为结构化、完整和准确,并能精准识别出常见知名人物与地标。模型还支持开发者自行补充和导入个性化的背景知识。

混元Captioner模型开源之后,全球的文生图研究者、数据标注人员,均可使用混元Captioner高效地提升自身图像描述质量,生成更全面、更准确的图片描述,提升模型效果。混元Captioner生成的数据集不仅能用于训练基于混元DiT的模型,亦可用于其他视觉模型训练。

模型易用性再提升,个人电脑可轻松运行

腾讯混元DiT模型宣布了三大更新:推出小显存版本与Kohya训练界面,并升级至1.2版本,进一步降低使用门槛的同时提升图片质量。

基于DiT架构的文生图模型生成图片质感更佳,但对显存的要求却非常高,让许多开发者望而却步。这也是新版本Stable Diffusion模型无法快速普及的原因之一。

应广大开发者的需求,混元DiT推出小显存版本,最低仅需6G显存即可运行优化推理框架,对使用个人电脑本地部署的开发者非常友好。经过与Hugging Face合作,小显存版本、LoRA与ControlNet插件,都已经适配到Diffusers库中。开发者无需下载原始代码,仅用简单的三行代码仅可调用,大大简化了使用成本。

同时,混元DiT宣布接入Kohya,让开发者可以低门槛地训练专属LoRA模型。

Kohya是一个开源的、轻量化模型微调训练服务,提供了图形化的用户界面,被广泛用于扩散模型类文生图模型的训练。用户可以通过图形化界面,完成模型的全参精调及LoRA训练,无需涉及到代码层面的细节。训练好的模型符合Kohya生态架构,可以低成本与 WebUI 等推理界面结合,实现一整套“训练-生图”工作流。

面向文生图、支持中英文,提升数据质量

在提升模型易用性的同时,腾讯混元团队也在开放更多的关键技术,包括此前的训练代码,最新的打标模型混元Captioner。

数据集就像AI训练的教材。训练数据集的质量,影响着模型生成内容的效果。因此,文生图开发者往往需要对原始图片进行清晰、全面的标注,制作高质量的数据集,才能训练出来一个语义理解准确、绘画技艺高超的文生图大模型。

借助打标模型,开发者可以快速生成高质量数据集。具体来说,文生图开发者将原始图片集导入混元Captioner,后者将生成高质量标注;也可以导入图片与原始描述,利用混元Captioner过滤其中的无关信息,并完善和优化图片描述,以提高数据质量。

目前,业界对于图片描述文本的生成,主要使用通用多模态Captioner模型,存在描述过于简单或繁琐(与画面描述的无关信息过多)、缺少背景知识导致无法识别知名人物和地标等问题,并且许多模型并非中文原生,中文描述不够精准。

[MD:Title]
混元Captioner对图片描述进行结构化与准确度提升

[MD:Title]
混元Captioner的背景知识更为完善

混元Captioner模型针对文生图场景专门进行优化:构建了结构化的图片描述体系;并在模型层面,通过注入人工标注、模型输出、公开数据等多种来源提升Caption描述的完整性;并注入知名文学作品形象、地标、食物、动物、中国元素与知识等大量背景知识,让模型输出的描述更为准确、完整。

[MD:Title]
混元Captioner模型构建了结构化的图片描述体系

众多开发者关注,成最受欢迎国产DiT开源模型

作为首个中文原生DiT开源模型,混元DiT自全面开源以来,一直持续建设生态。6月,混元DiT发布的专属加速库,可将推理效率进一步提升,生图时间缩短75%;并进一步开源了推理代码;发布LoRA和ControlNet等插件。于此同时,模型易用性大幅提升,用户可以通过Hugging Face Diffusers快讯调用混元DiT模型及其插件,或基于Kohya和ComfyUI等图形化界面训练与使用混元DiT。

目前,在众多开发者的支持下,混元DiT发布不到2个月,Github Star数已经超过2.6k,成为最受欢迎的国产DiT开源模型。

[MD:Title]

 

其他相关
华为之外排第一!深开鸿开源鸿蒙主仓代码贡献量超400万行

华为之外排第一!深开鸿开源鸿蒙主仓代码贡献量超400万行

作者: admin 时间:2024-07-08 阅读: 1874
石家庄都市网7月8日消息,今日,深开鸿公众号发文称,深开鸿在OpenHarmony社区主仓代码贡献总量超过400万行,在华为以外的生态厂商中位居第一。 近一年内,深开鸿OpenHarmony主仓代码贡献量占比超过10%,远超除华为外其他所有...
酷家乐如何制作自己的模型(酷家乐怎么自己做模型)

酷家乐如何制作自己的模型(酷家乐怎么自己做模型)

作者: admin 时间:2024-07-08 阅读: 193
导读 ,小詹来为大家解答以上问题。酷家乐如何制作自己的模型,酷家乐怎么自己做模型很多人还不知道,现在让我们一起来看看吧! 解答:1、... ,小詹来为大家解答以上问题。酷家乐如何制作自己的模型,酷家乐怎么自己做模型很多人还不知道,现在让我们...
“买个菜不用开坦克去”!全球AI浪潮开始聚焦“小而美”:告别大模型,拥抱高效率

“买个菜不用开坦克去”!全球AI浪潮开始聚焦“小而美”:告别大模型,拥抱高效率

作者: admin 时间:2024-07-08 阅读: 392
导读 全球人工智能领域初期追求构建庞大模型,旨在通过海量数据训练模拟人类智能。但现状显示,众多科技企业及初创公司正转向开发小型或中型语言... 全球人工智能领域初期追求构建庞大模型,旨在通过海量数据训练模拟人类智能。但现状显示,众多科技企业...

AI大模型让智慧交通“更聪明” 海信亮相2024世界人工智能大会

作者: admin 时间:2024-07-08 阅读: 9136
7月4日-7日,2024世界人工智能大会在上海世博展览举办。大会主题为“以共商促共享 以善治促善智”,由外交部、国家发展改革委、教育部、科技部、工业和信息化部、中国科学院、中国科协和上海市政府共同主办。数字技术对交通...
中国开源操作系统发布AIPC版本 与AI技术深度融合

中国开源操作系统发布AIPC版本 与AI技术深度融合

作者: admin 时间:2024-07-08 阅读: 414
导读 【中国开源操作系统发布AIPC版本】2024 CCF(中国计算机学会)系统软件技术论坛7日在长沙开幕。现场,被誉为“国之重器”的中国开源操作系统... 【中国开源操作系统发布AIPC版本】2024 CCF(中国...

理想加入“端到端”竞赛:虽只是PPT

作者: admin 时间:2024-07-08 阅读: 8445
“端到端”的风正在席卷中国智驾行业。 进入 2024 年下半年,如果有车企谈智能驾驶时不谈“端到端”,那大概率会被视为落后了。 7月5日,理想汽车发布了基于端到端模型、VLM 视觉语言模型和世...
我来说两句

年度爆文