MultiTalk首个开源AI音频驱动的「多人对话」视频生成项目

技术社区 作者:FastSign 2025-07-07 00:39:09 阅读:3

MultiTalk 是由 MeiGen-AI 开发的音频驱动多人对话视频生成框架。它能基于多流音频输入、参考图像和提示词,生成符合提示且唇形与音频同步的互动视频,支持单人 / 多人对话、卡通角色生成、唱歌场景等。其具备 480p/720p 分辨率灵活输出、最长 15 秒长视频生成能力,还引入 Multi-GPU 推理、TeaCache 加速等技术优化性能,可用于虚拟人对话、动画制作等场景。

功能特点

多场景生成能力:支持单人 / 多人对话视频生成,还能实现卡通角色创作与唱歌场景模拟,满足多样化创作需求。

精准音视同步:基于音频输入实现唇形动作精准匹配,确保对话视频的真实感。

灵活输出规格:提供 480P 和 720P 分辨率选择,支持任意比例画面输出,适配不同显示场景。

高效长视频处理:可生成最长 15 秒的视频,借助 APG 技术减少长视频色彩误差累积。

性能优化技术:集成 Multi-GPU 推理、TeaCache 加速(提速 2-3 倍)和低 VRAM 推理等技术,提升运算效率。

交互控制功能:通过提示词可直接操控虚拟人互动行为,增强创作灵活性。

项目链接

https://github.com/MeiGen-AI/MultiTalk


赞助链接
在线咨询

Copyright © 2015 KnowSafe All rights reserved.

蜀ICP备20006130号-8