AI数字人Webui是一个基于Gradio的Web控制面板,为AI数字人后端系统提供可视化的配置管理和服务监控功能。通过直观的Web界面,用户可以轻松配置各种服务参数、监控系统状态,并一键启动/停止相关服务。 注:快速启动用户则只需用在配置面板中进行GPT配置、TTS配置选择melotts、Plater配置选择ovrlipsync。然后在控制面板启动Backend服务即可。
控制面板是系统的核心监控中心,提供以下功能:
- 一键启动服务: 批量启动所有已配置的服务
- 一键停止服务: 安全关闭所有运行中的服务
- 单独服务控制: 可独立启动/停止特定服务
- Audio2Face进程管理(使用ovrlipsync则不用管)
- 需要配置Audio2Face可执行文件路径
- 需要配置USD场景文件路径
- 支持启动后自动加载USD配置文件
- UE5进程管理
- 需要配置UE5可执行文件路径
- 支持启动UE5客户端应用
- 实时显示各服务运行状态
- 显示服务端口占用情况
- 提供详细的错误信息和日志
配置面板用于设置系统各组件的参数,确保服务正常运行。
系统核心参数设置:
- 日志等级: 控制系统日志输出详细程度
DEBUG: 详细调试信息INFO: 一般信息(推荐)WARNING: 警告信息ERROR: 仅错误信息
- 服务器主机: 后端服务绑定的IP地址(默认:127.0.0.1)
- 服务器端口: 后端服务监听端口(默认:5002)
大语言模型相关配置,支持多种LLM服务提供商。
为了便于快速切换不同的GPT配置,系统提供预设管理功能:
- 保存预设: 将当前GPT配置保存为命名预设
- 加载预设: 一键加载已保存的配置预设
- 删除预设: 移除不需要的配置预设
- 预设列表: 显示所有可用的配置预设
- GPT类型: 选择LLM服务提供商
OpenAI: 支持OpenAI官方API及兼容接口百炼应用: 阿里云百炼大模型应用
- API URL: LLM服务的API端点地址
- API密钥: 访问LLM服务所需的API Key
Webui内置API测试工具,帮助验证配置的正确性:
- 发送测试请求到配置的API端点
- 验证API密钥的有效性
- 检查网络连接和响应时间
系统提供两种配置模式以满足不同用户需求:
基础模式(推荐新手使用)
- 提供常用参数的可视化配置
- 包括模型名称、温度值、最大tokens等
高级模式(适合高级用户)
- 直接编辑HTTP请求头(Request Headers)
- 直接编辑HTTP请求体(Request Body)
- 支持自定义参数和特殊配置
- 完全控制API调用格式
检索增强生成(RAG)功能配置:
- 启用RAG: 开启/关闭RAG功能
- Embedding API端点: 向量化服务的API地址
- Embedding模型: 使用的向量化模型名称
- API密钥: 访问Embedding服务的API Key
- 检索数量: 从知识库检索的相关文档数量
文本转语音(Text-to-Speech)服务配置,支持多种TTS引擎。
为了便于快速切换不同的TTS配置,系统提供预设管理功能:
- 保存预设: 将当前TTS配置保存为命名预设
- 加载预设: 一键加载已保存的配置预设
- 删除预设: 移除不需要的配置预设
- 预设列表: 显示所有可用的配置预设
- TTS类型: 选择语音合成引擎
GPT-SoVits: 高质量AI语音克隆引擎MeloTTS: 轻量级多语言TTS引擎
- API端点: TTS服务的API地址
- API密钥: 访问TTS服务的认证密钥(如需要)
内置TTS测试工具,验证语音合成服务:
- 发送测试文本进行语音合成
- 验证API连接和参数配置
基础模式(推荐新手使用)
- 提供常用参数的可视化配置
高级模式(适合高级用户)
- 直接编辑HTTP请求头(Request Headers)
- 直接编辑HTTP请求体(Request Body)
- 支持自定义参数和特殊配置
- 完全控制API调用格式
自动语音识别(Automatic Speech Recognition)服务配置。
- 启用语音识别: 开启/关闭ASR功能
Wake(唤醒模式)
- 持续监听特定唤醒词
- 唤醒词设置: 配置触发识别的关键词
- 支持多个唤醒词同时生效
Realtime(实时模式)
- 连续语音识别
- 实时转录语音内容
- 适用于对话场景
基于FunASR的语音识别服务配置:
- IP地址: FunASR服务器的IP地址
- 端口: FunASR服务监听端口
- 模式: FunASR识别模式
- 启用SSL: 是否使用安全连接
音频播放和虚拟人同步配置。
Local(本地播放)
- 使用系统默认音频设备播放
- 适用于音频测试和开发调试
- 无需额外配置
ovrlipsync模式
- 轻量化嘴型驱动
- 无需额外配置
Audio2Face模式(不推荐)
- 与NVIDIA Audio2Face集成
- 实现唇形同步的虚拟人播放
- Audio2Face URL: Audio2Face服务地址
- 播放器路径: Audio2Face中播放器组件的路径
-
启动Webui面板
# 方法1:使用批处理文件 webui.bat # 方法2:使用PowerShell脚本 .\webui.ps1
-
访问Web界面
- 启动后自动打开浏览器访问
http://localhost:7860 - 如果未自动打开,请手动访问该地址
- 启动后自动打开浏览器访问
-
基础配置(必需)
- 点击"配置面板"标签页
- 依次完成以下配置:
- ✅ GPT配置:设置语言模型API
- ✅ TTS配置:设置语音合成服务
- ✅ ASR配置:设置语音识别服务(可选)
- ✅ Player配置:设置音频播放方式
-
保存配置
- 配置完成后点击"保存配置"按钮
- 系统会自动将配置保存到
configs/config.yaml
-
选择GPT类型
- OpenAI:如果使用OpenAI官方API或兼容接口
- 百炼应用:如果使用阿里云百炼大模型
-
填写API信息
API URL: https://api.openai.com/v1/chat/completions API Key: 您的API密钥(可选) -
测试连接
- 点击"测试API"按钮
- 确认连接成功并返回正常响应
-
选择TTS引擎
- GPT-SoVits:高质量AI语音克隆
- MeloTTS:多语言轻量级TTS
-
配置服务地址
API端点: http://127.0.0.1:9880/tts API Key: 您的API密钥(可选)
如果需要虚拟人唇形同步功能:
-
设置播放器模式为Audio2Face
-
配置连接参数
Audio2Face URL: 127.0.0.1:50051 播放器路径: /World/audio2face/audio_player_streaming -
在控制面板配置Audio2Face路径
- Audio2Face可执行文件路径
- USD场景文件路径
-
切换到控制面板
-
启动服务
- 点击"一键启动服务"启动所有服务
- 或根据需要单独启动特定服务
Q: 如何备份和恢复配置?
A: 配置文件保存在 configs/config.yaml,可以直接复制备份。预设配置保存在 configs/ 目录下的相应文件中。
Q: 配置修改后不生效怎么办? A: 确保点击"保存配置"按钮,然后重启相关服务使配置生效。
Q: API测试失败怎么办? A:
- 检查网络连接
- 验证API端点地址是否正确
- 确认API密钥有效
- 查看错误日志获取详细信息
Q: 服务启动失败? A:
- 检查端口是否被占用
- 确认配置参数正确
- 查看
logs/目录下的日志文件 - 检查依赖服务是否正常运行
Q: Audio2Face连接失败? A:
- 确认Audio2Face已启动且gRPC服务开启
- 检查URL和端口配置
- 验证网络连接
- 确保USD文件路径正确
Q: 如何提高响应速度? A:
- 使用本地部署的TTS和LLM服务
- 优化网络连接
- 调整超时参数
- 使用更快的硬件配置
Q: 如何切换不同的配置? A: 使用预设配置管理功能,可以快速保存和加载不同的配置组合。






