开源AI模型大集合-技术探索

开源AI模型大集合

admin

2024-11-25 / 0 评论 / 1 点赞 / 184 阅读 / 0 字

12/07

麦克风语音输入，经过语音转文本（Whisper），输出文本给大语言模型（Ollama、OpenAI、Kimi），大语言模型输出结果经过文本转语音（Edge-tts、F5-tts、CosyVoice、ChatTTS）通过喇叭播放文本内容。

界面由Gradio创建，开启麦克风权限，选择TTS Model，点录制开始语音输入，录制结束点停止，开始语音转文件，转换结束文本输出给输入框，点提交开始问答。大语言模型输出结果经过TTS转成音频文件输出给Output并自动播放。

效果图

开源AI模型大集合