侧边栏壁纸
博主头像
技术探索

行动起来,活在当下

  • 累计撰写 13 篇文章
  • 累计创建 4 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录
AI

开源AI模型大集合

admin
2024-11-25 / 0 评论 / 1 点赞 / 184 阅读 / 0 字

麦克风语音输入,经过语音转文本(Whisper),输出文本给大语言模型(Ollama、OpenAI、Kimi),大语言模型输出结果经过文本转语音(Edge-tts、F5-tts、CosyVoice、ChatTTS)通过喇叭播放文本内容。

界面由Gradio创建,开启麦克风权限,选择TTS Model,点录制开始语音输入,录制结束点停止,开始语音转文件,转换结束文本输出给输入框,点提交开始问答。大语言模型输出结果经过TTS转成音频文件输出给Output并自动播放。

  • Ollama使用本地模型文件
  • OpenAI和Kimi在线交互
  • F5-tts、CosyVoice和ChatTTS使用本地模型文件(GPU内存不够,使用CPU推理,慢)
  • Edge-tts在线交互

测试地址: https://embedfeng.com/chat

效果图

ai-all-in-one-ysud.png

1

评论区