AI-技术探索

行动起来，活在当下

累计撰写 13 篇文章
累计创建 4 个标签
累计收到 0 条评论

目录CONTENT

以下是 AI 相关的文章

2024-11-25
置顶开源AI模型大集合麦克风语音输入，经过语音转文本（Whisper），输出文本给大语言模型（Ollama、OpenAI、Kimi），大语言模型输出结果经过文本转语音（Edge-tts、F5-tts、CosyVoice、ChatTTS）通过喇叭播放文本内容。
- 2024-11-25
- 184
- 0
- 1
- AI
2024-12-10
AI声音克隆 XTTSv2 是一个非常酷的文本转语音模型，它只需一段快速的 3 秒音频剪辑就能让你在不同语言中克隆声音。基于Tortoise，XTTS 具有重要的模型变化，使得跨语言声音克隆和多语言语音生成变得非常简单。无需大量涵盖无数小时的训练数据。 XTTSv2可用于语音克隆和语音生成。
- 2024-12-10
- 19
- 0
- 0
- AI
2024-12-06
ComfyUI文生图 ComfyUI是一个基于节点的图形用户界面，专为Stable Diffusion设计，提供一种直观和灵活的方式来操作和管理图像生成过程。通过将不同的节点链接在一起，用户可以构建自己的图像生成工作流。
- 2024-12-06
- 23
- 0
- 0
- AI
2024-12-05
YOLO图像检测 YOLO(You Only Look Once)是一种流行的物体检测和图像分割模型，因其高速度和高精度而迅速受到欢迎。
- 2024-12-05
- 16
- 0
- 0
- AI
2024-12-03
AI语音转文本（ASR） Whisper是一个通用的语音识别模型。它是在大量不同音频数据集上进行训练，并且是一个多任务模型，能够执行多语言语音识别、语音翻译和语言识别功能。简而言之，Whisper能够识别和处理多种语言的语音，并将语音转换成文本，同时也能识别语音中使用的语言。
- 2024-12-03
- 21
- 0
- 0
- AI
2024-12-02
AI文本转语音（TTS） Edge-TTS是微软提供的在线文本转自然语音，支持多种语言和声音，转换速度快，语音自然无机械感。
- 2024-12-02
- 35
- 0
- 0
- AI
2024-12-01
ChatGPT和Kimi接口调用 OpenAI ChatGPT是一种人工智能聊天机器人，基于大规模的深度学习模型，专门用于生成自然语言文本。它能够理解和生成人类语言，因此能够与用户进行对话、回答问题、提供信息和协助完成各种任务。ChatGPT能够用于多种应用场景，包括客户服务、教育辅导、内容创作等等。 ChatGPT的底层技术基于Transformer架构，经过大量文本数据的训练，使其在理解上下文和生成连贯的回应方面表现出色。用户可以通过输入文本与其互动，ChatGPT会根据上下文生成相关的答案或建议。
- 2024-12-01
- 12
- 0
- 0
- AI
2024-11-24
Ollama简明教程 Ollama是一个开源的大模型管理工具，通过Ollama可以轻松管理本地大模型,提高模型的部署效率。下面介绍安装Ollama并部署Llama3.2、Qwen2.5、Gemma2等几个流行开源大模型，并使用Gradio创建webui用于交互。
- 2024-11-24
- 161
- 0
- 1
- AI