侧边栏壁纸
博主头像
技术探索

行动起来,活在当下

  • 累计撰写 13 篇文章
  • 累计创建 4 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录
AI

AI语音转文本(ASR)

admin
2024-12-03 / 0 评论 / 0 点赞 / 21 阅读 / 0 字

Whisper是一个通用的语音识别模型。它是在大量不同音频数据集上进行训练,并且是一个多任务模型,能够执行多语言语音识别、语音翻译和语言识别功能。简而言之,Whisper能够识别和处理多种语言的语音,并将语音转换成文本,同时也能识别语音中使用的语言。

Python接口

安装库

pip install openai-whisper

import whisper

def asr_whisper(audio_file):
	model  = whisper.load_model('turbo')
	result = model.transcribe(audio_file, language='Chinese')
	text   = result['text']
	return text

if __name__ == '__main__':
	audio_file = 'Xiaoxiao.wav'
	text = asr_whisper(audio_file)
	print(text)

输入语音

Xiaoxiao.wav

识别语音输出

你好,我是微软提供的文本转语音服务

可选模型:

  • tiny(39M)
  • base(74M)
  • small(244M)
  • medium(769M)
  • large(1550M)
  • turbo(809M)
0

评论区