Whisper是一个通用的语音识别模型。它是在大量不同音频数据集上进行训练，并且是一个多任务模型，能够执行多语言语音识别、语音翻译和语言识别功能。简而言之，Whisper能够识别和处理多种语言的语音，并将语音转换成文本，同时也能识别语音中使用的语言。

Python接口

安装库

pip install openai-whisper

import whisper

def asr_whisper(audio_file):
	model  = whisper.load_model('turbo')
	result = model.transcribe(audio_file, language='Chinese')
	text   = result['text']
	return text

if __name__ == '__main__':
	audio_file = 'Xiaoxiao.wav'
	text = asr_whisper(audio_file)
	print(text)

输入语音

Xiaoxiao.wav

识别语音输出

你好,我是微软提供的文本转语音服务

可选模型：

tiny(39M)
base(74M)
small(244M)
medium(769M)
large(1550M)
turbo(809M)

目录CONTENT

AI语音转文本（ASR）

Python接口

评论区