Whisper是一个通用的语音识别模型。它是在大量不同音频数据集上进行训练,并且是一个多任务模型,能够执行多语言语音识别、语音翻译和语言识别功能。简而言之,Whisper能够识别和处理多种语言的语音,并将语音转换成文本,同时也能识别语音中使用的语言。
Python接口
安装库
pip install openai-whisper
import whisper
def asr_whisper(audio_file):
model = whisper.load_model('turbo')
result = model.transcribe(audio_file, language='Chinese')
text = result['text']
return text
if __name__ == '__main__':
audio_file = 'Xiaoxiao.wav'
text = asr_whisper(audio_file)
print(text)
输入语音
识别语音输出
你好,我是微软提供的文本转语音服务
可选模型:
- tiny(39M)
- base(74M)
- small(244M)
- medium(769M)
- large(1550M)
- turbo(809M)
评论区