VoiceStreamAI是一个可以自己托管的 Whisper 解决方案,服务端是 Python,客户端是 JS,基于 WebSocket 实时通信,可以做到语音的实时传输和文本转换。

我们运用了Huggingface的语音活动检测(VAD)技术,以及OpenAI的Whisper模型,从而精确地识别和处理语音。

功能特性:

* 支持WebSocket,实现实时音频流的传输。
* 采用Huggingface的VAD技术,精确检测语音活动。
* 利用OpenAI的Whisper模型,完成语音转写。
* 可针对音频块进行个性化处理。
* 具备多语言转写功能。

评论交流3

登录后可发布评论哦~
    avatar
    徐梦瑶
    2026-05-09

    这个开源项目挺巧妙的,结合了Whisper和VAD技术,实时语音转文字的体验比较流畅。不过由于需要自行部署,对新手来说上手可能稍微有点门槛。期待未来能出些更简单易懂的部署教程,整体是个挺用心的语音工具。

    avatar
    李辉
    2026-05-09

    这个开源项目挺实用,结合Whisper和VAD做实时语音转文字,自己也让数据隐私更有保障。不过部署需要配置端环境,对缺乏代码基础的朋友来说可能稍微有点门槛,更适合有动手能力的开发者尝试。