预览

 

主要功能

  • 录音:软件内选择系统声音、麦克风或指定软件,如腾讯会议、浏览器、播放器(免音频驱动)。
  • 语音识别:基于 OpenAI Whisper 模型的语音转文字。
  • 翻译:软件内自由切换引擎,支持 Ollama,OpenAI 等开放接口格式。
  • 保存:完成录制后自动保存音频、原本、译文、时间轴。
  • 导出:格式支持 SRT,TXT,VTT。

硬件要求

  • macOS 系统。M1及以上系列芯片。
  • Windows 系统还在测试阶段。

官网地址

作者心声

可能有人会问制作这款软件的动机。本文试着解答。

缘起

年初(2024年),家夫人单位业务拓展到美国,工作内容上了强度,需要与美国人沟通。中文环境下能说会道,用英语说就犯了难,最大的问题是听力差。

听不懂,看得懂就行。知道问题所在,就开始找“药方”,找同传软件。找到一款国内大厂出品的软件,花了 ¥98,效果呢,非常一般,没法开展工作的。

OpenAI Whisper 语音转文字模型

说到语音识别,常被称作语音转文字,我在想为什么不用 OpenAI Whisper 模型呢?Whisper 模型是 OpenAI 为数不多的开源模型,2023 年初就已开源,它的英文识别准确率真的强,我还曾用过它生成的字幕学英语生词。

开始在应用商店找基于 Whisper 模型的语音识别软件,无一例外的,这些软件只支持先录音再转文字。这就完全无法满足开会,这种要求实时的场景了。

技术上来说,Whisper 模型不是一个实时模型,可能这是制约了很多开发商不做实时语音转文字的一个理由。

让 Whisper 实时

眼馋 Whisper 模型语音转文字的效果之好,开始跟小伙伴一起尝试让 Whisper 模型实时转文字。答案是,确实可行,最终也成为形成了 AI Hear 这款软件。可行的基础,我想有这么几个:

  1. 自 2020 年起,苹果公司在 Mac 上全面使用 Apple Silicon 处理器。相比起之前的架构,这些芯片在机器学习方面有更强的性能。
  2. Georgi Gerganov 大神使用 C++ 重写了一遍 Whisper 模型的推理代码,应该是在 macOS 效率最高的 Whisper 推理实现了。

AI Hear 产品

现在的 AI Hear 支持:

  1. 录音,支持后续导出。
  2. 基于 Whisper 的语音转文字。
  3. 支持 Ollama 本地翻译、及其他翻译引擎。
  4. 导出文字、字幕。

理想情况下,不依赖网络,一台电脑在本地就可以做到实时语音转文字 + 翻译。

我们的目标是让这款软件成为一款好用的、可以被买断的产品,安静躺在电脑里,想用就用,不需要再为云厂商缴纳月费了。

尾声

软件本身还有很多需要优化和改进的地方,欢迎指正。

联系我们:contact@thucydides.net