Whisper.cpp install

支 持 本 站: 捐赠服务器等运维费用,需要您的支持!

Whisper.cpp 是 OpenAI 的语音识别模型 Whisper 的 C/C++ 实现版本,由开发者 Georgi Gerganov 基于原始 Python 项目移植和优化。它专注于高效、轻量级运行,尤其适合在资源受限的环境(如嵌入式设备、本地终端)中离线执行语音转文字(ASR)任务。

主要特点

1 纯C/C++实现
不依赖 Python 或大型深度学习框架(如 PyTorch),仅需基础数学库(如 BLAS)或 Apple 的 Accelerate 框架(macOS 优化)。
代码简洁,便于集成到其他项目或移植到不同平台。

2 跨平台支持
支持 Windows、Linux、macOS,甚至树莓派等嵌入式设备。
提供预编译的二进制文件,也可手动编译。

3 模型量化与高效推理
支持模型权重量化(如 4-bit/5-bit),大幅减少内存占用和计算开销,适合 CPU 运行。
即使非高端硬件(如树莓派)也能流畅运行。

4 离线运行
完全本地化处理,无需联网,保护隐私。

5 命令行工具
提供开箱即用的命令行接口,可直接输入音频文件(如 WAV、MP3)输出转录结果。

典型用途
本地语音转录:将会议录音、讲座音频转为文字。
嵌入式应用:集成到智能设备中实现语音控制。
隐私敏感场景:医疗、法律等需离线处理的音频。




支 持 本 站: 捐赠服务器等运维费用,需要您的支持!

Mac上的安装
1. xcode
sudo rm -rf /Library/Developer/CommandLineTools
xcode-select --install
clang --version

2 whisper.cpp
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
make
./models/download-ggml-model.sh small
./models/download-ggml-model.sh large-v3

3 m4a -> wav format convert
ffmpeg -i sound.m4a sound.wav
ffmpeg -i sound.wav -ar 16000 -ac 1 -c:a pcm_s16le sound_16k.wav

4
./build/bin/whisper-cli -m models/ggml-small.bin -f sound_16k.wav -l ja -of output
./build/bin/whisper-cli -m models/ggml-large-v3.bin -f sound_16k.wav -l ja -of output
./build/bin/whisper-cli -m models/ggml-large-v3.bin -f sound_16k.wav -l zh -of output

支 持 本 站: 捐赠服务器等运维费用,需要您的支持!

发布时间: