kaldi实现的实时语音转文字

Go to file

old-tom 5076963f2c feat:提交		8 months ago
.trae/rules	feat:提交	8 months ago
models	feat:提交	8 months ago
src	feat:提交	8 months ago
.gitignore	feat:提交	8 months ago
.python-version	feat:提交	8 months ago
README.md	feat:提交	8 months ago
main.py	feat:提交	8 months ago
pyproject.toml	feat:提交	8 months ago

README.md

Unescape Escape

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

本项目目标是实现实时语音识别功能，支持中英文。实现思路如下：

语音输入：使用麦克风采集音频数据。
语音预处理：对音频数据进行预处理，如降噪、增益控制等。
语音识别：使用语音识别模型将预处理后的音频数据转换为文本。

基础环境

操作系统：linux
语言：python 3.12
虚拟环境及包管理工具：uv
语音识别框架：新一代kaldi
语音识别模型：zipformer
部署框架：sherpa-onnx

目录层级说明

.
├── .venv
│   ├── bin
│   ├── lib
│   └── pyvenv.cfg
├── .python-version
├── docs
├── src
│   └── main.py
├── config
├── tests
├── static
├── README.md
├── hello.py
├── pyproject.toml
└── uv.lock

docs 存放项目文档
src 存放项目源码
config 存放项目配置文件
tests 存放单元测试代码
static 目录下存放静态文件，如图片、css、js等
README.md 项目说明文件
pyproject.toml 项目配置文件
uv.lock 虚拟环境依赖文件

除main.py外，其他文件均需要放置在src子目录下，要求子目录名称清晰易读不能过长。

包管理命令说明

添加包 uv add
移除包 uv remove
所有包管理命令均需要在项目根目录下执行，并且强制使用uv命令，不能使用pip命令。

脚本运行命令说明

运行项目 uv run main.py
运行单元测试 uv run -m pytest tests

禁止修改本文件

README.md Unescape Escape

基础环境

目录层级说明

包管理命令说明

脚本运行命令说明

README.md

Unescape Escape