一个本地运行的AI助手,能够实时监听你的语音指令并根据屏幕内容执行自动化操作,例如在你忙于其他事情时自动跳过YouTube广告。
Ads-Skip-Agent是一个完全本地运行的AI助手系统,它能够:
- 实时监听你的语音指令
- 识别屏幕上显示的内容
- 根据你的指令执行自动化操作(如点击、按键等)
- 在你忙于其他事情时(如煮饭)帮助你完成电脑操作
[React 前端界面] ←→ [Node.js 后端/WSL服务] ←→ [本地 AI/自动化模块]
- 展示状态(AI在线/离线、任务队列、屏幕截图预览)
- 手动触发操作(例如测试 Skip Ads)
- 输入自定义唤醒词或指令
- 接收前端指令(REST API 或 WebSocket)
- 调用本地 Python AI 模块
- 返回操作结果或状态给前端
- 语音识别(Whisper.cpp)
- 指令理解(小型 LLM,例如 Qwen2-mini 量化模型)
- 屏幕识别(PyAutoGUI + PaddleOCR)
- 自动化操作(点击、按键等)
| 模块 | 技术 | 版本/备注 |
|---|---|---|
| 前端 | React + TypeScript | 现代化界面,类型安全 |
| 后端 | Node.js + Express | 轻量高效的服务器 |
| 实时通信 | WebSocket | 低延迟,实时状态更新 |
| 语音识别 | Whisper.cpp | small.en 或 tiny.en 模型 |
| 指令理解 | 小型 LLM | Qwen2.5 3B 或 Phi-3 mini(4-bit 量化) |
| 屏幕捕获 | mss / PyAutoGUI | 轻量,跨平台 |
| OCR | PaddleOCR | 免费,高精度 |
| 自动操作 | PyAutoGUI | 支持各种自动化操作 |
- CPU:至少 4 核处理器
- 内存:至少 8GB RAM
- 显卡:NVIDIA RTX 3060 (6GB) 或同等性能显卡
- 存储空间:至少 10GB 可用空间(用于模型和依赖)
- Windows 10 或 11
- WSL 2(Windows Subsystem for Linux)
- Node.js 18+
- Python 3.8+
- npm 或 yarn
wsl --install
wsl --set-default-version 2git clone <repository-url>
cd Ads-Skip-Agentcd frontend
npm install
# 或
yarn installcd ../backend
npm install
# 或
yarn installcd ../python-modules
pip install -r requirements.txt- Whisper.cpp:下载 tiny.en 或 small.en 模型
- LLM:下载 Qwen2.5 3B 或 Phi-3 mini 4-bit 量化模型
- PaddleOCR:自动下载所需模型
cd backend
npm start
# 或
yarn startcd frontend
npm start
# 或
yarn start- 在前端界面设置唤醒词(默认:"Hey Agent")
- 配置屏幕捕获区域(例如只捕获浏览器窗口)
- 测试语音识别和屏幕识别功能
- 说出唤醒词:"Hey Agent"
- 说出指令:"Skip ad"
- 系统会自动识别屏幕上的广告并执行跳过操作
- 完全本地处理:所有 AI 模型和数据都在本地运行,不上传任何信息到云端
- 屏幕捕获控制:可以设置捕获区域,避免捕获敏感信息
- 数据存储:临时屏幕截图在处理后立即删除,不保存任何历史数据
- 麦克风权限:仅在唤醒词检测时使用麦克风,其他时间处于休眠状态
- 响应延迟:200-500ms(完全可接受)
- 识别准确率:90%+(在正常环境下)
- 稳定性:本地运行,不受网络影响
- 资源占用:
- Whisper small.en:约 0.5GB 显存
- Qwen2.5 3B 4-bit:约 1.5GB 显存
- 剩余显存足够系统运行
A: 是的,系统使用唤醒词检测,即使在广告播放时也能捕捉你的唤醒词。
A: 完全可以,我们使用量化模型,6GB 显存足够运行所有必要的模型。
A: 不会,你可以设置捕获区域,避免捕获敏感信息,且所有处理都在本地完成。
A: 支持点击、按键、滚动等基本操作,主要用于跳过广告、控制媒体播放等场景。
我们欢迎社区贡献!如果你有任何改进建议或 bug 修复,请:
- Fork 本项目
- 创建你的特性分支
- 提交你的更改
- 推送到分支
- 打开一个 Pull Request
MIT License - 详见 LICENSE 文件
本项目仅供个人学习和研究使用,请勿用于任何商业目的。使用本项目时,请遵守相关法律法规。