Ads-Skip-Agent

一个本地运行的AI助手，能够实时监听你的语音指令并根据屏幕内容执行自动化操作，例如在你忙于其他事情时自动跳过YouTube广告。

项目概述

Ads-Skip-Agent是一个完全本地运行的AI助手系统，它能够：

实时监听你的语音指令
识别屏幕上显示的内容
根据你的指令执行自动化操作（如点击、按键等）
在你忙于其他事情时（如煮饭）帮助你完成电脑操作

系统架构

[React 前端界面]  ←→  [Node.js 后端/WSL服务]  ←→  [本地 AI/自动化模块]

功能拆解

React 前端

展示状态（AI在线/离线、任务队列、屏幕截图预览）
手动触发操作（例如测试 Skip Ads）
输入自定义唤醒词或指令

Node.js 后端（WSL）

接收前端指令（REST API 或 WebSocket）
调用本地 Python AI 模块
返回操作结果或状态给前端

本地 Python AI 模块（WSL 或本机）

语音识别（Whisper.cpp）
指令理解（小型 LLM，例如 Qwen2-mini 量化模型）
屏幕识别（PyAutoGUI + PaddleOCR）
自动化操作（点击、按键等）

技术栈

模块	技术	版本/备注
前端	React + TypeScript	现代化界面，类型安全
后端	Node.js + Express	轻量高效的服务器
实时通信	WebSocket	低延迟，实时状态更新
语音识别	Whisper.cpp	small.en 或 tiny.en 模型
指令理解	小型 LLM	Qwen2.5 3B 或 Phi-3 mini（4-bit 量化）
屏幕捕获	mss / PyAutoGUI	轻量，跨平台
OCR	PaddleOCR	免费，高精度
自动操作	PyAutoGUI	支持各种自动化操作

硬件要求

CPU：至少 4 核处理器
内存：至少 8GB RAM
显卡：NVIDIA RTX 3060 (6GB) 或同等性能显卡
存储空间：至少 10GB 可用空间（用于模型和依赖）

安装步骤

1. 前置条件

Windows 10 或 11
WSL 2（Windows Subsystem for Linux）
Node.js 18+
Python 3.8+
npm 或 yarn

2. 安装 WSL

wsl --install
wsl --set-default-version 2

3. 克隆项目

git clone <repository-url>
cd Ads-Skip-Agent

4. 安装前端依赖

cd frontend
npm install
# 或
yarn install

5. 安装后端依赖

cd ../backend
npm install
# 或
yarn install

6. 安装 Python 依赖（WSL 中）

cd ../python-modules
pip install -r requirements.txt

7. 下载 AI 模型

Whisper.cpp：下载 tiny.en 或 small.en 模型
LLM：下载 Qwen2.5 3B 或 Phi-3 mini 4-bit 量化模型
PaddleOCR：自动下载所需模型

使用方法

1. 启动后端服务

cd backend
npm start
# 或
yarn start

2. 启动前端应用

cd frontend
npm start
# 或
yarn start

3. 配置系统

在前端界面设置唤醒词（默认："Hey Agent"）
配置屏幕捕获区域（例如只捕获浏览器窗口）
测试语音识别和屏幕识别功能

4. 开始使用

说出唤醒词："Hey Agent"
说出指令："Skip ad"
系统会自动识别屏幕上的广告并执行跳过操作

隐私保护

完全本地处理：所有 AI 模型和数据都在本地运行，不上传任何信息到云端
屏幕捕获控制：可以设置捕获区域，避免捕获敏感信息
数据存储：临时屏幕截图在处理后立即删除，不保存任何历史数据
麦克风权限：仅在唤醒词检测时使用麦克风，其他时间处于休眠状态

性能说明

响应延迟：200-500ms（完全可接受）
识别准确率：90%+（在正常环境下）
稳定性：本地运行，不受网络影响
资源占用：
- Whisper small.en：约 0.5GB 显存
- Qwen2.5 3B 4-bit：约 1.5GB 显存
- 剩余显存足够系统运行

常见问题

Q: 语音识别在广告播放时能正常工作吗？

A: 是的，系统使用唤醒词检测，即使在广告播放时也能捕捉你的唤醒词。

Q: 我的显卡只有 6GB，能运行吗？

A: 完全可以，我们使用量化模型，6GB 显存足够运行所有必要的模型。

Q: 系统会捕获我的敏感信息吗？

A: 不会，你可以设置捕获区域，避免捕获敏感信息，且所有处理都在本地完成。

Q: 支持哪些自动化操作？

A: 支持点击、按键、滚动等基本操作，主要用于跳过广告、控制媒体播放等场景。

贡献指南

我们欢迎社区贡献！如果你有任何改进建议或 bug 修复，请：

Fork 本项目
创建你的特性分支
提交你的更改
推送到分支
打开一个 Pull Request

许可证

MIT License - 详见 LICENSE 文件

免责声明

本项目仅供个人学习和研究使用，请勿用于任何商业目的。使用本项目时，请遵守相关法律法规。

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
README.md		README.md

Folders and files

Latest commit

History

Repository files navigation

Ads-Skip-Agent

项目概述

系统架构

功能拆解

React 前端

Node.js 后端（WSL）

本地 Python AI 模块（WSL 或本机）

技术栈

硬件要求

安装步骤

1. 前置条件

2. 安装 WSL

3. 克隆项目

4. 安装前端依赖

5. 安装后端依赖

6. 安装 Python 依赖（WSL 中）

7. 下载 AI 模型

使用方法

1. 启动后端服务

2. 启动前端应用

3. 配置系统

4. 开始使用

隐私保护

性能说明

常见问题

Q: 语音识别在广告播放时能正常工作吗？

Q: 我的显卡只有 6GB，能运行吗？

Q: 系统会捕获我的敏感信息吗？

Q: 支持哪些自动化操作？

贡献指南

许可证

免责声明

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages