Skip to content

AL1732/Ads-Skip-Agent

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 

Repository files navigation

Ads-Skip-Agent

一个本地运行的AI助手,能够实时监听你的语音指令并根据屏幕内容执行自动化操作,例如在你忙于其他事情时自动跳过YouTube广告。

项目概述

Ads-Skip-Agent是一个完全本地运行的AI助手系统,它能够:

  • 实时监听你的语音指令
  • 识别屏幕上显示的内容
  • 根据你的指令执行自动化操作(如点击、按键等)
  • 在你忙于其他事情时(如煮饭)帮助你完成电脑操作

系统架构

[React 前端界面]  ←→  [Node.js 后端/WSL服务]  ←→  [本地 AI/自动化模块]

功能拆解

React 前端

  • 展示状态(AI在线/离线、任务队列、屏幕截图预览)
  • 手动触发操作(例如测试 Skip Ads)
  • 输入自定义唤醒词或指令

Node.js 后端(WSL)

  • 接收前端指令(REST API 或 WebSocket)
  • 调用本地 Python AI 模块
  • 返回操作结果或状态给前端

本地 Python AI 模块(WSL 或本机)

  • 语音识别(Whisper.cpp)
  • 指令理解(小型 LLM,例如 Qwen2-mini 量化模型)
  • 屏幕识别(PyAutoGUI + PaddleOCR)
  • 自动化操作(点击、按键等)

技术栈

模块 技术 版本/备注
前端 React + TypeScript 现代化界面,类型安全
后端 Node.js + Express 轻量高效的服务器
实时通信 WebSocket 低延迟,实时状态更新
语音识别 Whisper.cpp small.en 或 tiny.en 模型
指令理解 小型 LLM Qwen2.5 3B 或 Phi-3 mini(4-bit 量化)
屏幕捕获 mss / PyAutoGUI 轻量,跨平台
OCR PaddleOCR 免费,高精度
自动操作 PyAutoGUI 支持各种自动化操作

硬件要求

  • CPU:至少 4 核处理器
  • 内存:至少 8GB RAM
  • 显卡:NVIDIA RTX 3060 (6GB) 或同等性能显卡
  • 存储空间:至少 10GB 可用空间(用于模型和依赖)

安装步骤

1. 前置条件

  • Windows 10 或 11
  • WSL 2(Windows Subsystem for Linux)
  • Node.js 18+
  • Python 3.8+
  • npm 或 yarn

2. 安装 WSL

wsl --install
wsl --set-default-version 2

3. 克隆项目

git clone <repository-url>
cd Ads-Skip-Agent

4. 安装前端依赖

cd frontend
npm install
#
yarn install

5. 安装后端依赖

cd ../backend
npm install
#
yarn install

6. 安装 Python 依赖(WSL 中)

cd ../python-modules
pip install -r requirements.txt

7. 下载 AI 模型

  • Whisper.cpp:下载 tiny.en 或 small.en 模型
  • LLM:下载 Qwen2.5 3B 或 Phi-3 mini 4-bit 量化模型
  • PaddleOCR:自动下载所需模型

使用方法

1. 启动后端服务

cd backend
npm start
#
yarn start

2. 启动前端应用

cd frontend
npm start
#
yarn start

3. 配置系统

  1. 在前端界面设置唤醒词(默认:"Hey Agent")
  2. 配置屏幕捕获区域(例如只捕获浏览器窗口)
  3. 测试语音识别和屏幕识别功能

4. 开始使用

  • 说出唤醒词:"Hey Agent"
  • 说出指令:"Skip ad"
  • 系统会自动识别屏幕上的广告并执行跳过操作

隐私保护

  • 完全本地处理:所有 AI 模型和数据都在本地运行,不上传任何信息到云端
  • 屏幕捕获控制:可以设置捕获区域,避免捕获敏感信息
  • 数据存储:临时屏幕截图在处理后立即删除,不保存任何历史数据
  • 麦克风权限:仅在唤醒词检测时使用麦克风,其他时间处于休眠状态

性能说明

  • 响应延迟:200-500ms(完全可接受)
  • 识别准确率:90%+(在正常环境下)
  • 稳定性:本地运行,不受网络影响
  • 资源占用
    • Whisper small.en:约 0.5GB 显存
    • Qwen2.5 3B 4-bit:约 1.5GB 显存
    • 剩余显存足够系统运行

常见问题

Q: 语音识别在广告播放时能正常工作吗?

A: 是的,系统使用唤醒词检测,即使在广告播放时也能捕捉你的唤醒词。

Q: 我的显卡只有 6GB,能运行吗?

A: 完全可以,我们使用量化模型,6GB 显存足够运行所有必要的模型。

Q: 系统会捕获我的敏感信息吗?

A: 不会,你可以设置捕获区域,避免捕获敏感信息,且所有处理都在本地完成。

Q: 支持哪些自动化操作?

A: 支持点击、按键、滚动等基本操作,主要用于跳过广告、控制媒体播放等场景。

贡献指南

我们欢迎社区贡献!如果你有任何改进建议或 bug 修复,请:

  1. Fork 本项目
  2. 创建你的特性分支
  3. 提交你的更改
  4. 推送到分支
  5. 打开一个 Pull Request

许可证

MIT License - 详见 LICENSE 文件

免责声明

本项目仅供个人学习和研究使用,请勿用于任何商业目的。使用本项目时,请遵守相关法律法规。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors