简体中文 | English
PDF 转 Word · Markdown 转 DOCX · 把混乱文档整理成可交付版本
DocuGen Markdown DOCX 是一个可本地运行的文档整理工具。你可以导入 TXT / Markdown / DOCX / XLSX / PDF / 图片,在页面中继续整理内容,并导出为 Word 或 Excel。
适合 PDF 转 Word、Markdown 转 DOCX、AI 文档整理、文档格式统一、招投标材料整理 等场景。
中文用户如果只想先免费体验,建议直接扫码进入微信小程序“谈单底牌”;需要本地处理、可定制流程和自定义 API 时,再继续看本仓库。
- 有一堆格式不规整、内容混乱的 PDF、Word、Markdown、图片文档,想快速整理成统一版本
- AI 大模型生成的是 Markdown 草稿,不能直接在公司内部流转或发给客户,需要转成正式 Word
- 招投标、响应文件、标书材料需要抽取、清洗、统一排版后再导出
如果你只是想直接免费使用文档格式转换功能,不想本地安装,也不想自己配置 API Key,可以直接在微信小程序 “谈单底牌” 中使用。
适合:
- 临时转换
- 快速预览
- 轻量整理
如果你需要本地处理、可定制流程、接入自己的模型接口,再使用本仓库即可。
本仓库默认不提供任何线上模型服务。启动后,直接在页面中填写你自己的:
API Base URLAPI Key
即可接入 OpenAI 兼容接口。若你希望固定模型,也可以额外填写默认模型名。
git clone https://github.com/dragon43ppp/docugen-markdown-docx.git
cd docugen-markdown-docx方式一:Windows 一键启动
Start-DocuGen.bat脚本会自动:
- 安装前端依赖
- 创建本地后端虚拟环境
.backend-venv - 安装后端依赖
- 启动后端
http://127.0.0.1:8001 - 启动前端
http://127.0.0.1:9000
方式二:手动启动
前端:
npm install
npm run dev -- --host 127.0.0.1 --port 9000后端:
python -m venv .backend-venv
.backend-venv\Scripts\python -m pip install -r backend\requirements.txt
cd backend
..\.backend-venv\Scripts\python -m uvicorn main:app --host 127.0.0.1 --port 8001 --reloadPowerShell 等价命令:
python -m venv .backend-venv
.\.backend-venv\Scripts\python.exe -m pip install -r backend\requirements.txt
Set-Location backend
..\.backend-venv\Scripts\python.exe -m uvicorn main:app --host 127.0.0.1 --port 8001 --reload打开页面后,至少填写以下两项即可开始使用:
API Base URLAPI Key
可选项:
默认模型标书模型
这些配置只保存在浏览器本地 localStorage,不会写入仓库。
- 导入
TXT / Markdown / DOCX / XLSX / PDF / 图片 - 在页面中继续编辑、预览和整理 Markdown 内容
PDF -> Word导出中间结果,并允许继续做格式整理- AI 格式化、智能表格、标书转写
- 导出最终
DOCX / XLSX
- 文档来源很多、格式不规整、文件内容混乱时,可以先导入再统一整理成规范格式
- AI 大模型生成的内容通常是 Markdown,不方便直接在公司内部流转或发给客户时,可以快速整理后导出为 Word 或 Excel
- 招投标、响应文件、标书内容需要清洗、结构化、转写和统一排版时,可以集中处理
- 导入 PDF 或其他文档
- 如果导入的是 PDF,点击
下载中间 Word - 在页面里继续整理提取结果和格式
- 导出最终 DOCX 或 Excel
不需要。
PDF -> Word 这一步优先走本地离线结构化能力;只有下面这些功能会使用你自己配置的线上接口:
- AI 格式化
- 智能表格
- 标书转写
如果你希望启用更完整的扫描件 OCR、版面分析、表格识别和 PDF -> DOCX 能力,可以准备可运行的 Offline_PDF_Structure 环境,并设置:
$env:DOCUGEN_OFFLINE_PDF_ROOT="D:\BaiduNetdiskDownload\PDF图片表格数据提取\Offline_PDF_Structure"也可以把可运行的离线包放到:
backend/offline_pdf_bundle
- 仓库中不包含任何真实 API Key
- 仓库不内置任何默认托管接口
- 前端只会使用你手动填写的
API Base URL和API Key - 后端默认只允许访问 HTTPS 上游,或本机 HTTP 地址
需要。这个仓库默认不提供托管模型服务。你只需要在页面中填写自己的 API Base URL 和 API Key 即可。
可以。只要你的接口兼容 OpenAI 风格调用方式,就可以接入。
不一定。PDF -> Word 优先使用本地离线结构化能力;只有 AI 格式化、智能表格、标书转写这类能力才会调用你配置的线上接口。
适合经常处理文档整理、客户交付、内部汇报、标书和 AI 草稿转正式文档的小团队或个人。
可以,仓库首页已经给出直接可用的:
git clone https://github.com/dragon43ppp/docugen-markdown-docx.git
cd docugen-markdown-docx欢迎提交 Issue 和 Pull Request。
- 社区讨论区:GitHub Discussions
- 贡献说明:CONTRIBUTING.md
- 安全说明:SECURITY.md
- 行为准则:CODE_OF_CONDUCT.md
MIT

