将结构化 FAQ 数据(支持图文、多轮对话)清洗并转换为主流 LLM/MLLM 可用的 JSONL 格式,适合微调、评测与对话系统集成。
将企业 FAQ 文档(CSV 格式)自动清洗、结构化为适用于大语言模型(LLM)微调的 JSONL 格式数据。支持多轮对话生成、敏感信息过滤、日志记录、命令行运行及单元测试。
- ✅ 自动清洗空行、非法字符
- ✅ 支持手机号、邮箱等敏感信息过滤
- ✅ 支持多轮对话合并输出(可选)
- ✅ 输出为标准 JSONL 格式
- ✅ 具备日志和异常处理机制
- ✅ 提供完整的单元测试(pytest)
- ✅ 命令行工具,支持参数配置