Skip to content

lenny0732/faq-data-cleaner

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

FAQ-to-LLM Dataset Formatter 🧠

GitHub stars MIT License CI

将结构化 FAQ 数据(支持图文、多轮对话)清洗并转换为主流 LLM/MLLM 可用的 JSONL 格式,适合微调、评测与对话系统集成。

将企业 FAQ 文档(CSV 格式)自动清洗、结构化为适用于大语言模型(LLM)微调的 JSONL 格式数据。支持多轮对话生成、敏感信息过滤、日志记录、命令行运行及单元测试。


📌 功能特性

  • ✅ 自动清洗空行、非法字符
  • ✅ 支持手机号、邮箱等敏感信息过滤
  • ✅ 支持多轮对话合并输出(可选)
  • ✅ 输出为标准 JSONL 格式
  • ✅ 具备日志和异常处理机制
  • ✅ 提供完整的单元测试(pytest)
  • ✅ 命令行工具,支持参数配置

📂 项目结构

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors