.env里已留空!! 使用前请配置 分别来自百炼平台和deepseek官方api
ablation_compare.py # 消融实验对比分析脚本,比较整句改写和同义词替换的效果,生成对比报告和箱线图 attack_core.py # 核心攻击算法模块,实现"生成-检测-反馈"的迭代式整句改写攻击逻辑 attack_core_synonym.py # 同义词替换攻击核心模块,实现仅替换同义词的迭代攻击逻辑 config.py # 全局配置文件,管理模型参数、API密钥和文件路径 data_loader.py # 数据处理模块,负责读取CSV数据、筛选欺诈样本和保存结果 llm_client.py # 大模型客户端封装,处理DeepSeek(攻击者)和Qwen(防御者)的API调用 main.py # 主程序,并发执行整句改写攻击实验 main_synonym.py # 消融实验主程序,并发执行同义词替换攻击实验 prompts.py # 提示词仓库,定义整句改写攻击和防御的Prompt模板 prompts_synonym.py # 同义词替换专用提示词仓库 rescore.py # 重新评分模块,对已有的攻击结果进行重新评分 result_analysis.py # 结果分析与可视化模块,对比攻击前后效果,生成实验报告图表
test_original.csv # 原始数据集,包含原始对话和标签 test_AfterAttack.csv # main.py 运行结果,包含整句改写后的对抗样本及评分 test_AfterAttack_synonym.csv # main_synonym.py 运行结果,包含同义词替换后的对抗样本及评分 ablation_report.csv # ablation_compare.py 生成的消融实验对比指标报告 interesting_samples.csv # ablation_compare.py 挖掘出的典型样本(结构优势、微调优势、效果显著样本)
score_drop_boxplot.png # ablation_compare.py 生成的箱线图,对比两种攻击策略的分数下降分布 score_change.png # result_analysis.py 生成的评分变化图 score_distribution.png # result_analysis.py 生成的评分分布直方图 success_by_type.png # result_analysis.py 生成的各类型样本攻击成功率对比图