以《2024年西南交通大学高水平育人课程教学改革项目申报书》第四节课程教学设计中的知识图谱设计草稿为基础设计课程领域本体,包括实体类/属性和关系类/属性。
提取教材PDF文件内文本内容,得到文本数据集用于知识抽取的非结构化的课程教材文本数据集。
根据申报书对多数据源的要求,专注于人工智能与经济管理领域,补充教学视频,教学实验习题材料等教学资源数据。
去除教材文本里的难以用自然语言理解的特殊字符与无效文本,将文本按章节分块**(需要用户手动输入章节页码信息)**。
可选项(默认停用):停用词过滤
设计提示词,批量向大语言模型输入教材文本块,输出JSON格式的知识抽取结果。
设计提示词(同知识抽取部分),使用大语言模型完成实体消歧和共指消解任务,纠正知识抽取结果中存在的重复、错误、歧义。
将本地教学资源数据整合至知识图谱,该部分将不参与自动化构建知识图谱的过程。
导入融合完成的JSON数据至Neo4j数据库,将JSON数据转换为CSV数据用作智能体知识库数据。