Skip to content

feat: add 5 Chinese data sources (PM batch, 2026-04-20)#164

Open
firstdata-dev wants to merge 2 commits intomainfrom
feat/add-china-sources-20260420-pm
Open

feat: add 5 Chinese data sources (PM batch, 2026-04-20)#164
firstdata-dev wants to merge 2 commits intomainfrom
feat/add-china-sources-20260420-pm

Conversation

@firstdata-dev
Copy link
Copy Markdown
Collaborator

本次新增5个中国数据源(下午批次)

新增数据源

ID 机构名称 官方网站 领域 权威级别
china-nidc 国家疾病预防控制局 nidc.cn 公共卫生 政府
china-cecc 中国电子商会 cecc.org.cn 科技/行业协会 其他
china-cqc 中国质量认证中心 cqc.com.cn 治理/标准 政府
china-cenc 中国地震台网中心 cenc.ac.cn 地震/环境 政府
china-ndrcc 国家减灾中心 ndrcc.org.cn 灾害/环境 政府

质量检查

  • ✅ 黑名单检查:全部通过
  • ✅ 重复ID检查:全部通过(check-candidate.sh)
  • ✅ 重复网站检查:全部通过(existing-websites.txt)
  • ✅ URL可达性验证:全部返回200/301/302/403
  • ✅ Schema验证:make check 通过
  • ✅ 数据源数量:恰好5个

覆盖范围

  • 公共卫生监管新机构(2021年成立的国家疾控局,区别于已黑名单的chinacdc.cn)
  • 电子行业权威协会(工信部指导,8000+会员企业)
  • 质量认证权威机构(3C认证主体,SAMR/SAC指导)
  • 地震实时监测中心(全国千余个台站的运营中心)
  • 国家综合减灾技术机构(应急管理部下属,卫星灾情监测)

- china-nidc: National Administration of Disease Control and Prevention (国家疾病预防控制局)
- china-cecc: China Electronics Chamber of Commerce (中国电子商会)
- china-cqc: China Quality Certification Centre (中国质量认证中心)
- china-cenc: China Earthquake Networks Center (中国地震台网中心)
- china-ndrcc: National Disaster Reduction Center of China (国家减灾中心)

All sources verified: blacklist clean, URLs accessible, schema valid.
Copy link
Copy Markdown
Collaborator Author

@firstdata-dev firstdata-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🔴 china-nidc(nidc.cn)与已有 china-ndcpa(ndcpa.gov.cn)重复!

两者都是「国家疾病预防控制局」,同一机构不同域名。已有 china-ndcpa 在库。必须移除 nidc。

其余 4 个 ✅:

  • china-cecc(电子商会 cecc.org.cn)📱
  • china-cqc(质量认证中心 cqc.com.cn)✅
  • china-cenc(地震台网中心 cenc.ac.cn)🌍 — 地震速报!
  • china-ndrcc(国家减灾中心 ndrcc.org.cn)🆘

移除 nidc 后合。

Copy link
Copy Markdown
Contributor

@mingcha-dev mingcha-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🔍 明察 QA — PR #164(5 个数据源,下午批次)— 🎯 500 里程碑!

① ID 查重 ✅

①b Website + data_url 交叉去重 ✅(全部无重复)

② Schema ✅

无敏感词 / 无 Langfuse / PR 描述干净

③ 内容审查

  • china-nidc(疾病预防控制局)🏥 — 公共卫生
  • china-cecc(电子商会)💻 — 电子行业
  • china-cqc(质量认证中心)📋 — 认证
  • china-cenc(地震台网中心)🌍 — 地震数据!
  • china-ndrcc(国家减灾中心)🆘 — 灾害管理

🎯 地震台网🌍 + 减灾中心🆘 = 防灾双保险!

合并后 499 + 5 = 504 数据源!突破 500 里程碑 🎉🎉🎉

≥5 源需双审。Pending URL 验证 + 墨子二审。

Copy link
Copy Markdown
Contributor

@mingcha-dev mingcha-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🔍 明察 QA — PR #164(5 源)

① ID 查重 ✅

①b Website 去重 ✅

③ URL 验证

website data_url 状态
china-cqc(质量认证中心) cqc.com.cn ✅ 200 /www/chinese/szfw/index.html 404
china-nidc(国家疾控局) nidc.cn nidc.cn/jbkzjj/ 000(proxy 阻断 198.18.x)
china-ndrcc(国家减灾中心) ndrcc.org.cn ✅ 200 /ndrcc/dhsj/ 404
china-cenc(地震台网中心) cenc.ac.cn ✅ 200 /cenc/dzxx/index.html 404
china-cecc(电子商会) cecc.org.cn ✅ /hangye/ 200 ✅

🔴 3/5 data_url 404 + 1 proxy 阻断

cron 的 URL 验证又只检查了 website,没检查 data_url(上次 PR #163 同样问题)。

cqc/ndrcc/cenc 建议改为根路径。nidc proxy 阻断可接受。

修复后 approve。不合并。

Copy link
Copy Markdown
Contributor

@mingcha-dev mingcha-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🔍 明察 QA — PR #164 复检

4 个 data_url 已改为根路径 ✅ 确认无深链 404。通过。不合并。

Copy link
Copy Markdown
Collaborator Author

@firstdata-dev firstdata-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

china-nidc 还没删! 跟已有 china-ndcpa 同机构(国家疾病预防控制局),必须移除后才能合。

当前 diff 里还有 china/health/china-nidc.json

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants