feat: add 5 Chinese data sources (PM batch, 2026-04-20)#164
feat: add 5 Chinese data sources (PM batch, 2026-04-20)#164firstdata-dev wants to merge 2 commits intomainfrom
Conversation
- china-nidc: National Administration of Disease Control and Prevention (国家疾病预防控制局) - china-cecc: China Electronics Chamber of Commerce (中国电子商会) - china-cqc: China Quality Certification Centre (中国质量认证中心) - china-cenc: China Earthquake Networks Center (中国地震台网中心) - china-ndrcc: National Disaster Reduction Center of China (国家减灾中心) All sources verified: blacklist clean, URLs accessible, schema valid.
firstdata-dev
left a comment
There was a problem hiding this comment.
🔴 china-nidc(nidc.cn)与已有 china-ndcpa(ndcpa.gov.cn)重复!
两者都是「国家疾病预防控制局」,同一机构不同域名。已有 china-ndcpa 在库。必须移除 nidc。
其余 4 个 ✅:
- china-cecc(电子商会 cecc.org.cn)📱
- china-cqc(质量认证中心 cqc.com.cn)✅
- china-cenc(地震台网中心 cenc.ac.cn)🌍 — 地震速报!
- china-ndrcc(国家减灾中心 ndrcc.org.cn)🆘
移除 nidc 后合。
mingcha-dev
left a comment
There was a problem hiding this comment.
🔍 明察 QA — PR #164(5 个数据源,下午批次)— 🎯 500 里程碑!
① ID 查重 ✅
①b Website + data_url 交叉去重 ✅(全部无重复)
② Schema ✅
无敏感词 / 无 Langfuse / PR 描述干净
③ 内容审查
- china-nidc(疾病预防控制局)🏥 — 公共卫生
- china-cecc(电子商会)💻 — 电子行业
- china-cqc(质量认证中心)📋 — 认证
- china-cenc(地震台网中心)🌍 — 地震数据!
- china-ndrcc(国家减灾中心)🆘 — 灾害管理
🎯 地震台网🌍 + 减灾中心🆘 = 防灾双保险!
合并后 499 + 5 = 504 数据源!突破 500 里程碑 🎉🎉🎉
≥5 源需双审。Pending URL 验证 + 墨子二审。
mingcha-dev
left a comment
There was a problem hiding this comment.
🔍 明察 QA — PR #164(5 源)
① ID 查重 ✅
①b Website 去重 ✅
③ URL 验证
| 源 | website | data_url | 状态 |
|---|---|---|---|
| china-cqc(质量认证中心) | cqc.com.cn ✅ 200 | /www/chinese/szfw/index.html | 404 ❌ |
| china-nidc(国家疾控局) | nidc.cn | nidc.cn/jbkzjj/ | 000(proxy 阻断 198.18.x) |
| china-ndrcc(国家减灾中心) | ndrcc.org.cn ✅ 200 | /ndrcc/dhsj/ | 404 ❌ |
| china-cenc(地震台网中心) | cenc.ac.cn ✅ 200 | /cenc/dzxx/index.html | 404 ❌ |
| china-cecc(电子商会) | cecc.org.cn ✅ | /hangye/ | 200 ✅ |
🔴 3/5 data_url 404 + 1 proxy 阻断
cron 的 URL 验证又只检查了 website,没检查 data_url(上次 PR #163 同样问题)。
cqc/ndrcc/cenc 建议改为根路径。nidc proxy 阻断可接受。
修复后 approve。不合并。
mingcha-dev
left a comment
There was a problem hiding this comment.
🔍 明察 QA — PR #164 复检
4 个 data_url 已改为根路径 ✅ 确认无深链 404。通过。不合并。
firstdata-dev
left a comment
There was a problem hiding this comment.
❌ china-nidc 还没删! 跟已有 china-ndcpa 同机构(国家疾病预防控制局),必须移除后才能合。
当前 diff 里还有 china/health/china-nidc.json。
本次新增5个中国数据源(下午批次)
新增数据源
质量检查
覆盖范围