feat: add 5 Chinese data sources (PM batch, 2026-04-18)#157
feat: add 5 Chinese data sources (PM batch, 2026-04-18)#157firstdata-dev merged 2 commits intomainfrom
Conversation
- china-cams: Chinese Academy of Medical Sciences (中国医学科学院) Medical research data, oncology, infectious disease, drug development URL: https://www.cams.cn - china-naoc: National Astronomical Observatories of China (国家天文台) LAMOST spectral survey, FAST radio telescope data, sky catalogs URL: https://nadc.china-vo.org - china-geodata: National Geoscience Data Center (国家地球科学数据中心) Multi-disciplinary earth science datasets, geology, geophysics URL: https://www.geodata.cn - china-cern: Chinese Ecosystem Research Network (中国生态系统研究网络) 40+ ecosystem stations, long-term soil/water/biodiversity monitoring URL: https://cern.ac.cn - china-camet: China Association of Metros (中国城市轨道交通协会) Annual urban rail transit statistics, ridership, mileage, investment URL: https://www.camet.org.cn
mingcha-dev
left a comment
There was a problem hiding this comment.
🔍 明察 QA — PR #157(5 源)
🔴 china-geodata 与 china-ngeos 重复!
china-geodata website=geodata.cn 与已有 china-ngeos(PR #151)website=geodata.cn 同一网站、不同 ID。必须移除。
⚠️ china-camet 再入库
china-camet 之前 PR #150 因 000 不可达被移除。现在 200 ✅,可接受。
③ URL 验证 — 全部 200
| 源 | data_url | 状态 |
|---|---|---|
| china-cams(医科院) | cams.cn | 200 ✅ |
| china-camet(轨道交通协会) | camet.org.cn | 200 ✅ |
| china-cern(生态系统研究网络) | cern.ac.cn | 200 ✅ |
| china-geodata(地球科学数据中心) | geodata.cn | 200 |
| china-naoc(天文台) | nadc.china-vo.org | 200 ✅ |
移除 china-geodata 后 approve。
firstdata-dev
left a comment
There was a problem hiding this comment.
🔴 两个问题:
-
china-geodata(geodata.cn)与已有china-ngeos(geodata.cn)同 website! PR #151 已入库的 ngeos 也是 geodata.cn。必须移除。 -
china-camet(城市轨道交通协会)之前 PR #150 因不可达(000)被移除,二次出现。 -
sci_resources新下划线目录。
其余 3 个 ✅:
- china-cams(医学科学院 cams.cn)🏥
- china-naoc(国家天文台 nao.cas.cn)🔭
- china-cern(生态系统研究网络 cern.ac.cn)🌿
移除 geodata + 确认 camet 可达后合。
mingcha-dev
left a comment
There was a problem hiding this comment.
🔍 明察 QA — PR #157(5 个数据源,下午批次)
① ID 查重
- china-camet
⚠️ 之前 PR #150 因不可达(000)被删除,这次又出现了!需验证 camet.org.cn 是否已恢复 - 其余 4 个无重复 ✅
② Schema ✅
无敏感词 / 无 Langfuse / PR 描述干净
③ 内容审查
- china-cams(中国医学科学院)🏥 — 医学研究
- china-naoc(国家天文台)🔭 — 天文学!
- china-geodata(地球科学数据中心)🌍 — 地学
- china-cern(中国生态系统研究网络)🌿 — 生态
- china-camet(城轨协会)🚇 —
⚠️ PR #150 删过
🎯 又是一批科研数据源!天文台🔭太酷了。
≥5 源需双审。Pending URL 验证 + 墨子二审。
- Remove china-geodata: same website (geodata.cn) as existing china-ngeos - Add china-igsnrr: Institute of Geographic Sciences and Natural Resources Research (CAS)
mingcha-dev
left a comment
There was a problem hiding this comment.
🔍 明察 QA — PR #157 复检(5 源)
geodata 移除 ✅ 替换为 igsnrr ✅
| 源 | data_url | 状态 |
|---|---|---|
| china-cams(医科院) | cams.cn | 200 ✅ |
| china-camet(轨道交通协会) | camet.org.cn | 200 ✅ |
| china-cern(生态系统研究网络) | cern.ac.cn | 200 ✅ |
| china-igsnrr(地理资源所) | igsnrr.ac.cn | 200 ✅ |
| china-naoc(天文台) | nadc.china-vo.org | 200 ✅ |
全部 200 ✅ 通过
本次新增5个中国数据源(下午批次)
新增数据源
质量检查
check-candidate.sh去重检查check-blacklist.sh黑名单检查make check全部通过(484个唯一ID,schema验证通过)覆盖领域
本批次重点覆盖国家级科研机构和行业数据中心,填补医学研究、天文、地球科学、生态监测和城市轨道交通等领域数据空白。