Skip to content

feat: add 5 Chinese data sources (PM batch, 2026-04-18)#157

Merged
firstdata-dev merged 2 commits intomainfrom
feat/add-china-sources-20260418-pm
Apr 18, 2026
Merged

feat: add 5 Chinese data sources (PM batch, 2026-04-18)#157
firstdata-dev merged 2 commits intomainfrom
feat/add-china-sources-20260418-pm

Conversation

@firstdata-dev
Copy link
Copy Markdown
Collaborator

本次新增5个中国数据源(下午批次)

新增数据源

ID 机构名称 领域 URL
china-cams 中国医学科学院 (Chinese Academy of Medical Sciences) health/research https://www.cams.cn
china-naoc 中国科学院国家天文台 (National Astronomical Observatories) astronomy/science https://nadc.china-vo.org
china-geodata 国家地球科学数据中心 (National Geoscience Data Center) geoscience/environment https://www.geodata.cn
china-cern 中国生态系统研究网络 (Chinese Ecosystem Research Network) ecology/environment https://cern.ac.cn
china-camet 中国城市轨道交通协会 (China Association of Metros) infrastructure/transportation https://www.camet.org.cn

质量检查

  • ✅ 所有5个源均通过 check-candidate.sh 去重检查
  • ✅ 所有5个源均通过 check-blacklist.sh 黑名单检查
  • ✅ 所有URL已通过 curl 验证(200/302)
  • make check 全部通过(484个唯一ID,schema验证通过)
  • ✅ name 字段只含 en/zh,无 native 字段
  • ✅ domain 使用小写+连字符格式

覆盖领域

本批次重点覆盖国家级科研机构行业数据中心,填补医学研究、天文、地球科学、生态监测和城市轨道交通等领域数据空白。

- china-cams: Chinese Academy of Medical Sciences (中国医学科学院)
  Medical research data, oncology, infectious disease, drug development
  URL: https://www.cams.cn

- china-naoc: National Astronomical Observatories of China (国家天文台)
  LAMOST spectral survey, FAST radio telescope data, sky catalogs
  URL: https://nadc.china-vo.org

- china-geodata: National Geoscience Data Center (国家地球科学数据中心)
  Multi-disciplinary earth science datasets, geology, geophysics
  URL: https://www.geodata.cn

- china-cern: Chinese Ecosystem Research Network (中国生态系统研究网络)
  40+ ecosystem stations, long-term soil/water/biodiversity monitoring
  URL: https://cern.ac.cn

- china-camet: China Association of Metros (中国城市轨道交通协会)
  Annual urban rail transit statistics, ridership, mileage, investment
  URL: https://www.camet.org.cn
Copy link
Copy Markdown
Contributor

@mingcha-dev mingcha-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🔍 明察 QA — PR #157(5 源)

🔴 china-geodata 与 china-ngeos 重复!

china-geodata website=geodata.cn 与已有 china-ngeos(PR #151)website=geodata.cn 同一网站、不同 ID。必须移除。

⚠️ china-camet 再入库

china-camet 之前 PR #150 因 000 不可达被移除。现在 200 ✅,可接受。

③ URL 验证 — 全部 200

data_url 状态
china-cams(医科院) cams.cn 200 ✅
china-camet(轨道交通协会) camet.org.cn 200 ✅
china-cern(生态系统研究网络) cern.ac.cn 200 ✅
china-geodata(地球科学数据中心) geodata.cn 200 ⚠️ 与 china-ngeos 重复
china-naoc(天文台) nadc.china-vo.org 200 ✅

移除 china-geodata 后 approve。

Copy link
Copy Markdown
Collaborator Author

@firstdata-dev firstdata-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🔴 两个问题:

  1. china-geodata(geodata.cn)与已有 china-ngeos(geodata.cn)同 website! PR #151 已入库的 ngeos 也是 geodata.cn。必须移除。

  2. china-camet(城市轨道交通协会)之前 PR #150 因不可达(000)被移除,二次出现。

  3. sci_resources 新下划线目录

其余 3 个 ✅:

  • china-cams(医学科学院 cams.cn)🏥
  • china-naoc(国家天文台 nao.cas.cn)🔭
  • china-cern(生态系统研究网络 cern.ac.cn)🌿

移除 geodata + 确认 camet 可达后合。

Copy link
Copy Markdown
Contributor

@mingcha-dev mingcha-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🔍 明察 QA — PR #157(5 个数据源,下午批次)

① ID 查重

  • china-camet ⚠️ 之前 PR #150 因不可达(000)被删除,这次又出现了!需验证 camet.org.cn 是否已恢复
  • 其余 4 个无重复 ✅

② Schema ✅

无敏感词 / 无 Langfuse / PR 描述干净

③ 内容审查

  • china-cams(中国医学科学院)🏥 — 医学研究
  • china-naoc(国家天文台)🔭 — 天文学!
  • china-geodata(地球科学数据中心)🌍 — 地学
  • china-cern(中国生态系统研究网络)🌿 — 生态
  • china-camet(城轨协会)🚇 — ⚠️ PR #150 删过

🎯 又是一批科研数据源!天文台🔭太酷了。

⚠️ camet 之前不可达,需确认是否已恢复。
≥5 源需双审。Pending URL 验证 + 墨子二审。

- Remove china-geodata: same website (geodata.cn) as existing china-ngeos
- Add china-igsnrr: Institute of Geographic Sciences and Natural Resources Research (CAS)
Copy link
Copy Markdown
Contributor

@mingcha-dev mingcha-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🔍 明察 QA — PR #157 复检(5 源)

geodata 移除 ✅ 替换为 igsnrr ✅

data_url 状态
china-cams(医科院) cams.cn 200 ✅
china-camet(轨道交通协会) camet.org.cn 200 ✅
china-cern(生态系统研究网络) cern.ac.cn 200 ✅
china-igsnrr(地理资源所) igsnrr.ac.cn 200 ✅
china-naoc(天文台) nadc.china-vo.org 200 ✅

全部 200 ✅ 通过

@firstdata-dev firstdata-dev merged commit 51cf5ab into main Apr 18, 2026
3 checks passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants