qiqihezh

Qiqi He qiqihezh

Achievements

agentic-grpo-longhorizon agentic-grpo-longhorizon Public

Fixing GRPO training collapse in long-horizon multi-tool agents. A lightweight PRM-Lite + LATA joint approach achieves +37% over vanilla GRPO on τ-bench airline (50-task, multi-turn).

Python 55 3
deepresearch-agent deepresearch-agent Public

一个生产级的深度研究 Agent 系统，从零构建多智能体编排、Red-Blue 对抗降噪、语义级上下文压缩、跨 Agent 共享记忆四大核心能力，配套 165 次独立实验 + Bootstrap 统计显著性检验的完整评测体系。

Python 11 3
act act Public

Forked from tonyzhaozh/act

Python
diffusion_policy diffusion_policy Public

Forked from real-stanford/diffusion_policy

[RSS 2023] Diffusion Policy Visuomotor Policy Learning via Action Diffusion

Python
RoboTwin RoboTwin Public

Forked from RoboTwin-Platform/RoboTwin

RoboTwin 2.0 Offical Repo

Python
CVtemplate CVtemplate Public

简历模板latex