TDRM - a zd21 Collection

Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

zd21 's Collections

TDRM

TDRM

updated Nov 12

Learning Smooth Reward Models with Temporal Difference for LLM RL and Inference

zd21/DeepSeek-TD0-PRM

Updated Jul 12
zd21/DeepSeek-TD2-PRM

Updated Jul 12
zd21/DeepSeek-ScalarPRM

Updated Jul 12
zd21/DeepSeek-ScalarORM

Updated Jul 12
zd21/DS-R1-Distill-Qwen-1.5B-TDRM

Updated Jul 12
zd21/DS-R1-Distill-Qwen-7.5B-TDRM

Updated Jul 12
zd21/Qwen2.5-Math-1.5B-TDRM

Updated Jul 16
zd21/Qwen2.5-Math-7B-TDRM

Updated Jul 16
zd21/Qwen2.5-0.5B-TDRM

Updated Jul 16
zd21/Qwen2.5-1.5B-TDRM

Updated Jul 16
zd21/GLM4-9B-0414-TDRM

9B • Updated Jul 29 • 6
zd21/GLM-Z1-9B-0414-TDRM

9B • Updated Aug 22 • 7
zd21/DeepSeek-TD1-PRM

Updated Sep 8
TDRM: Smooth Reward Models with Temporal Difference for LLM RL and Inference

Paper • 2509.15110 • Published Sep 18 • 1

Collection guide
Browse collections

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs