Posted 2025-12-01Updated 2026-02-17 Jaco Liu AI / Algo15 minutes read (About 2281 words)

基于 Golang 模拟实现一个简化的 DeepSeek AI 模型 GRPO 算法推理

它的核心特点是不需要训练价值函数，而是通过从同一问题的多个输出中计算平均奖励来替代这一过程，显著减少了内存和计算资源的消耗。