谢谢,作者开源的工作,我要用自己的采集的数据训练 stage advantage 模型时候,计算,advantage[i] = progress[i + chunk_size] - progress[i] 训练原始数据中的 progress 值如何获得的?