在训练时使用了traj_images提取到的特征,进行噪声的预测。而加噪轨迹基于traj_poses,两者在时间上是一一对应的。请问我的理解有问题吗?如果是这样,是不是会训练中会出现未来帧的信息泄露的问题? 以下是我阅读到的训练时forward和dataset加载的代码: https://github.com/InternRobotics/InternNav/blob/0f822526d036cfa80f29865f8384e6f2140ca042/internnav/model/basemodel/internvla_n1/internvla_n1.py#L255 https://github.com/InternRobotics/InternNav/blob/0f822526d036cfa80f29865f8384e6f2140ca042/internnav/dataset/internvla_n1_lerobot_dataset.py#L1127