[feat] shuffle data

2026-04-25 08:48:16 +08:00 · 2025-10-23 20:13:28 +08:00 · 2025-10-23 20:13:28 +08:00 · a82526da11
commit a82526da11
parent 805744e60a
9 changed files with 9 additions and 9 deletions
--- a/trainer/train_distill_reason.py
+++ b/trainer/train_distill_reason.py
@ -199,7 +199,7 @@ if __name__ == "__main__":
        batch_size=args.batch_size,
        pin_memory=True,
        drop_last=False,
-        shuffle=False,
+        shuffle=(train_sampler is None),
        num_workers=args.num_workers,
        sampler=train_sampler
    )
--- a/trainer/train_distillation.py
+++ b/trainer/train_distillation.py
@ -248,7 +248,7 @@ if __name__ == "__main__":
        batch_size=args.batch_size,
        pin_memory=True,
        drop_last=False,
-        shuffle=False,
+        shuffle=(train_sampler is None),
        num_workers=args.num_workers,
        sampler=train_sampler
    )
--- a/trainer/train_dpo.py
+++ b/trainer/train_dpo.py
@ -231,7 +231,7 @@ if __name__ == "__main__":
        batch_size=args.batch_size,
        pin_memory=True,
        drop_last=False,
-        shuffle=False,
+        shuffle=(train_sampler is None),
        num_workers=args.num_workers,
        sampler=train_sampler
    )
--- a/trainer/train_full_sft.py
+++ b/trainer/train_full_sft.py
@ -185,7 +185,7 @@ if __name__ == "__main__":
        batch_size=args.batch_size,
        pin_memory=True,
        drop_last=False,
-        shuffle=False,
+        shuffle=(train_sampler is None),
        num_workers=args.num_workers,
        sampler=train_sampler
    )
--- a/trainer/train_grpo.py
+++ b/trainer/train_grpo.py
@ -299,7 +299,7 @@ if __name__ == "__main__":
    train_ds = RLAIFDataset(args.data_path, tokenizer, max_length=lm_config.max_seq_len)
    train_sampler = DistributedSampler(train_ds) if ddp else None
    train_loader = DataLoader(train_ds, batch_size=args.batch_size, pin_memory=True,
-                              drop_last=False, shuffle=False,
+                              drop_last=False, shuffle=(train_sampler is None),
                              num_workers=args.num_workers, sampler=train_sampler)

    optimizer = optim.AdamW(model.parameters(), lr=args.learning_rate)
--- a/trainer/train_lora.py
+++ b/trainer/train_lora.py
@ -196,7 +196,7 @@ if __name__ == "__main__":
        batch_size=args.batch_size,
        pin_memory=True,
        drop_last=False,
-        shuffle=False,
+        shuffle=(train_sampler is None),
        num_workers=args.num_workers,
        sampler=train_sampler
    )
--- a/trainer/train_ppo.py
+++ b/trainer/train_ppo.py
@ -344,7 +344,7 @@ if __name__ == "__main__":
    train_ds = RLAIFDataset(args.data_path, tokenizer, max_length=(args.max_seq_len + args.max_gen_len))
    train_sampler = DistributedSampler(train_ds) if ddp else None
    train_loader = DataLoader(train_ds, batch_size=args.batch_size, pin_memory=True,
-                              drop_last=False, shuffle=False,
+                              drop_last=False, shuffle=(train_sampler is None),
                              num_workers=args.num_workers, sampler=train_sampler)

    # 初始化优化器
--- a/trainer/train_pretrain.py
+++ b/trainer/train_pretrain.py
@ -183,7 +183,7 @@ if __name__ == "__main__":
        batch_size=args.batch_size,
        pin_memory=True,
        drop_last=False,
-        shuffle=False,
+        shuffle=(train_sampler is None),
        num_workers=args.num_workers,
        sampler=train_sampler
    )
--- a/trainer/train_spo.py
+++ b/trainer/train_spo.py
@ -348,7 +348,7 @@ if __name__ == "__main__":
    train_ds = RLAIFDataset(args.data_path, tokenizer, max_length=lm_config.max_seq_len)
    train_sampler = DistributedSampler(train_ds) if ddp else None
    train_loader = DataLoader(train_ds, batch_size=args.batch_size, pin_memory=True,
-                              drop_last=False, shuffle=False,
+                              drop_last=False, shuffle=(train_sampler is None),
                              num_workers=args.num_workers, sampler=train_sampler)

    optimizer = optim.AdamW(model.parameters(), lr=args.learning_rate)