in progress

turbo-llm · Oct 19, 2024 · f5a7d1d · f5a7d1d
1 parent a7ed269
commit f5a7d1d
Show file tree

Hide file tree

Showing 2 changed files with 0 additions and 6 deletions.
diff --git a/turbo_alignment/common/distributed.py b/turbo_alignment/common/distributed.py
@@ -23,7 +23,6 @@ def get_global_mean(values: torch.Tensor) -> float:
     # Calculate the mean reward for the current process
     local_sum = values.sum().item()
 
-    print("WORLD SIZE 😼: ", world_size)
     if world_size == 1:
         return values.mean().item()
 

diff --git a/turbo_alignment/trainers/online/reinforce.py b/turbo_alignment/trainers/online/reinforce.py
@@ -343,11 +343,6 @@ def get_logprobs(
 
     def fill_nonvalid_rewards(self, rewards, query_response) -> Tuple[torch.Tensor, torch.Tensor]:
         if self.args.non_eos_penalty:
-            assert torch.all(query_response[:, -1] != self.tokenizer.pad_token_id), (
-                query_response[:, -1],
-                self.tokenizer.pad_token_id,
-            )
-
             invalid_mask = query_response[:, -1] != self.stop_generation_token_id[0]
             rewards[invalid_mask] = self.args.penalty_reward_value