support R-DPO #25

leksious · 2024-09-24T16:27:23Z

No description provided.

alekseymalakhov11 · 2024-09-25T17:07:35Z

turbo_alignment/trainers/utils.py

+        chosen_lens: int | None,
+        rejected_lens: int | None,


не очень нравится идея добавлять штуку в общий абстрактный класс которая только в одном лоссе используется

хочется как-то внутри более изолировано и чисто внутри лосса это считать мб

Согласен, что это не оч красиво. Делал по примеру precomputed_margins, ща мб попробую переписать без этого

alekseymalakhov11 · 2024-09-25T17:08:01Z

turbo_alignment/trainers/dpo.py

+
+        unscaled = self.beta * logits
+
+        if chosen_lens is not None and rejected_lens is not None:


обязательно же не None должно быть

alekseymalakhov11 · 2024-09-25T17:14:10Z

turbo_alignment/trainers/dpo.py

+        unscaled = self.beta * logits
+
+        if chosen_lens is not None and rejected_lens is not None:
+            unscaled -= self.alpha * rejected_lens - self.alpha * chosen_lens


мне визуально так приятней и проще, но и так как у тебя ок

Suggested change

unscaled -= self.alpha * rejected_lens - self.alpha * chosen_lens

unscaled += self.alpha * (chosen_lens - rejected_lens)

alekseymalakhov11 · 2024-11-29T13:07:55Z

turbo_alignment/settings/pipelines/train/dpo.py

@@ -85,6 +86,12 @@ class APODownLossSettings(DPOLossSettings):
    loss_type: Literal[DPOLossesType.APO_DOWN]


+class RDPOLossSettings(DPOLossSettings):
+    loss_type: Literal[DPOLossesType.RDPO]
+    beta: float = 0.1


Suggested change

beta: float = 0.1

support R-DPO

62a9d72

leksious requested a review from syrn1k September 25, 2024 14:41

alekseymalakhov11 reviewed Sep 25, 2024

View reviewed changes

alekseymalakhov11 reviewed Nov 29, 2024

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

support R-DPO #25

support R-DPO #25

leksious commented Sep 24, 2024

alekseymalakhov11 Sep 25, 2024

leksious Sep 25, 2024

alekseymalakhov11 Sep 25, 2024

alekseymalakhov11 Sep 25, 2024

alekseymalakhov11 Nov 29, 2024


		unscaled = self.beta * logits

		if chosen_lens is not None and rejected_lens is not None:

	unscaled -= self.alpha * rejected_lens - self.alpha * chosen_lens
	unscaled += self.alpha * (chosen_lens - rejected_lens)

support R-DPO #25

Are you sure you want to change the base?

support R-DPO #25

Conversation

leksious commented Sep 24, 2024

alekseymalakhov11 Sep 25, 2024

Choose a reason for hiding this comment

leksious Sep 25, 2024

Choose a reason for hiding this comment

alekseymalakhov11 Sep 25, 2024

Choose a reason for hiding this comment

alekseymalakhov11 Sep 25, 2024

Choose a reason for hiding this comment

alekseymalakhov11 Nov 29, 2024

Choose a reason for hiding this comment