tutorials/dpo/dpo.json

{
    "train_dataset_settings": {
        "sources": [
                {
                "name": "train_preferences",
                  "records_path": "train_preferences.jsonl",
                  "num_samples": 10
              }
        ],
        "chat_settings":{
            "prompt_template": {
                "role_tag_mapping": {
                    "bot": "assistant",
                    "user": "user",
                    "system": "system"
                },
                "prefix_template": "<|start_header_id|>{role}<|end_header_id|>\n\n",
                "suffix_template": "<|eot_id|>"
            },
            "max_tokens_count": 2000
        },
        "add_labels": true,
        "dataset_type": "pair_preferences"
      },
      "val_dataset_settings": {
          "sources": [
              {
                "name": "val_preferences",
                  "records_path": "val_preferences.jsonl",
                  "num_samples": 10
              }
          ],
          "chat_settings":{
              "prompt_template": {
                "role_tag_mapping": {
                    "bot": "assistant",
                    "user": "user",
                    "system": "system"
                },
                "prefix_template": "<|start_header_id|>{role}<|end_header_id|>\n\n",
                "suffix_template": "<|eot_id|>"
            },
              "max_tokens_count": 2000
          },
          "add_labels": true,
          "dataset_type": "pair_preferences"
      },
      "cherry_pick_settings": {
      "generator_transformers_settings": {
              "num_beams": 1,
              "do_sample": true,
              "repetition_penalty": 1.02,
              "stop_strings": "<|eot_id|>",
              "max_new_tokens": 8
          },
          "custom_generation_settings": {
              "skip_special_tokens": true
          },
          "dataset_settings": {
              "sources": [
                {
                  "name": "chat_dataset",
                  "records_path": "val_chat.jsonl",
                  "num_samples": 3
                }
            ],
            "prompt_template": {
                "role_tag_mapping": {
                    "bot": "assistant",
                    "user": "user",
                    "system": "system"
                },
                "prefix_template": "<|start_header_id|>{role}<|end_header_id|>\n\n",
                "suffix_template": "<|eot_id|>"
            },
              "dataset_type": "chat",
              "max_tokens_count": 2000,
              "only_answer_loss": true
          },
          "metric_settings": [
            {
                "type": "kl",
                "parameters": {
                    "need_average": [true],
                    "ref_logits_type": "reference"
                }
            }
        ]
      },
      "model_settings": {
          "model_path": "yujiepan/llama-3-tiny-random",
          "model_type": "causal",
          "transformers_settings": {}
      },
      "tokenizer_settings": {},
      "special_tokens_settings": {
            "bos_token": "<|begin_of_text|>",
            "eos_token": "<|end_of_text|>"
        },
      "trainer_settings": {
        "evaluation_strategy": "steps",
        "per_device_train_batch_size": 1,
        "per_device_eval_batch_size": 1,
        "gradient_accumulation_steps": 2,
        "load_best_model_at_end": false,
        "eval_steps": 32,
        "save_steps": 32,
        "logging_steps": 1,
        "learning_rate": 1e-6,
        "num_train_epochs": 2,
        "lr_scheduler_type": "cosine",
        "warmup_ratio": 0.3,
        "fp16": false,
        "bf16": false,
        "adam_beta1": 0.9,
        "adam_beta2": 0.95,
        "adam_epsilon": 1e-12,
        "max_grad_norm": 2.0,
        "weight_decay": 0.0,
        "optim": "adamw_torch",
        "save_total_limit": 16,
        "dataloader_num_workers": 18,
        "gradient_checkpointing": false,
        "save_only_model": true,
        "loss_settings": {
            "loss_type": "sigmoid",
            "beta": 0.01
        },
        "sync_ref_settings": {
            "sync_ref_model": false
        },
        "use_sft_model": false,
        "use_ref_model": true
      },
      "logging_settings": {
            "project_name": "alignment",
            "run_name": "dpo",
            "entity": "turbo-alignment"
      },
      "seed": 0,
      "log_path": "train_output"
}