Add SPPO-Llama-3-Instruct-8B-PairRM to AlpacaEval (#354)

Co-authored-by: jzb <[email protected]>
tatsu-lab · Jun 26, 2024 · 9038f8a · 9038f8a
1 parent 16199f3
commit 9038f8a
Show file tree

Hide file tree

Showing 6 changed files with 69,420 additions and 2 deletions.
diff --git a/results/SPPO-Llama-3-Instruct-8B-PairRM/model_outputs.json b/results/SPPO-Llama-3-Instruct-8B-PairRM/model_outputs.json
diff --git a/results/SPPO-Llama-3-Instruct-8B-PairRM/weighted_alpaca_eval_gpt4_turbo/annotations.json b/results/SPPO-Llama-3-Instruct-8B-PairRM/weighted_alpaca_eval_gpt4_turbo/annotations.json
diff --git a/...lpaca_eval/leaderboards/data_AlpacaEval_2/weighted_alpaca_eval_gpt4_turbo_leaderboard.csv b/...lpaca_eval/leaderboards/data_AlpacaEval_2/weighted_alpaca_eval_gpt4_turbo_leaderboard.csv
@@ -6,7 +6,7 @@ Together-MoA-Lite,56.593045622273294,1.4464848562244548,456,347,2,805,56.7701863
 aligner-2b_gpt-4-turbo-2024-04-09,46.77089325668323,1.3378060774476594,371,417,17,805,40.18633540372671,community,1370,58.33130206276722,
 gpt-4o-2024-05-13,51.32757578249279,1.4700094589795554,429,369,7,805,53.72670807453416,minimal,1873,57.45682883335095,
 gpt-4-turbo-2024-04-09,46.11526538763708,1.474073957743638,370,426,9,805,46.52173913043478,minimal,1802,55.01530093647852,
-claude-3-5-sonnet-20240620,40.560214096828275,1.4679655403720542,312,493,0,805,38.75776397515528,community,1488,52.36675427146999,
+claude-3-5-sonnet-20240620,40.56021409682828,1.4679655403720542,312,493,0,805,38.75776397515528,community,1488,52.36675427146999,
 yi-large-preview,57.46724251946292,1.4305696667082746,463,338,4,805,57.7639751552795,verified,2335,51.894415134099546,
 gpt4_1106_preview_verbose,64.30360147101865,1.3348590089025316,525,268,12,805,65.96273291925466,dev,2402,51.57500797967598,
 Storm-7B,50.26886905528583,1.4728176780737183,397,408,0,805,49.31677018633541,community,2045,50.45110959343775,
@@ -19,6 +19,7 @@ gpt4_1106_preview_concise,22.92019444047205,1.232517714329424,172,622,11,805,22.
 aligner-2b_claude-3-opus-20240229,34.46337362321739,1.314666526302454,225,475,105,805,34.47204968944099,community,1669,41.823071715247664,
 Nanbeige2-16B-Chat,37.03608605005168,1.4340261272580377,288,514,3,805,35.962732919254655,community,1867,40.591286349562864,0.8504106275373426
 claude-3-opus-20240229,29.10526953334248,1.3941539442369442,223,579,3,805,27.888198757763977,minimal,1388,40.5095080124761,
+SPPO-Llama-3-Instruct-8B-PairRM,39.67286090605648,1.424722356202499,310,494,1,805,38.57142857142858,community,2066,38.56280663670214,0.8694594533275739
 gpt4,23.576789314782605,1.275704201206918,179,618,8,805,22.732919254658384,verified,1365,38.12808974440021,
 aligner-2b_qwen1.5-72b-chat,31.773037737123104,1.2392772646245978,180,473,152,805,31.801242236024844,community,1812,36.725868878524274,
 Qwen1.5-72B-Chat,26.49828339562733,1.304236164893057,201,600,4,805,25.217391304347824,verified,1549,36.571754111987296,

diff --git a/...ights/weighted_alpaca_eval_gpt4_turbo/length_controlled_v1/baseline_gpt4_1106_preview.csv b/...ights/weighted_alpaca_eval_gpt4_turbo/length_controlled_v1/baseline_gpt4_1106_preview.csv
@@ -167,4 +167,5 @@ Together-MoA-Lite,-1.0572386816426196,0.7849833974539681,0.5628671529713698
 Storm-7B,-0.2454158607006287,0.6674628551824360,0.0978593995297498
 Storm-7B-best-of-64,-0.7151816152506517,0.6962107247259065,0.6517965200881723
 Nanbeige2-16B-Chat,-1.4383673979411902,0.8415127360873783,-0.3850159994606512
-openpipe-moa-gpt-4-turbo-v1,-1.0482540803063984,0.8922946327161730,1.1183646496339554
+openpipe-moa-gpt-4-turbo-v1,-1.0482540803063984,0.8922946327161730,1.1183646496339554
+SPPO-Llama-3-Instruct-8B-PairRM,-1.0191251760902622,0.8783306469909790,-0.4989987701412274
diff --git a/src/alpaca_eval/models_configs/SPPO-Llama-3-Instruct-8B-PairRM/configs.yaml b/src/alpaca_eval/models_configs/SPPO-Llama-3-Instruct-8B-PairRM/configs.yaml
@@ -0,0 +1,17 @@
+SPPO-Llama-3-Instruct-8B-PairRM:
+  completions_kwargs:
+    batch_size: 900
+    do_sample: true
+    max_new_tokens: 4096
+    model_kwargs:
+      dtype: bfloat16
+    model_name: UCLA-AGI/Llama-3-Instruct-8B-SPPO-Iter3
+    stop_token_ids:
+    - 128001
+    - 128009
+    temperature: 0.9
+    top_p: 1.0
+  fn_completions: vllm_local_completions
+  pretty_name: SPPO-Llama-3-Instruct-8B-PairRM
+  prompt_template: SPPO-Llama-3-Instruct-8B-PairRM/prompt.txt
+  link: "https://huggingface.co/UCLA-AGI/Llama-3-Instruct-8B-SPPO-Iter3"
diff --git a/src/alpaca_eval/models_configs/SPPO-Llama-3-Instruct-8B-PairRM/prompt.txt b/src/alpaca_eval/models_configs/SPPO-Llama-3-Instruct-8B-PairRM/prompt.txt
@@ -0,0 +1,5 @@
+<|begin_of_text|><|start_header_id|>user<|end_header_id|>
+
+{instruction}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
+
+
Original file line number	Diff line number	Diff line change
		@@ -0,0 +1,5 @@
		<\|begin_of_text\|><\|start_header_id\|>user<\|end_header_id\|>

		{instruction}<\|eot_id\|><\|start_header_id\|>assistant<\|end_header_id\|>