Example script to run

OPENAI_API_KEY=<FW_API_KEY/TG_API_KEY> python run_meta_benchmarks.py --model-size 8b --provider fw --output-dir gsm8k/fw_3p1_8b/ --eval-set evals__gsm8k__details

# Note - if this crashes due to rate limit/something else, you can rerun the same command to continue - all the previous requests are persisted

python analyze_answers.py --task evals__gsm8k__details --response-path gsm8k/fw_3p1_8b/

> Accuracy: 0.8529188779378317 evals__gsm8k__details gsm8k/fw_3p1_8b/

Tasks supported so far are evals__mmlu__details, evals__mmlu__0_shot__cot__details, evals__gsm8k__details, evals__mmlu_pro__details.

Note - we don't know the exact answer extraction logic Meta uses so we rolled out own. Discrepencies may be a result of this.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
LICENSE		LICENSE
README.md		README.md
analyze_answers.py		analyze_answers.py
run_meta_benchmarks.py		run_meta_benchmarks.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Example script to run

About

Releases

Packages

Languages

License

fw-ai/llm_eval_meta

Folders and files

Latest commit

History

Repository files navigation

Example script to run

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages