Readme.md

Results of LLM-KG-Bench runs SEMANTICS 2023 poster track

Results and log of LLM-KG-Bench runs described in article "Developing a Scalable Benchmark for Assessing Large Language Models in Knowledge Graph Engineering", Meyer et al., to appear in SEMANTICS 2023 poster track proceedings.

We collected data in multiple runs, each resulting in files with date and time of experiment start in filename:

result files (.json, .txt, .yaml, same info in different serializations) containing task, response and evaluation data
model log files (.jsonnl in directory modelLog) containing details on LLM interaction
full log files (.log in directory log) containing debug log for runs

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2023-SEMANTICS_LLM-KGE-Bench-Results

2023-SEMANTICS_LLM-KGE-Bench-Results

Readme.md

Results of LLM-KG-Bench runs SEMANTICS 2023 poster track

Name		Name	Last commit message	Last commit date
parent directory ..
log		log
modelLog		modelLog
Readme.md		Readme.md
llm-kg-bench-results_2023-07-02_22-31-31_TurtleError-20x.json		llm-kg-bench-results_2023-07-02_22-31-31_TurtleError-20x.json
llm-kg-bench-results_2023-07-02_22-31-31_TurtleError-20x.txt		llm-kg-bench-results_2023-07-02_22-31-31_TurtleError-20x.txt
llm-kg-bench-results_2023-07-02_22-31-31_TurtleError-20x.yaml		llm-kg-bench-results_2023-07-02_22-31-31_TurtleError-20x.yaml
llm-kg-bench-results_2023-07-03_12-40-34_FactExtract-claude-20x.json		llm-kg-bench-results_2023-07-03_12-40-34_FactExtract-claude-20x.json
llm-kg-bench-results_2023-07-03_12-40-34_FactExtract-claude-20x.txt		llm-kg-bench-results_2023-07-03_12-40-34_FactExtract-claude-20x.txt
llm-kg-bench-results_2023-07-03_12-40-34_FactExtract-claude-20x.yaml		llm-kg-bench-results_2023-07-03_12-40-34_FactExtract-claude-20x.yaml
llm-kg-bench-results_2023-07-03_13-37-59_FactExtract-gpt3-20x.json		llm-kg-bench-results_2023-07-03_13-37-59_FactExtract-gpt3-20x.json
llm-kg-bench-results_2023-07-03_13-37-59_FactExtract-gpt3-20x.txt		llm-kg-bench-results_2023-07-03_13-37-59_FactExtract-gpt3-20x.txt
llm-kg-bench-results_2023-07-03_13-37-59_FactExtract-gpt3-20x.yaml		llm-kg-bench-results_2023-07-03_13-37-59_FactExtract-gpt3-20x.yaml
llm-kg-bench-results_2023-07-03_13-53-48_FactExtract-gpt4-20x.json		llm-kg-bench-results_2023-07-03_13-53-48_FactExtract-gpt4-20x.json
llm-kg-bench-results_2023-07-03_13-53-48_FactExtract-gpt4-20x.txt		llm-kg-bench-results_2023-07-03_13-53-48_FactExtract-gpt4-20x.txt
llm-kg-bench-results_2023-07-03_13-53-48_FactExtract-gpt4-20x.yaml		llm-kg-bench-results_2023-07-03_13-53-48_FactExtract-gpt4-20x.yaml
llm-kg-bench-results_2023-07-03_18-12-03_generation-gpt3-10to80-5x_error-1x70.json		llm-kg-bench-results_2023-07-03_18-12-03_generation-gpt3-10to80-5x_error-1x70.json
llm-kg-bench-results_2023-07-03_18-12-03_generation-gpt3-10to80-5x_error-1x70.txt		llm-kg-bench-results_2023-07-03_18-12-03_generation-gpt3-10to80-5x_error-1x70.txt
llm-kg-bench-results_2023-07-03_18-12-03_generation-gpt3-10to80-5x_error-1x70.yaml		llm-kg-bench-results_2023-07-03_18-12-03_generation-gpt3-10to80-5x_error-1x70.yaml
llm-kg-bench-results_2023-07-03_18-27-18_generation-gpt4-10to80-5x.json		llm-kg-bench-results_2023-07-03_18-27-18_generation-gpt4-10to80-5x.json
llm-kg-bench-results_2023-07-03_18-27-18_generation-gpt4-10to80-5x.txt		llm-kg-bench-results_2023-07-03_18-27-18_generation-gpt4-10to80-5x.txt
llm-kg-bench-results_2023-07-03_18-27-18_generation-gpt4-10to80-5x.yaml		llm-kg-bench-results_2023-07-03_18-27-18_generation-gpt4-10to80-5x.yaml
llm-kg-bench-results_2023-07-03_18-32-16_generation-claude100k-10to80-5x.json		llm-kg-bench-results_2023-07-03_18-32-16_generation-claude100k-10to80-5x.json
llm-kg-bench-results_2023-07-03_18-32-16_generation-claude100k-10to80-5x.txt		llm-kg-bench-results_2023-07-03_18-32-16_generation-claude100k-10to80-5x.txt
llm-kg-bench-results_2023-07-03_18-32-16_generation-claude100k-10to80-5x.yaml		llm-kg-bench-results_2023-07-03_18-32-16_generation-claude100k-10to80-5x.yaml
llm-kg-bench-results_2023-07-04_07-57-39_generation-gpt3-10to80-15x.json		llm-kg-bench-results_2023-07-04_07-57-39_generation-gpt3-10to80-15x.json
llm-kg-bench-results_2023-07-04_07-57-39_generation-gpt3-10to80-15x.txt		llm-kg-bench-results_2023-07-04_07-57-39_generation-gpt3-10to80-15x.txt
llm-kg-bench-results_2023-07-04_07-57-39_generation-gpt3-10to80-15x.yaml		llm-kg-bench-results_2023-07-04_07-57-39_generation-gpt3-10to80-15x.yaml
llm-kg-bench-results_2023-07-04_10-02-37_generation-claude100k-10to80-15x.json		llm-kg-bench-results_2023-07-04_10-02-37_generation-claude100k-10to80-15x.json
llm-kg-bench-results_2023-07-04_10-02-37_generation-claude100k-10to80-15x.txt		llm-kg-bench-results_2023-07-04_10-02-37_generation-claude100k-10to80-15x.txt
llm-kg-bench-results_2023-07-04_10-02-37_generation-claude100k-10to80-15x.yaml		llm-kg-bench-results_2023-07-04_10-02-37_generation-claude100k-10to80-15x.yaml
llm-kg-bench-results_2023-07-04_10-03-06_generation-gpt4-10to80-15x.json		llm-kg-bench-results_2023-07-04_10-03-06_generation-gpt4-10to80-15x.json
llm-kg-bench-results_2023-07-04_10-03-06_generation-gpt4-10to80-15x.txt		llm-kg-bench-results_2023-07-04_10-03-06_generation-gpt4-10to80-15x.txt
llm-kg-bench-results_2023-07-04_10-03-06_generation-gpt4-10to80-15x.yaml		llm-kg-bench-results_2023-07-04_10-03-06_generation-gpt4-10to80-15x.yaml

Files

2023-SEMANTICS_LLM-KGE-Bench-Results

Directory actions

More options

Directory actions

More options

Latest commit

History

2023-SEMANTICS_LLM-KGE-Bench-Results

Folders and files

parent directory

Readme.md

Results of LLM-KG-Bench runs SEMANTICS 2023 poster track