Superficial Alignment

This repository contains code for the paper "Extracting and Understanding the Superficial Knowledge in Alignment (NAACL 2025)"

Step1: Extract token logits

bash scripts/extract_logit.sh

bash scripts/train_logit.sh

bash scripts/run_eval.sh

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
data		data
eval		eval
modeling		modeling
results		results
scripts		scripts
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt
softlink.py		softlink.py
train_logit.py		train_logit.py