Generative adversarial network for source code suggestions

Code for the masterthesis 'Generative adversarial network for source code suggestions'

If you use this code please cite the paper using the following bib tex:

@mastersthesis{code-gan,
  title   = {Generative adversarial network for source code suggestions},
  author  = {Matthias Richter},
  school  = {Universität Leipzig},
  year    = {2021}
}

Requirements

Python 3.6+
Pip

For installing all dependencies please use:

pip install requirements.txt

Dataset

For the training the 150k Python Dataset was used. The complete dataset can be downloaded by:

python3 get_data.py

For each file in the dataset the preprocessing steps will be applied. Afterwards, the whole dataset will be tokenized.

Train Generator

To run the generator train change the configuration file and run the following:

python3 train.py

Pseudo Code:

# Init Generator with random weights
G = Generator()

# Init Discrimintaor
D = Discriminator()

# Pretrain Generator
for x, y in train:
    generator(x)
    loss = criterion(x,y)
    loss.step

# Adversarial Training
for n in steps:
    
    
    # train generator
    condition, ground_truth = dataset.get_sample # todo get new sample
    real_data = condition + ground_truth # todo change implementation
    generated_data = G(condition)
    discriminator_real_out = self.discriminator(real_data)
    discriminator_fake_out = self.discriminator(generated_data)
    loss_g, _ = get_losses(discriminator_real_out, discriminator_fake_out)
    
    #train discriminator
    condition, ground_truth = dataset.get_sample # todo get new sample
    real_data = condition + ground_truth # todo change implementation
    discriminator_real_out = self.discriminator(real_data)
    discriminator_fake_out = self.discriminator(generated_data)
    loss_g, _ = get_losses(discriminator_real_out, discriminator_fake_out)

Name		Name	Last commit message	Last commit date
Latest commit History 323 Commits
data		data
demo_code		demo_code
jobs		jobs
models		models
test		test
train		train
utils		utils
.gitignore		.gitignore
BertTraining.py		BertTraining.py
README.md		README.md
__init__.py		__init__.py
baseline.py		baseline.py
code-tokenizer-merges.txt		code-tokenizer-merges.txt
code-tokenizer-vocab.json		code-tokenizer-vocab.json
config.py		config.py
environments.yml		environments.yml
evaluation.py		evaluation.py
generate.py		generate.py
get_data.py		get_data.py
get_data.sh		get_data.sh
human-evaluation.py		human-evaluation.py
main.py		main.py
requirements.txt		requirements.txt
run.py		run.py
setup.py		setup.py
test_gpu.py		test_gpu.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Generative adversarial network for source code suggestions

Requirements

Dataset

Train Generator

About

Releases

Packages

Languages

mrchtr/code-gan

Folders and files

Latest commit

History

Repository files navigation

Generative adversarial network for source code suggestions

Requirements

Dataset

Train Generator

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages