SCALA: Sequence Clustering Against Leaking informAtion

A script constructing the most challenging training-test-validation dataset by hierarchically clustering a database of fasta sequencing and then separating the tree such that no previously seen similar sequence is in the test or validation set.

Usage

python3 scala.py -i <path_to_fasta_database> -o <directory_for_outputfiles>

Additional optional parameters:
-s : clustering steps (int) (default=4)
-f : additional fasta output (boolean flag)
-tr : size of training set (default=60)
-te : size of test set (default=30)\

Output:

Name		Name	Last commit message	Last commit date
Latest commit History 134 Commits
.github/workflows		.github/workflows
scala		scala
tests		tests
.gitignore		.gitignore
README.md		README.md
clustering_poc_dist.py		clustering_poc_dist.py
clustering_poc_sim.py		clustering_poc_sim.py
conftest.py		conftest.py
pytest.ini		pytest.ini
requirements.txt		requirements.txt
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SCALA: Sequence Clustering Against Leaking informAtion

Usage

About

Releases

Packages

Contributors 2

Languages

kalininalab/scala

Folders and files

Latest commit

History

Repository files navigation

SCALA: Sequence Clustering Against Leaking informAtion

Usage

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages