diff --git a/data/2024-05-01_maritz/adapters.fasta b/data/2024-05-01_maritz/adapters.fasta
new file mode 100644
index 0000000..5037b6c
--- /dev/null
+++ b/data/2024-05-01_maritz/adapters.fasta
@@ -0,0 +1,41 @@
+>0
+heifigepsna
+>1
+ACACTCTTTCCCTACACGACGCTCTTCCGATCT
+>2
+AGATCGGAAGAGCACACGTCTGAACTCCAGTCA
+>3
+GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT
+>4
+CAAGCAGAAGACGGCATACGAGAT
+>5
+GATCGGAAGAGCTCGTATGCCGTCTTCTGCTTG
+>6
+GATCGGAAGAGCACACGTCTGAACTCCAGTCAC
+>7
+CTGTCTCTTATACACATCTGACGCTGCCGACGA
+>8
+GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG
+>9
+GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC
+>10
+GATCGGAAGAGCGGTTCAGCAGGAATGCCGAG
+>11
+AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT
+>12
+CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATC
+T
+>13
+TGACTGGAGTTCAGACGTGTGCTCTTCCGATCT
+>14
+unspecified
+>15
+TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG
+>16
+CAAGCAGAAGACGGCATACGAGCTCTTCCGATCT
+>17
+AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+>18
+CTGTCTCTTATACACATCTCCGAGCCCACGAGAC
+>19
+CGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT
diff --git a/data/2024-05-01_maritz/hv_clade_counts.tsv.gz b/data/2024-05-01_maritz/hv_clade_counts.tsv.gz
new file mode 100644
index 0000000..2fd015d
Binary files /dev/null and b/data/2024-05-01_maritz/hv_clade_counts.tsv.gz differ
diff --git a/data/2024-05-01_maritz/hv_hits_blast_paired.tsv.gz b/data/2024-05-01_maritz/hv_hits_blast_paired.tsv.gz
new file mode 100644
index 0000000..6d141dd
Binary files /dev/null and b/data/2024-05-01_maritz/hv_hits_blast_paired.tsv.gz differ
diff --git a/data/2024-05-01_maritz/hv_hits_putative_filtered.tsv.gz b/data/2024-05-01_maritz/hv_hits_putative_filtered.tsv.gz
new file mode 100644
index 0000000..4263ac0
Binary files /dev/null and b/data/2024-05-01_maritz/hv_hits_putative_filtered.tsv.gz differ
diff --git a/data/2024-05-01_maritz/kraken_reports.tsv.gz b/data/2024-05-01_maritz/kraken_reports.tsv.gz
new file mode 100644
index 0000000..1a4b270
Binary files /dev/null and b/data/2024-05-01_maritz/kraken_reports.tsv.gz differ
diff --git a/data/2024-05-01_maritz/qc_adapter_stats.tsv.gz b/data/2024-05-01_maritz/qc_adapter_stats.tsv.gz
new file mode 100644
index 0000000..6ab073e
Binary files /dev/null and b/data/2024-05-01_maritz/qc_adapter_stats.tsv.gz differ
diff --git a/data/2024-05-01_maritz/qc_basic_stats.tsv.gz b/data/2024-05-01_maritz/qc_basic_stats.tsv.gz
new file mode 100644
index 0000000..b78f2dc
Binary files /dev/null and b/data/2024-05-01_maritz/qc_basic_stats.tsv.gz differ
diff --git a/data/2024-05-01_maritz/qc_quality_base_stats.tsv.gz b/data/2024-05-01_maritz/qc_quality_base_stats.tsv.gz
new file mode 100644
index 0000000..a01c702
Binary files /dev/null and b/data/2024-05-01_maritz/qc_quality_base_stats.tsv.gz differ
diff --git a/data/2024-05-01_maritz/qc_quality_sequence_stats.tsv.gz b/data/2024-05-01_maritz/qc_quality_sequence_stats.tsv.gz
new file mode 100644
index 0000000..6eb7ae6
Binary files /dev/null and b/data/2024-05-01_maritz/qc_quality_sequence_stats.tsv.gz differ
diff --git a/data/2024-05-01_maritz/sample-metadata.csv b/data/2024-05-01_maritz/sample-metadata.csv
new file mode 100644
index 0000000..b3588c2
--- /dev/null
+++ b/data/2024-05-01_maritz/sample-metadata.csv
@@ -0,0 +1,17 @@
+﻿library,sample,dataset,bioproject
+ERR2729796,NYC-01,Maritz 2019,PRJEB28033
+ERR2729797,NYC-02,Maritz 2019,PRJEB28033
+ERR2729798,NYC-03,Maritz 2019,PRJEB28033
+ERR2729799,NYC-04,Maritz 2019,PRJEB28033
+ERR2729800,NYC-05,Maritz 2019,PRJEB28033
+ERR2729801,NYC-06,Maritz 2019,PRJEB28033
+ERR2729802,NYC-07,Maritz 2019,PRJEB28033
+ERR2729803,NYC-08,Maritz 2019,PRJEB28033
+ERR2729804,NYC-09,Maritz 2019,PRJEB28033
+ERR2729805,NYC-10,Maritz 2019,PRJEB28033
+ERR2729806,NYC-11,Maritz 2019,PRJEB28033
+ERR2729807,NYC-12,Maritz 2019,PRJEB28033
+ERR2729808,NYC-13,Maritz 2019,PRJEB28033
+ERR2729809,NYC-14,Maritz 2019,PRJEB28033
+ERR2729810,NYC-15,Maritz 2019,PRJEB28033
+ERR2729811,NYC-16,Maritz 2019,PRJEB28033
\ No newline at end of file
diff --git a/data/2024-05-01_maritz/taxid-names.tsv.gz b/data/2024-05-01_maritz/taxid-names.tsv.gz
new file mode 120000
index 0000000..626546b
--- /dev/null
+++ b/data/2024-05-01_maritz/taxid-names.tsv.gz
@@ -0,0 +1 @@
+../2024-04-01_spurbeck/taxid-names.tsv.gz
\ No newline at end of file
diff --git a/data/2024-05-01_maritz/taxonomic_composition.tsv.gz b/data/2024-05-01_maritz/taxonomic_composition.tsv.gz
new file mode 100644
index 0000000..f73bb84
Binary files /dev/null and b/data/2024-05-01_maritz/taxonomic_composition.tsv.gz differ
diff --git a/data/2024-05-01_maritz/viral-taxids.tsv.gz b/data/2024-05-01_maritz/viral-taxids.tsv.gz
new file mode 120000
index 0000000..349083e
--- /dev/null
+++ b/data/2024-05-01_maritz/viral-taxids.tsv.gz
@@ -0,0 +1 @@
+../2024-03-19_brumfield/viral-taxids.tsv.gz
\ No newline at end of file
diff --git a/docs/index.html b/docs/index.html
index e315eeb..bae01c6 100644
--- a/docs/index.html
+++ b/docs/index.html
@@ -165,7 +165,7 @@
 
 <div class="quarto-listing quarto-listing-container-default" id="listing-listing">
 <div class="list quarto-listing-default">
-<div class="quarto-post image-right" data-index="0" data-listing-date-sort="1714536000000" data-listing-file-modified-sort="1714574209532" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="35" data-listing-word-count-sort="6822">
+<div class="quarto-post image-right" data-index="0" data-listing-date-sort="1714536000000" data-listing-file-modified-sort="1714577194354" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="35" data-listing-word-count-sort="6822">
 <div class="thumbnail">
 <p><a href="./notebooks/2024-05-01_ng.html" class="no-external"></a></p><a href="./notebooks/2024-05-01_ng.html" class="no-external">
 <p class="card-img-top"><img src="img/2024-05-01_ng-schematic.png"  class="thumbnail-image card-img"/></p>
@@ -209,7 +209,29 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="2" data-listing-date-sort="1714449600000" data-listing-file-modified-sort="1714507774274" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="51" data-listing-word-count-sort="10163">
+<div class="quarto-post image-right" data-index="2" data-listing-date-sort="1714536000000" data-listing-file-modified-sort="1714577172801" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="40" data-listing-word-count-sort="7835">
+<div class="thumbnail">
+<p><a href="./notebooks/2024-05-01_maritz.html" class="no-external"></a></p><a href="./notebooks/2024-05-01_maritz.html" class="no-external">
+<p class="card-img-top"><img src="notebooks/2024-05-01_maritz_files/figure-html/plot-basic-stats-1.png"  class="thumbnail-image card-img"/></p>
+</a><p><a href="./notebooks/2024-05-01_maritz.html" class="no-external"></a></p>
+</div>
+<div class="body">
+<h3 class="no-anchor listing-title">
+<a href="./notebooks/2024-05-01_maritz.html" class="no-external">Workflow analysis of Maritz et al.&nbsp;(2019)</a>
+</h3>
+<div class="listing-subtitle">
+<a href="./notebooks/2024-05-01_maritz.html" class="no-external">Wastewater from NYC.</a>
+</div>
+</div>
+<div class="metadata">
+<a href="./notebooks/2024-05-01_maritz.html" class="no-external">
+<div class="listing-date">
+May 1, 2024
+</div>
+</a>
+</div>
+</div>
+<div class="quarto-post image-right" data-index="3" data-listing-date-sort="1714449600000" data-listing-file-modified-sort="1714507774274" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="51" data-listing-word-count-sort="10163">
 <div class="thumbnail">
 <p><a href="./notebooks/2024-04-30_brinch.html" class="no-external"></a></p><a href="./notebooks/2024-04-30_brinch.html" class="no-external">
 <p class="card-img-top"><img src="img/2024-04-30_brinch.png"  class="thumbnail-image card-img"/></p>
@@ -231,7 +253,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="3" data-listing-date-sort="1713499200000" data-listing-file-modified-sort="1713538736315" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="57" data-listing-word-count-sort="11398">
+<div class="quarto-post image-right" data-index="4" data-listing-date-sort="1713499200000" data-listing-file-modified-sort="1713538736315" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="57" data-listing-word-count-sort="11398">
 <div class="thumbnail">
 <p><a href="./notebooks/2024-04-19_leung.html" class="no-external"></a></p><a href="./notebooks/2024-04-19_leung.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2024-04-19_leung_files/figure-html/plot-basic-stats-1.png"  class="thumbnail-image card-img"/></p>
@@ -253,7 +275,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="4" data-listing-date-sort="1712894400000" data-listing-file-modified-sort="1712954346618" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="46" data-listing-word-count-sort="9074">
+<div class="quarto-post image-right" data-index="5" data-listing-date-sort="1712894400000" data-listing-file-modified-sort="1712954346618" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="46" data-listing-word-count-sort="9074">
 <div class="thumbnail">
 <p><a href="./notebooks/2024-04-12_rosario.html" class="no-external"></a></p><a href="./notebooks/2024-04-12_rosario.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2024-04-12_rosario_files/figure-html/plot-basic-stats-1.png"  class="thumbnail-image card-img"/></p>
@@ -275,7 +297,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="5" data-listing-date-sort="1712894400000" data-listing-file-modified-sort="1712951171148" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="48" data-listing-word-count-sort="9559">
+<div class="quarto-post image-right" data-index="6" data-listing-date-sort="1712894400000" data-listing-file-modified-sort="1712951171148" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="48" data-listing-word-count-sort="9559">
 <div class="thumbnail">
 <p><a href="./notebooks/2024-04-12_prussin.html" class="no-external"></a></p><a href="./notebooks/2024-04-12_prussin.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2024-04-12_prussin_files/figure-html/plot-basic-stats-1.png"  class="thumbnail-image card-img"/></p>
@@ -297,7 +319,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="6" data-listing-date-sort="1712548800000" data-listing-file-modified-sort="1712670437987" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="32" data-listing-word-count-sort="6385">
+<div class="quarto-post image-right" data-index="7" data-listing-date-sort="1712548800000" data-listing-file-modified-sort="1712670437987" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="32" data-listing-word-count-sort="6385">
 <div class="thumbnail">
 <p><a href="./notebooks/2024-04-08_brumfield.html" class="no-external"></a></p><a href="./notebooks/2024-04-08_brumfield.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2024-04-08_brumfield_files/figure-html/plot-basic-stats-1.png"  class="thumbnail-image card-img"/></p>
@@ -319,7 +341,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="7" data-listing-date-sort="1711944000000" data-listing-file-modified-sort="1712010795272" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="48" data-listing-word-count-sort="9483">
+<div class="quarto-post image-right" data-index="8" data-listing-date-sort="1711944000000" data-listing-file-modified-sort="1712010795272" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="48" data-listing-word-count-sort="9483">
 <div class="thumbnail">
 <p><a href="./notebooks/2024-04-01_spurbeck.html" class="no-external"></a></p><a href="./notebooks/2024-04-01_spurbeck.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2024-04-01_spurbeck_files/figure-html/plot-basic-stats-1.png"  class="thumbnail-image card-img"/></p>
@@ -341,7 +363,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="8" data-listing-date-sort="1710820800000" data-listing-file-modified-sort="1710855113922" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="8" data-listing-word-count-sort="1427">
+<div class="quarto-post image-right" data-index="9" data-listing-date-sort="1710820800000" data-listing-file-modified-sort="1710855113922" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="8" data-listing-word-count-sort="1427">
 <div class="thumbnail">
 <p><a href="./notebooks/2024-03-19_yang-2.html" class="no-external"></a></p><a href="./notebooks/2024-03-19_yang-2.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2024-03-19_yang-2_files/figure-html/unnamed-chunk-2-1.png"  class="thumbnail-image card-img"/></p>
@@ -363,7 +385,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="9" data-listing-date-sort="1710561600000" data-listing-file-modified-sort="1710615491487" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="27" data-listing-word-count-sort="5320">
+<div class="quarto-post image-right" data-index="10" data-listing-date-sort="1710561600000" data-listing-file-modified-sort="1710615491487" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="27" data-listing-word-count-sort="5320">
 <div class="thumbnail">
 <p><a href="./notebooks/2024-03-16_yang.html" class="no-external"></a></p><a href="./notebooks/2024-03-16_yang.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2024-03-16_yang_files/figure-html/unnamed-chunk-2-1.png"  class="thumbnail-image card-img"/></p>
@@ -385,7 +407,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="10" data-listing-date-sort="1709269200000" data-listing-file-modified-sort="1709305045593" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="10" data-listing-word-count-sort="1813">
+<div class="quarto-post image-right" data-index="11" data-listing-date-sort="1709269200000" data-listing-file-modified-sort="1709305045593" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="10" data-listing-word-count-sort="1813">
 <div class="thumbnail">
 <p><a href="./notebooks/2024-03-01_dedup.html" class="no-external"></a></p><a href="./notebooks/2024-03-01_dedup.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2024-03-01_dedup_files/figure-html/unnamed-chunk-2-1.png"  class="thumbnail-image card-img"/></p>
@@ -407,7 +429,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="11" data-listing-date-sort="1709182800000" data-listing-file-modified-sort="1709227197090" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="24" data-listing-word-count-sort="4649">
+<div class="quarto-post image-right" data-index="12" data-listing-date-sort="1709182800000" data-listing-file-modified-sort="1709227197090" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="24" data-listing-word-count-sort="4649">
 <div class="thumbnail">
 <p><a href="./notebooks/2024-02-29_rothman-2.html" class="no-external"></a></p><a href="./notebooks/2024-02-29_rothman-2.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2024-02-29_rothman-2_files/figure-html/unnamed-chunk-2-1.png"  class="thumbnail-image card-img"/></p>
@@ -429,7 +451,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="12" data-listing-date-sort="1709010000000" data-listing-file-modified-sort="1709061727761" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="28" data-listing-word-count-sort="5587">
+<div class="quarto-post image-right" data-index="13" data-listing-date-sort="1709010000000" data-listing-file-modified-sort="1709061727761" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="28" data-listing-word-count-sort="5587">
 <div class="thumbnail">
 <p><a href="./notebooks/2024-02-27_rothman-1.html" class="no-external"></a></p><a href="./notebooks/2024-02-27_rothman-1.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2024-02-27_rothman-1_files/figure-html/unnamed-chunk-2-1.png"  class="thumbnail-image card-img"/></p>
@@ -451,7 +473,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="13" data-listing-date-sort="1707973200000" data-listing-file-modified-sort="1709059724859" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="26" data-listing-word-count-sort="5168">
+<div class="quarto-post image-right" data-index="14" data-listing-date-sort="1707973200000" data-listing-file-modified-sort="1709059724859" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="26" data-listing-word-count-sort="5168">
 <div class="thumbnail">
 <p><a href="./notebooks/2024-02-15_crits-christoph-3.html" class="no-external"></a></p><a href="./notebooks/2024-02-15_crits-christoph-3.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2024-02-15_crits-christoph-3_files/figure-html/unnamed-chunk-2-1.png"  class="thumbnail-image card-img"/></p>
@@ -473,7 +495,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="14" data-listing-date-sort="1707368400000" data-listing-file-modified-sort="1707418839515" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="12" data-listing-word-count-sort="2347">
+<div class="quarto-post image-right" data-index="15" data-listing-date-sort="1707368400000" data-listing-file-modified-sort="1707418839515" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="12" data-listing-word-count-sort="2347">
 <div class="thumbnail">
 <p><a href="./notebooks/2024-02-08_crits-christoph-2.html" class="no-external"></a></p><a href="./notebooks/2024-02-08_crits-christoph-2.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2024-02-08_crits-christoph-2_files/figure-html/unnamed-chunk-3-1.png"  class="thumbnail-image card-img"/></p>
@@ -495,7 +517,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="15" data-listing-date-sort="1707022800000" data-listing-file-modified-sort="1707060932221" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="11" data-listing-word-count-sort="2167">
+<div class="quarto-post image-right" data-index="16" data-listing-date-sort="1707022800000" data-listing-file-modified-sort="1707060932221" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="11" data-listing-word-count-sort="2167">
 <div class="thumbnail">
 <p><a href="./notebooks/2024-02-04_crits-christoph-1.html" class="no-external"></a></p><a href="./notebooks/2024-02-04_crits-christoph-1.html" class="no-external">
 <p class="card-img-top"><img src="img/2024-01-23_nextflow.png"  class="thumbnail-image card-img"/></p>
@@ -517,7 +539,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="16" data-listing-date-sort="1706590800000" data-listing-file-modified-sort="1706626948426" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="12" data-listing-word-count-sort="2264">
+<div class="quarto-post image-right" data-index="17" data-listing-date-sort="1706590800000" data-listing-file-modified-sort="1706626948426" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="12" data-listing-word-count-sort="2264">
 <div class="thumbnail">
 <p><a href="./notebooks/2024-01-30_blast-validation.html" class="no-external"></a></p><a href="./notebooks/2024-01-30_blast-validation.html" class="no-external">
 <div class="listing-item-img-placeholder card-img-top" >&nbsp;</div>
@@ -539,7 +561,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="17" data-listing-date-sort="1703221200000" data-listing-file-modified-sort="1706626471698" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="11" data-listing-word-count-sort="2058">
+<div class="quarto-post image-right" data-index="18" data-listing-date-sort="1703221200000" data-listing-file-modified-sort="1706626471698" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="11" data-listing-word-count-sort="2058">
 <div class="thumbnail">
 <p><a href="./notebooks/2023-12-22_bmc-rna-sequel.html" class="no-external"></a></p><a href="./notebooks/2023-12-22_bmc-rna-sequel.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2023-12-22_bmc-rna-sequel_files/figure-html/unnamed-chunk-2-1.png"  class="thumbnail-image card-img"/></p>
@@ -561,7 +583,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="18" data-listing-date-sort="1702962000000" data-listing-file-modified-sort="1703082760549" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="27" data-listing-word-count-sort="5304">
+<div class="quarto-post image-right" data-index="19" data-listing-date-sort="1702962000000" data-listing-file-modified-sort="1703082760549" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="27" data-listing-word-count-sort="5304">
 <div class="thumbnail">
 <p><a href="./notebooks/2023-12-19_project-runway-bmc-rna.html" class="no-external"></a></p><a href="./notebooks/2023-12-19_project-runway-bmc-rna.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2023-12-19_project-runway-bmc-rna_files/figure-html/unnamed-chunk-2-1.png"  class="thumbnail-image card-img"/></p>
@@ -583,7 +605,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="19" data-listing-date-sort="1699419600000" data-listing-file-modified-sort="1699450659122" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="13" data-listing-word-count-sort="2479">
+<div class="quarto-post image-right" data-index="20" data-listing-date-sort="1699419600000" data-listing-file-modified-sort="1699450659122" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="13" data-listing-word-count-sort="2479">
 <div class="thumbnail">
 <p><a href="./notebooks/2023-11-02_project-runway-dna-deduplication.html" class="no-external"></a></p><a href="./notebooks/2023-11-02_project-runway-dna-deduplication.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2023-11-02_project-runway-dna-deduplication_files/figure-html/unnamed-chunk-2-1.png"  class="thumbnail-image card-img"/></p>
@@ -605,7 +627,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="20" data-listing-date-sort="1698897600000" data-listing-file-modified-sort="1698943032000" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="14" data-listing-word-count-sort="2641">
+<div class="quarto-post image-right" data-index="21" data-listing-date-sort="1698897600000" data-listing-file-modified-sort="1698943032000" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="14" data-listing-word-count-sort="2641">
 <div class="thumbnail">
 <p><a href="./notebooks/2023-11-02_project-runway-comparison.html" class="no-external"></a></p><a href="./notebooks/2023-11-02_project-runway-comparison.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2023-11-02_project-runway-comparison_files/figure-html/unnamed-chunk-2-1.png"  class="thumbnail-image card-img"/></p>
@@ -627,7 +649,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="21" data-listing-date-sort="1698724800000" data-listing-file-modified-sort="1698941598593" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="17" data-listing-word-count-sort="3340">
+<div class="quarto-post image-right" data-index="22" data-listing-date-sort="1698724800000" data-listing-file-modified-sort="1698941598593" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="17" data-listing-word-count-sort="3340">
 <div class="thumbnail">
 <p><a href="./notebooks/2023-10-31_project-runway-initial.html" class="no-external"></a></p><a href="./notebooks/2023-10-31_project-runway-initial.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2023-10-31_project-runway-initial_files/figure-html/unnamed-chunk-3-1.png"  class="thumbnail-image card-img"/></p>
@@ -649,7 +671,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="22" data-listing-date-sort="1697688000000" data-listing-file-modified-sort="1697766328595" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="11" data-listing-word-count-sort="2178">
+<div class="quarto-post image-right" data-index="23" data-listing-date-sort="1697688000000" data-listing-file-modified-sort="1697766328595" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="11" data-listing-word-count-sort="2178">
 <div class="thumbnail">
 <p><a href="./notebooks/2023-10-19_deduplication.html" class="no-external"></a></p><a href="./notebooks/2023-10-19_deduplication.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2023-10-19_deduplication_files/figure-html/unnamed-chunk-2-1.png"  class="thumbnail-image card-img"/></p>
@@ -671,7 +693,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="23" data-listing-date-sort="1697428800000" data-listing-file-modified-sort="1697493211896" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="15" data-listing-word-count-sort="2863">
+<div class="quarto-post image-right" data-index="24" data-listing-date-sort="1697428800000" data-listing-file-modified-sort="1697493211896" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="15" data-listing-word-count-sort="2863">
 <div class="thumbnail">
 <p><a href="./notebooks/2023-10-13_rrna-removal.html" class="no-external"></a></p><a href="./notebooks/2023-10-13_rrna-removal.html" class="no-external">
 <p class="card-img-top"><img src="notebooks/2023-10-13_rrna-removal_files/figure-html/rrna-overlap-venn-johnson-1.png"  class="thumbnail-image card-img"/></p>
@@ -693,10 +715,10 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="24" data-listing-date-sort="1697083200000" data-listing-file-modified-sort="1697319460554" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="12" data-listing-word-count-sort="2250">
+<div class="quarto-post image-right" data-index="25" data-listing-date-sort="1697083200000" data-listing-file-modified-sort="1697319460554" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="12" data-listing-word-count-sort="2250">
 <div class="thumbnail">
 <p><a href="./notebooks/2023-10-12_fastp-vs-adapterremoval.html" class="no-external"></a></p><a href="./notebooks/2023-10-12_fastp-vs-adapterremoval.html" class="no-external">
-<p class="card-img-top"><img src="notebooks/2023-10-12_fastp-vs-adapterremoval_files/figure-html/unnamed-chunk-2-1.png"  class="thumbnail-image card-img"/></p>
+<p class="card-img-top"><img data-src="notebooks/2023-10-12_fastp-vs-adapterremoval_files/figure-html/unnamed-chunk-2-1.png"  class="thumbnail-image card-img"/></p>
 </a><p><a href="./notebooks/2023-10-12_fastp-vs-adapterremoval.html" class="no-external"></a></p>
 </div>
 <div class="body">
@@ -715,7 +737,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="25" data-listing-date-sort="1696996800000" data-listing-file-modified-sort="1697148020355" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="10" data-listing-word-count-sort="1888">
+<div class="quarto-post image-right" data-index="26" data-listing-date-sort="1696996800000" data-listing-file-modified-sort="1697148020355" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="10" data-listing-word-count-sort="1888">
 <div class="thumbnail">
 <p><a href="./notebooks/2023-10-12_how-does-element-sequencing-work.html" class="no-external"></a></p><a href="./notebooks/2023-10-12_how-does-element-sequencing-work.html" class="no-external">
 <p class="card-img-top"><img data-src="img/2023-10-11_rolling-circle-amplification.png"  class="thumbnail-image card-img"/></p>
@@ -737,7 +759,7 @@ <h3 class="no-anchor listing-title">
 </a>
 </div>
 </div>
-<div class="quarto-post image-right" data-index="26" data-listing-date-sort="1695268800000" data-listing-file-modified-sort="1695331351195" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="11" data-listing-word-count-sort="2167">
+<div class="quarto-post image-right" data-index="27" data-listing-date-sort="1695268800000" data-listing-file-modified-sort="1695331351195" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="11" data-listing-word-count-sort="2167">
 <div class="thumbnail">
 <p><a href="./notebooks/2023-09-12_settled-solids-extraction-test.html" class="no-external"></a></p><a href="./notebooks/2023-09-12_settled-solids-extraction-test.html" class="no-external">
 <p class="card-img-top"><img data-src="notebooks/2023-09-12_settled-solids-extraction-test_files/figure-html/plot-concentrations-1.png"  class="thumbnail-image card-img"/></p>
diff --git a/docs/listings.json b/docs/listings.json
index b0f90b2..df42b8d 100644
--- a/docs/listings.json
+++ b/docs/listings.json
@@ -4,6 +4,7 @@
     "items": [
       "/notebooks/2024-05-01_ng.html",
       "/notebooks/2024-05-01_bengtsson-palme.html",
+      "/notebooks/2024-05-01_maritz.html",
       "/notebooks/2024-04-30_brinch.html",
       "/notebooks/2024-04-19_leung.html",
       "/notebooks/2024-04-12_rosario.html",
diff --git a/docs/notebooks/2024-05-01_maritz.html b/docs/notebooks/2024-05-01_maritz.html
new file mode 100644
index 0000000..2759c97
--- /dev/null
+++ b/docs/notebooks/2024-05-01_maritz.html
@@ -0,0 +1,3057 @@
+<!DOCTYPE html>
+<html xmlns="http://www.w3.org/1999/xhtml" lang="en" xml:lang="en"><head>
+<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
+<meta charset="utf-8">
+<meta name="generator" content="quarto-1.4.552">
+<meta name="viewport" content="width=device-width, initial-scale=1.0, user-scalable=yes">
+<meta name="author" content="Will Bradshaw">
+<meta name="dcterms.date" content="2024-05-01">
+<title>Will’s Public NAO Notebook - Workflow analysis of Maritz et al.&nbsp;(2019)</title>
+<style>
+code{white-space: pre-wrap;}
+span.smallcaps{font-variant: small-caps;}
+div.columns{display: flex; gap: min(4vw, 1.5em);}
+div.column{flex: auto; overflow-x: auto;}
+div.hanging-indent{margin-left: 1.5em; text-indent: -1.5em;}
+ul.task-list{list-style: none;}
+ul.task-list li input[type="checkbox"] {
+  width: 0.8em;
+  margin: 0 0.8em 0.2em -1em; /* quarto-specific, see https://github.com/quarto-dev/quarto-cli/issues/4556 */ 
+  vertical-align: middle;
+}
+/* CSS for syntax highlighting */
+pre > code.sourceCode { white-space: pre; position: relative; }
+pre > code.sourceCode > span { line-height: 1.25; }
+pre > code.sourceCode > span:empty { height: 1.2em; }
+.sourceCode { overflow: visible; }
+code.sourceCode > span { color: inherit; text-decoration: inherit; }
+div.sourceCode { margin: 1em 0; }
+pre.sourceCode { margin: 0; }
+@media screen {
+div.sourceCode { overflow: auto; }
+}
+@media print {
+pre > code.sourceCode { white-space: pre-wrap; }
+pre > code.sourceCode > span { text-indent: -5em; padding-left: 5em; }
+}
+pre.numberSource code
+  { counter-reset: source-line 0; }
+pre.numberSource code > span
+  { position: relative; left: -4em; counter-increment: source-line; }
+pre.numberSource code > span > a:first-child::before
+  { content: counter(source-line);
+    position: relative; left: -1em; text-align: right; vertical-align: baseline;
+    border: none; display: inline-block;
+    -webkit-touch-callout: none; -webkit-user-select: none;
+    -khtml-user-select: none; -moz-user-select: none;
+    -ms-user-select: none; user-select: none;
+    padding: 0 4px; width: 4em;
+  }
+pre.numberSource { margin-left: 3em;  padding-left: 4px; }
+div.sourceCode
+  {   }
+@media screen {
+pre > code.sourceCode > span > a:first-child::before { text-decoration: underline; }
+}
+</style>
+
+<script src="../site_libs/quarto-nav/quarto-nav.js"></script>
+<script src="../site_libs/quarto-nav/headroom.min.js"></script>
+<script src="../site_libs/clipboard/clipboard.min.js"></script>
+<script src="../site_libs/quarto-search/autocomplete.umd.js"></script>
+<script src="../site_libs/quarto-search/fuse.min.js"></script>
+<script src="../site_libs/quarto-search/quarto-search.js"></script>
+<meta name="quarto:offset" content="../">
+<script src="../site_libs/quarto-html/quarto.js"></script>
+<script src="../site_libs/quarto-html/popper.min.js"></script>
+<script src="../site_libs/quarto-html/tippy.umd.min.js"></script>
+<script src="../site_libs/quarto-html/anchor.min.js"></script>
+<link href="../site_libs/quarto-html/tippy.css" rel="stylesheet">
+<link href="../site_libs/quarto-html/quarto-syntax-highlighting.css" rel="stylesheet" id="quarto-text-highlighting-styles">
+<script src="../site_libs/bootstrap/bootstrap.min.js"></script>
+<link href="../site_libs/bootstrap/bootstrap-icons.css" rel="stylesheet">
+<link href="../site_libs/bootstrap/bootstrap.min.css" rel="stylesheet" id="quarto-bootstrap" data-mode="light"><script id="quarto-search-options" type="application/json">{
+  "location": "navbar",
+  "copy-button": false,
+  "collapse-after": 3,
+  "panel-placement": "end",
+  "type": "overlay",
+  "limit": 50,
+  "keyboard-shortcut": [
+    "f",
+    "/",
+    "s"
+  ],
+  "show-item-context": false,
+  "language": {
+    "search-no-results-text": "No results",
+    "search-matching-documents-text": "matching documents",
+    "search-copy-link-title": "Copy link to search",
+    "search-hide-matches-text": "Hide additional matches",
+    "search-more-match-text": "more match in this document",
+    "search-more-matches-text": "more matches in this document",
+    "search-clear-button-title": "Clear",
+    "search-text-placeholder": "",
+    "search-detached-cancel-button-title": "Cancel",
+    "search-submit-button-title": "Submit",
+    "search-label": "Search"
+  }
+}</script><style>
+
+      .quarto-title-block .quarto-title-banner {
+        background: black;
+      }
+</style>
+<link href="../site_libs/pagedtable-1.1/css/pagedtable.css" rel="stylesheet">
+<script src="../site_libs/pagedtable-1.1/js/pagedtable.js"></script><script src="https://polyfill.io/v3/polyfill.min.js?features=es6"></script><script src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-chtml-full.js" type="text/javascript"></script><script type="text/javascript">
+const typesetMath = (el) => {
+  if (window.MathJax) {
+    // MathJax Typeset
+    window.MathJax.typeset([el]);
+  } else if (window.katex) {
+    // KaTeX Render
+    var mathElements = el.getElementsByClassName("math");
+    var macros = [];
+    for (var i = 0; i < mathElements.length; i++) {
+      var texText = mathElements[i].firstChild;
+      if (mathElements[i].tagName == "SPAN") {
+        window.katex.render(texText.data, mathElements[i], {
+          displayMode: mathElements[i].classList.contains('display'),
+          throwOnError: false,
+          macros: macros,
+          fleqn: false
+        });
+      }
+    }
+  }
+}
+window.Quarto = {
+  typesetMath
+};
+</script>
+</head>
+<body class="nav-fixed fullcontent">
+
+<div id="quarto-search-results"></div>
+  <header id="quarto-header" class="headroom fixed-top quarto-banner"><nav class="navbar navbar-expand-lg " data-bs-theme="dark"><div class="navbar-container container-fluid">
+      <div class="navbar-brand-container mx-auto">
+    <a class="navbar-brand" href="../index.html">
+    <span class="navbar-title">Will’s Public NAO Notebook</span>
+    </a>
+  </div>
+        <div class="quarto-navbar-tools tools-end">
+</div>
+          <div id="quarto-search" class="" title="Search"></div>
+      </div> <!-- /container-fluid -->
+    </nav></header><!-- content --><header id="title-block-header" class="quarto-title-block default page-columns page-full"><div class="quarto-title-banner page-columns page-full">
+    <div class="quarto-title column-body">
+      <div class="quarto-title-block"><div><h1 class="title">Workflow analysis of Maritz et al.&nbsp;(2019)</h1><button type="button" class="btn code-tools-button dropdown-toggle" id="quarto-code-tools-menu" data-bs-toggle="dropdown" aria-expanded="false"><i class="bi"></i> Code</button><ul class="dropdown-menu dropdown-menu-end" aria-labelelledby="quarto-code-tools-menu"><li><a id="quarto-show-all-code" class="dropdown-item" href="javascript:void(0)" role="button">Show All Code</a></li><li><a id="quarto-hide-all-code" class="dropdown-item" href="javascript:void(0)" role="button">Hide All Code</a></li><li><hr class="dropdown-divider"></li><li><a id="quarto-view-source" class="dropdown-item" href="javascript:void(0)" role="button">View Source</a></li></ul></div></div>
+            <p class="subtitle lead">Wastewater from NYC.</p>
+                      </div>
+  </div>
+    
+  
+  <div class="quarto-title-meta">
+
+      <div>
+      <div class="quarto-title-meta-heading">Author</div>
+      <div class="quarto-title-meta-contents">
+               <p>Will Bradshaw </p>
+            </div>
+    </div>
+      
+      <div>
+      <div class="quarto-title-meta-heading">Published</div>
+      <div class="quarto-title-meta-contents">
+        <p class="date">May 1, 2024</p>
+      </div>
+    </div>
+    
+      
+    </div>
+    
+  
+  </header><div id="quarto-content" class="quarto-container page-columns page-rows-contents page-layout-article page-navbar">
+<!-- sidebar -->
+<!-- margin-sidebar -->
+    
+<!-- main -->
+<main class="content quarto-banner-title-block" id="quarto-document-content"><p>Continuing my analysis of datasets from the <a href="https://doi.org/10.1101/2023.12.22.23300450">P2RA preprint</a>, I analyzed the data from <a href="https://doi.org/10.1038/s41396-019-0467-z">Maritz et al.&nbsp;(2019)</a>, a study that used DNA sequencing of wastewater samples to characterize protist diversity and temporal diversity in New York City. Samples for this study underwent direct DNA extraction without a dedicated concentration step, then underwent library prep and Illumina sequencing on a HiSeq Rapid Run (2x250bp).</p>
+<section id="the-raw-data" class="level1"><h1>The raw data</h1>
+<p>16 samples were collected from 14 treatment plants in NYC in November 2014. These samples yielded 8.6M-18.3M (mean 10.8M) reads per sample, for a total of 172M read pairs (84 gigabases of sequence). Read qualities were mostly high; adapter levels were moderate; inferred duplication levels were low.</p>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb1"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Importing the data is a bit more complicated this time as the samples are split across three pipeline runs</span></span>
+<span><span class="va">data_dir</span> <span class="op">&lt;-</span> <span class="st">"../data/2024-05-01_maritz"</span></span>
+<span></span>
+<span><span class="co"># Data input paths</span></span>
+<span><span class="va">libraries_path</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/file.path.html">file.path</a></span><span class="op">(</span><span class="va">data_dir</span>, <span class="st">"sample-metadata.csv"</span><span class="op">)</span></span>
+<span><span class="va">basic_stats_path</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/file.path.html">file.path</a></span><span class="op">(</span><span class="va">data_dir</span>, <span class="st">"qc_basic_stats.tsv.gz"</span><span class="op">)</span></span>
+<span><span class="va">adapter_stats_path</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/file.path.html">file.path</a></span><span class="op">(</span><span class="va">data_dir</span>, <span class="st">"qc_adapter_stats.tsv.gz"</span><span class="op">)</span></span>
+<span><span class="va">quality_base_stats_path</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/file.path.html">file.path</a></span><span class="op">(</span><span class="va">data_dir</span>, <span class="st">"qc_quality_base_stats.tsv.gz"</span><span class="op">)</span></span>
+<span><span class="va">quality_seq_stats_path</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/file.path.html">file.path</a></span><span class="op">(</span><span class="va">data_dir</span>, <span class="st">"qc_quality_sequence_stats.tsv.gz"</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Import libraries and extract metadata from sample names</span></span>
+<span><span class="va">libraries_raw</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/lapply.html">lapply</a></span><span class="op">(</span><span class="va">libraries_path</span>, <span class="va">read_csv</span>, show_col_types <span class="op">=</span> <span class="cn">FALSE</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="va">bind_rows</span></span>
+<span><span class="va">libraries</span> <span class="op">&lt;-</span> <span class="va">libraries_raw</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>sample <span class="op">=</span> <span class="fu">fct_inorder</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span><span class="op">)</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details>
+</div>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb2"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Import QC data</span></span>
+<span><span class="va">stages</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="st">"raw_concat"</span>, <span class="st">"cleaned"</span>, <span class="st">"dedup"</span>, <span class="st">"ribo_initial"</span>, <span class="st">"ribo_secondary"</span><span class="op">)</span></span>
+<span><span class="va">import_basic</span> <span class="op">&lt;-</span> <span class="kw">function</span><span class="op">(</span><span class="va">paths</span><span class="op">)</span><span class="op">{</span></span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/base/lapply.html">lapply</a></span><span class="op">(</span><span class="va">paths</span>, <span class="va">read_tsv</span>, show_col_types <span class="op">=</span> <span class="cn">FALSE</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="va">bind_rows</span> <span class="op">%&gt;%</span></span>
+<span>    <span class="fu">inner_join</span><span class="op">(</span><span class="va">libraries</span>, by<span class="op">=</span><span class="st">"sample"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>    <span class="fu">arrange</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>    <span class="fu">mutate</span><span class="op">(</span>stage <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/factor.html">factor</a></span><span class="op">(</span><span class="va">stage</span>, levels <span class="op">=</span> <span class="va">stages</span><span class="op">)</span>,</span>
+<span>           sample <span class="op">=</span> <span class="fu">fct_inorder</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="op">}</span></span>
+<span><span class="va">import_basic_paired</span> <span class="op">&lt;-</span> <span class="kw">function</span><span class="op">(</span><span class="va">paths</span><span class="op">)</span><span class="op">{</span></span>
+<span>  <span class="fu">import_basic</span><span class="op">(</span><span class="va">paths</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="fu">arrange</span><span class="op">(</span><span class="va">read_pair</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>    <span class="fu">mutate</span><span class="op">(</span>read_pair <span class="op">=</span> <span class="fu">fct_inorder</span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/character.html">as.character</a></span><span class="op">(</span><span class="va">read_pair</span><span class="op">)</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="op">}</span></span>
+<span><span class="va">basic_stats</span> <span class="op">&lt;-</span> <span class="fu">import_basic</span><span class="op">(</span><span class="va">basic_stats_path</span><span class="op">)</span></span>
+<span><span class="va">adapter_stats</span> <span class="op">&lt;-</span> <span class="fu">import_basic_paired</span><span class="op">(</span><span class="va">adapter_stats_path</span><span class="op">)</span></span>
+<span><span class="va">quality_base_stats</span> <span class="op">&lt;-</span> <span class="fu">import_basic_paired</span><span class="op">(</span><span class="va">quality_base_stats_path</span><span class="op">)</span></span>
+<span><span class="va">quality_seq_stats</span> <span class="op">&lt;-</span> <span class="fu">import_basic_paired</span><span class="op">(</span><span class="va">quality_seq_stats_path</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Filter to raw data</span></span>
+<span><span class="va">basic_stats_raw</span> <span class="op">&lt;-</span> <span class="va">basic_stats</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">stage</span> <span class="op">==</span> <span class="st">"raw_concat"</span><span class="op">)</span></span>
+<span><span class="va">adapter_stats_raw</span> <span class="op">&lt;-</span> <span class="va">adapter_stats</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">stage</span> <span class="op">==</span> <span class="st">"raw_concat"</span><span class="op">)</span></span>
+<span><span class="va">quality_base_stats_raw</span> <span class="op">&lt;-</span> <span class="va">quality_base_stats</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">stage</span> <span class="op">==</span> <span class="st">"raw_concat"</span><span class="op">)</span></span>
+<span><span class="va">quality_seq_stats_raw</span> <span class="op">&lt;-</span> <span class="va">quality_seq_stats</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">stage</span> <span class="op">==</span> <span class="st">"raw_concat"</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Get key values for readout</span></span>
+<span><span class="va">raw_read_counts</span> <span class="op">&lt;-</span> <span class="va">basic_stats_raw</span> <span class="op">%&gt;%</span> <span class="va">ungroup</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>rmin <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">min</a></span><span class="op">(</span><span class="va">n_read_pairs</span><span class="op">)</span>, rmax<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">max</a></span><span class="op">(</span><span class="va">n_read_pairs</span><span class="op">)</span>,</span>
+<span>            rmean<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/mean.html">mean</a></span><span class="op">(</span><span class="va">n_read_pairs</span><span class="op">)</span>, </span>
+<span>            rtot <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_read_pairs</span><span class="op">)</span>,</span>
+<span>            btot <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_bases_approx</span><span class="op">)</span>,</span>
+<span>            dmin <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">min</a></span><span class="op">(</span><span class="va">percent_duplicates</span><span class="op">)</span>, dmax<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">max</a></span><span class="op">(</span><span class="va">percent_duplicates</span><span class="op">)</span>,</span>
+<span>            dmean<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/mean.html">mean</a></span><span class="op">(</span><span class="va">percent_duplicates</span><span class="op">)</span>, .groups <span class="op">=</span> <span class="st">"drop"</span><span class="op">)</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details>
+</div>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb3"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Prepare data</span></span>
+<span><span class="va">basic_stats_raw_metrics</span> <span class="op">&lt;-</span> <span class="va">basic_stats_raw</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">select</span><span class="op">(</span><span class="va">sample</span>,</span>
+<span>         `# Read pairs` <span class="op">=</span> <span class="va">n_read_pairs</span>,</span>
+<span>         `Total base pairs\n(approx)` <span class="op">=</span> <span class="va">n_bases_approx</span>,</span>
+<span>         `% Duplicates\n(FASTQC)` <span class="op">=</span> <span class="va">percent_duplicates</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">pivot_longer</span><span class="op">(</span><span class="op">-</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span>, names_to <span class="op">=</span> <span class="st">"metric"</span>, values_to <span class="op">=</span> <span class="st">"value"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>metric <span class="op">=</span> <span class="fu">fct_inorder</span><span class="op">(</span><span class="va">metric</span><span class="op">)</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Set up plot templates</span></span>
+<span><span class="va">g_basic</span> <span class="op">&lt;-</span> <span class="fu">ggplot</span><span class="op">(</span><span class="va">basic_stats_raw_metrics</span>, <span class="fu">aes</span><span class="op">(</span>x<span class="op">=</span><span class="va">sample</span>, y<span class="op">=</span><span class="va">value</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_col</span><span class="op">(</span>position <span class="op">=</span> <span class="st">"dodge"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span>expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">expand_limits</span><span class="op">(</span>y<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">100</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">facet_grid</span><span class="op">(</span><span class="va">metric</span><span class="op">~</span><span class="va">.</span>, scales <span class="op">=</span> <span class="st">"free"</span>, space<span class="op">=</span><span class="st">"free_x"</span>, switch<span class="op">=</span><span class="st">"y"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="va">theme_kit</span> <span class="op">+</span> <span class="fu">theme</span><span class="op">(</span></span>
+<span>    axis.title.y <span class="op">=</span> <span class="fu">element_blank</span><span class="op">(</span><span class="op">)</span>,</span>
+<span>    strip.text.y <span class="op">=</span> <span class="fu">element_text</span><span class="op">(</span>face<span class="op">=</span><span class="st">"plain"</span><span class="op">)</span></span>
+<span>  <span class="op">)</span></span>
+<span><span class="va">g_basic</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/plot-basic-stats-1.png" class="img-fluid figure-img" width="864"></p>
+</figure>
+</div>
+</div>
+</div>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb4"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Set up plotting templates</span></span>
+<span><span class="va">g_qual_raw</span> <span class="op">&lt;-</span> <span class="fu">ggplot</span><span class="op">(</span>mapping<span class="op">=</span><span class="fu">aes</span><span class="op">(</span>linetype<span class="op">=</span><span class="va">read_pair</span>, </span>
+<span>                         group<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/interaction.html">interaction</a></span><span class="op">(</span><span class="va">sample</span>,<span class="va">read_pair</span><span class="op">)</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span> </span>
+<span>  <span class="fu">scale_linetype_discrete</span><span class="op">(</span>name <span class="op">=</span> <span class="st">"Read Pair"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">guides</span><span class="op">(</span>color<span class="op">=</span><span class="fu">guide_legend</span><span class="op">(</span>nrow<span class="op">=</span><span class="fl">2</span>,byrow<span class="op">=</span><span class="cn">TRUE</span><span class="op">)</span>,</span>
+<span>         linetype <span class="op">=</span> <span class="fu">guide_legend</span><span class="op">(</span>nrow<span class="op">=</span><span class="fl">2</span>,byrow<span class="op">=</span><span class="cn">TRUE</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="va">theme_base</span></span>
+<span></span>
+<span><span class="co"># Visualize adapters</span></span>
+<span><span class="va">g_adapters_raw</span> <span class="op">&lt;-</span> <span class="va">g_qual_raw</span> <span class="op">+</span> </span>
+<span>  <span class="fu">geom_line</span><span class="op">(</span><span class="fu">aes</span><span class="op">(</span>x<span class="op">=</span><span class="va">position</span>, y<span class="op">=</span><span class="va">pc_adapters</span><span class="op">)</span>, data<span class="op">=</span><span class="va">adapter_stats_raw</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"% Adapters"</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="cn">NA</span><span class="op">)</span>,</span>
+<span>                     breaks <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/seq.html">seq</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">100</span>,<span class="fl">1</span><span class="op">)</span>, expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_x_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"Position"</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="cn">NA</span><span class="op">)</span>,</span>
+<span>                     breaks<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/seq.html">seq</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">500</span>,<span class="fl">20</span><span class="op">)</span>, expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">facet_grid</span><span class="op">(</span><span class="va">.</span><span class="op">~</span><span class="va">adapter</span><span class="op">)</span></span>
+<span><span class="va">g_adapters_raw</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/plot-raw-quality-1.png" class="img-fluid figure-img" width="672"></p>
+</figure>
+</div>
+</div>
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb5"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Visualize quality</span></span>
+<span><span class="va">g_quality_base_raw</span> <span class="op">&lt;-</span> <span class="va">g_qual_raw</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_hline</span><span class="op">(</span>yintercept<span class="op">=</span><span class="fl">25</span>, linetype<span class="op">=</span><span class="st">"dashed"</span>, color<span class="op">=</span><span class="st">"red"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_hline</span><span class="op">(</span>yintercept<span class="op">=</span><span class="fl">30</span>, linetype<span class="op">=</span><span class="st">"dashed"</span>, color<span class="op">=</span><span class="st">"red"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_line</span><span class="op">(</span><span class="fu">aes</span><span class="op">(</span>x<span class="op">=</span><span class="va">position</span>, y<span class="op">=</span><span class="va">mean_phred_score</span><span class="op">)</span>, data<span class="op">=</span><span class="va">quality_base_stats_raw</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"Mean Phred score"</span>, expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">10</span>,<span class="fl">45</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_x_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"Position"</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="cn">NA</span><span class="op">)</span>,</span>
+<span>                     breaks<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/seq.html">seq</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">500</span>,<span class="fl">20</span><span class="op">)</span>, expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">g_quality_base_raw</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/plot-raw-quality-2.png" class="img-fluid figure-img" width="672"></p>
+</figure>
+</div>
+</div>
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb6"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="va">g_quality_seq_raw</span> <span class="op">&lt;-</span> <span class="va">g_qual_raw</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_vline</span><span class="op">(</span>xintercept<span class="op">=</span><span class="fl">25</span>, linetype<span class="op">=</span><span class="st">"dashed"</span>, color<span class="op">=</span><span class="st">"red"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_vline</span><span class="op">(</span>xintercept<span class="op">=</span><span class="fl">30</span>, linetype<span class="op">=</span><span class="st">"dashed"</span>, color<span class="op">=</span><span class="st">"red"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_line</span><span class="op">(</span><span class="fu">aes</span><span class="op">(</span>x<span class="op">=</span><span class="va">mean_phred_score</span>, y<span class="op">=</span><span class="va">n_sequences</span><span class="op">)</span>, data<span class="op">=</span><span class="va">quality_seq_stats_raw</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_x_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"Mean Phred score"</span>, expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"# Sequences"</span>, expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">g_quality_seq_raw</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/plot-raw-quality-3.png" class="img-fluid figure-img" width="672"></p>
+</figure>
+</div>
+</div>
+</div>
+</section><section id="preprocessing" class="level1"><h1>Preprocessing</h1>
+<p>About 6% of reads on average were lost during cleaning, and a further 2% during deduplication. Very few reads were lost during ribodepletion, as expected for DNA sequencing libraries.</p>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb7"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="va">n_reads_rel</span> <span class="op">&lt;-</span> <span class="va">basic_stats</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">select</span><span class="op">(</span><span class="va">sample</span>, <span class="va">stage</span>, </span>
+<span>         <span class="va">percent_duplicates</span>, <span class="va">n_read_pairs</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="fu">arrange</span><span class="op">(</span><span class="va">sample</span>, <span class="va">stage</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>p_reads_retained <span class="op">=</span> <span class="fu">replace_na</span><span class="op">(</span><span class="va">n_read_pairs</span> <span class="op">/</span> <span class="fu"><a href="https://rdrr.io/r/stats/lag.html">lag</a></span><span class="op">(</span><span class="va">n_read_pairs</span><span class="op">)</span>, <span class="fl">0</span><span class="op">)</span>,</span>
+<span>         p_reads_lost <span class="op">=</span> <span class="fl">1</span> <span class="op">-</span> <span class="va">p_reads_retained</span>,</span>
+<span>         p_reads_retained_abs <span class="op">=</span> <span class="va">n_read_pairs</span> <span class="op">/</span> <span class="va">n_read_pairs</span><span class="op">[</span><span class="fl">1</span><span class="op">]</span>,</span>
+<span>         p_reads_lost_abs <span class="op">=</span> <span class="fl">1</span><span class="op">-</span><span class="va">p_reads_retained_abs</span>,</span>
+<span>         p_reads_lost_abs_marginal <span class="op">=</span> <span class="fu">replace_na</span><span class="op">(</span><span class="va">p_reads_lost_abs</span> <span class="op">-</span> <span class="fu"><a href="https://rdrr.io/r/stats/lag.html">lag</a></span><span class="op">(</span><span class="va">p_reads_lost_abs</span><span class="op">)</span>, <span class="fl">0</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">n_reads_rel_display</span> <span class="op">&lt;-</span> <span class="va">n_reads_rel</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">group_by</span><span class="op">(</span>Stage<span class="op">=</span><span class="va">stage</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>`% Total Reads Lost (Cumulative)` <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/paste.html">paste0</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/Round.html">round</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">min</a></span><span class="op">(</span><span class="va">p_reads_lost_abs</span><span class="op">*</span><span class="fl">100</span><span class="op">)</span>,<span class="fl">1</span><span class="op">)</span>, <span class="st">"-"</span>, <span class="fu"><a href="https://rdrr.io/r/base/Round.html">round</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">max</a></span><span class="op">(</span><span class="va">p_reads_lost_abs</span><span class="op">*</span><span class="fl">100</span><span class="op">)</span>,<span class="fl">1</span><span class="op">)</span>, <span class="st">" (mean "</span>, <span class="fu"><a href="https://rdrr.io/r/base/Round.html">round</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/mean.html">mean</a></span><span class="op">(</span><span class="va">p_reads_lost_abs</span><span class="op">*</span><span class="fl">100</span><span class="op">)</span>,<span class="fl">1</span><span class="op">)</span>, <span class="st">")"</span><span class="op">)</span>,</span>
+<span>            `% Total Reads Lost (Marginal)` <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/paste.html">paste0</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/Round.html">round</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">min</a></span><span class="op">(</span><span class="va">p_reads_lost_abs_marginal</span><span class="op">*</span><span class="fl">100</span><span class="op">)</span>,<span class="fl">1</span><span class="op">)</span>, <span class="st">"-"</span>, <span class="fu"><a href="https://rdrr.io/r/base/Round.html">round</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">max</a></span><span class="op">(</span><span class="va">p_reads_lost_abs_marginal</span><span class="op">*</span><span class="fl">100</span><span class="op">)</span>,<span class="fl">1</span><span class="op">)</span>, <span class="st">" (mean "</span>, <span class="fu"><a href="https://rdrr.io/r/base/Round.html">round</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/mean.html">mean</a></span><span class="op">(</span><span class="va">p_reads_lost_abs_marginal</span><span class="op">*</span><span class="fl">100</span><span class="op">)</span>,<span class="fl">1</span><span class="op">)</span>, <span class="st">")"</span><span class="op">)</span>, .groups<span class="op">=</span><span class="st">"drop"</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">Stage</span> <span class="op">!=</span> <span class="st">"raw_concat"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>Stage <span class="op">=</span> <span class="va">Stage</span> <span class="op">%&gt;%</span> <span class="va">as.numeric</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/base/factor.html">factor</a></span><span class="op">(</span>labels<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="st">"Trimming &amp; filtering"</span>, <span class="st">"Deduplication"</span>, <span class="st">"Initial ribodepletion"</span>, <span class="st">"Secondary ribodepletion"</span><span class="op">)</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">n_reads_rel_display</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div data-pagedtable="false">
+  <script data-pagedtable-source="" type="application/json">
+{"columns":[{"label":["Stage"],"name":[1],"type":["fct"],"align":["left"]},{"label":["% Total Reads Lost (Cumulative)"],"name":[2],"type":["chr"],"align":["left"]},{"label":["% Total Reads Lost (Marginal)"],"name":[3],"type":["chr"],"align":["left"]}],"data":[{"1":"Trimming & filtering","2":"5.6-7.9 (mean 6.2)","3":"5.6-7.9 (mean 6.2)"},{"1":"Deduplication","2":"6.9-21 (mean 8.4)","3":"1.2-13.1 (mean 2.2)"},{"1":"Initial ribodepletion","2":"7.1-21.1 (mean 8.7)","3":"0.1-0.4 (mean 0.3)"},{"1":"Secondary ribodepletion","2":"7.2-21.1 (mean 8.8)","3":"0-0.1 (mean 0.1)"}],"options":{"columns":{"min":{},"max":[10]},"rows":{"min":[10],"max":[10]},"pages":{}}}
+  </script>
+</div>
+</div>
+</div>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb8"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="va">g_stage_base</span> <span class="op">&lt;-</span> <span class="fu">ggplot</span><span class="op">(</span>mapping<span class="op">=</span><span class="fu">aes</span><span class="op">(</span>x<span class="op">=</span><span class="va">stage</span>, group<span class="op">=</span><span class="va">sample</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="va">theme_kit</span></span>
+<span></span>
+<span><span class="co"># Plot reads over preprocessing</span></span>
+<span><span class="va">g_reads_stages</span> <span class="op">&lt;-</span> <span class="va">g_stage_base</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_line</span><span class="op">(</span><span class="fu">aes</span><span class="op">(</span>y<span class="op">=</span><span class="va">n_read_pairs</span><span class="op">)</span>, data<span class="op">=</span><span class="va">basic_stats</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span><span class="st">"# Read pairs"</span>, expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="cn">NA</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">g_reads_stages</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/preproc-figures-1.png" class="img-fluid figure-img" width="576"></p>
+</figure>
+</div>
+</div>
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb9"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Plot relative read losses during preprocessing</span></span>
+<span><span class="va">g_reads_rel</span> <span class="op">&lt;-</span> <span class="va">g_stage_base</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_line</span><span class="op">(</span><span class="fu">aes</span><span class="op">(</span>y<span class="op">=</span><span class="va">p_reads_lost_abs_marginal</span><span class="op">)</span>, data<span class="op">=</span><span class="va">n_reads_rel</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span><span class="st">"% Total Reads Lost"</span>, expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span>, </span>
+<span>                     labels <span class="op">=</span> <span class="kw">function</span><span class="op">(</span><span class="va">x</span><span class="op">)</span> <span class="va">x</span><span class="op">*</span><span class="fl">100</span><span class="op">)</span></span>
+<span><span class="va">g_reads_rel</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/preproc-figures-2.png" class="img-fluid figure-img" width="576"></p>
+</figure>
+</div>
+</div>
+</div>
+<p>Data cleaning was very successful at removing adapters and improving read qualities:</p>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb10"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="va">g_qual</span> <span class="op">&lt;-</span> <span class="fu">ggplot</span><span class="op">(</span>mapping<span class="op">=</span><span class="fu">aes</span><span class="op">(</span>linetype<span class="op">=</span><span class="va">read_pair</span>, </span>
+<span>                         group<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/interaction.html">interaction</a></span><span class="op">(</span><span class="va">sample</span>,<span class="va">read_pair</span><span class="op">)</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span> </span>
+<span>  <span class="fu">scale_linetype_discrete</span><span class="op">(</span>name <span class="op">=</span> <span class="st">"Read Pair"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">guides</span><span class="op">(</span>color<span class="op">=</span><span class="fu">guide_legend</span><span class="op">(</span>nrow<span class="op">=</span><span class="fl">2</span>,byrow<span class="op">=</span><span class="cn">TRUE</span><span class="op">)</span>,</span>
+<span>         linetype <span class="op">=</span> <span class="fu">guide_legend</span><span class="op">(</span>nrow<span class="op">=</span><span class="fl">2</span>,byrow<span class="op">=</span><span class="cn">TRUE</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="va">theme_base</span></span>
+<span></span>
+<span><span class="co"># Visualize adapters</span></span>
+<span><span class="va">g_adapters</span> <span class="op">&lt;-</span> <span class="va">g_qual</span> <span class="op">+</span> </span>
+<span>  <span class="fu">geom_line</span><span class="op">(</span><span class="fu">aes</span><span class="op">(</span>x<span class="op">=</span><span class="va">position</span>, y<span class="op">=</span><span class="va">pc_adapters</span><span class="op">)</span>, data<span class="op">=</span><span class="va">adapter_stats</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"% Adapters"</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">20</span><span class="op">)</span>,</span>
+<span>                     breaks <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/seq.html">seq</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">50</span>,<span class="fl">10</span><span class="op">)</span>, expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_x_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"Position"</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="cn">NA</span><span class="op">)</span>,</span>
+<span>                     breaks<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/seq.html">seq</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">140</span>,<span class="fl">20</span><span class="op">)</span>, expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">facet_grid</span><span class="op">(</span><span class="va">stage</span><span class="op">~</span><span class="va">adapter</span><span class="op">)</span></span>
+<span><span class="va">g_adapters</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/plot-quality-1.png" class="img-fluid figure-img" width="672"></p>
+</figure>
+</div>
+</div>
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb11"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Visualize quality</span></span>
+<span><span class="va">g_quality_base</span> <span class="op">&lt;-</span> <span class="va">g_qual</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_hline</span><span class="op">(</span>yintercept<span class="op">=</span><span class="fl">25</span>, linetype<span class="op">=</span><span class="st">"dashed"</span>, color<span class="op">=</span><span class="st">"red"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_hline</span><span class="op">(</span>yintercept<span class="op">=</span><span class="fl">30</span>, linetype<span class="op">=</span><span class="st">"dashed"</span>, color<span class="op">=</span><span class="st">"red"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_line</span><span class="op">(</span><span class="fu">aes</span><span class="op">(</span>x<span class="op">=</span><span class="va">position</span>, y<span class="op">=</span><span class="va">mean_phred_score</span><span class="op">)</span>, data<span class="op">=</span><span class="va">quality_base_stats</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"Mean Phred score"</span>, expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">10</span>,<span class="fl">45</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_x_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"Position"</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="cn">NA</span><span class="op">)</span>,</span>
+<span>                     breaks<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/seq.html">seq</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">140</span>,<span class="fl">20</span><span class="op">)</span>, expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">facet_grid</span><span class="op">(</span><span class="va">stage</span><span class="op">~</span><span class="va">.</span><span class="op">)</span></span>
+<span><span class="va">g_quality_base</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/plot-quality-2.png" class="img-fluid figure-img" width="672"></p>
+</figure>
+</div>
+</div>
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb12"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="va">g_quality_seq</span> <span class="op">&lt;-</span> <span class="va">g_qual</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_vline</span><span class="op">(</span>xintercept<span class="op">=</span><span class="fl">25</span>, linetype<span class="op">=</span><span class="st">"dashed"</span>, color<span class="op">=</span><span class="st">"red"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_vline</span><span class="op">(</span>xintercept<span class="op">=</span><span class="fl">30</span>, linetype<span class="op">=</span><span class="st">"dashed"</span>, color<span class="op">=</span><span class="st">"red"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_line</span><span class="op">(</span><span class="fu">aes</span><span class="op">(</span>x<span class="op">=</span><span class="va">mean_phred_score</span>, y<span class="op">=</span><span class="va">n_sequences</span><span class="op">)</span>, data<span class="op">=</span><span class="va">quality_seq_stats</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_x_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"Mean Phred score"</span>, expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"# Sequences"</span>, expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">facet_grid</span><span class="op">(</span><span class="va">stage</span><span class="op">~</span><span class="va">.</span><span class="op">)</span></span>
+<span><span class="va">g_quality_seq</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/plot-quality-3.png" class="img-fluid figure-img" width="672"></p>
+</figure>
+</div>
+</div>
+</div>
+<p>According to FASTQC, cleaning + deduplication was very effective at reducing measured duplicate levels in the few samples that required it:</p>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb13"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="va">stage_dup</span> <span class="op">&lt;-</span> <span class="va">basic_stats</span> <span class="op">%&gt;%</span> <span class="fu">group_by</span><span class="op">(</span><span class="va">stage</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>dmin <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">min</a></span><span class="op">(</span><span class="va">percent_duplicates</span><span class="op">)</span>, dmax<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">max</a></span><span class="op">(</span><span class="va">percent_duplicates</span><span class="op">)</span>,</span>
+<span>            dmean<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/mean.html">mean</a></span><span class="op">(</span><span class="va">percent_duplicates</span><span class="op">)</span>, .groups <span class="op">=</span> <span class="st">"drop"</span><span class="op">)</span></span>
+<span></span>
+<span><span class="va">g_dup_stages</span> <span class="op">&lt;-</span> <span class="va">g_stage_base</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_line</span><span class="op">(</span><span class="fu">aes</span><span class="op">(</span>y<span class="op">=</span><span class="va">percent_duplicates</span><span class="op">)</span>, data<span class="op">=</span><span class="va">basic_stats</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span><span class="st">"% Duplicates"</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="cn">NA</span><span class="op">)</span>, expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">g_dup_stages</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/preproc-dedup-1.png" class="img-fluid figure-img" width="576"></p>
+</figure>
+</div>
+</div>
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb14"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="va">g_readlen_stages</span> <span class="op">&lt;-</span> <span class="va">g_stage_base</span> <span class="op">+</span> </span>
+<span>  <span class="fu">geom_line</span><span class="op">(</span><span class="fu">aes</span><span class="op">(</span>y<span class="op">=</span><span class="va">mean_seq_len</span><span class="op">)</span>, data<span class="op">=</span><span class="va">basic_stats</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span><span class="st">"Mean read length (nt)"</span>, expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="cn">NA</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">g_readlen_stages</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/preproc-dedup-2.png" class="img-fluid figure-img" width="576"></p>
+</figure>
+</div>
+</div>
+</div>
+</section><section id="high-level-composition" class="level1"><h1>High-level composition</h1>
+<p>As before, to assess the high-level composition of the reads, I ran the ribodepleted files through Kraken (using the Standard 16 database) and summarized the results with Bracken. Combining these results with the read counts above gives us a breakdown of the inferred composition of the samples:</p>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb15"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="va">classifications</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="st">"Filtered"</span>, <span class="st">"Duplicate"</span>, <span class="st">"Ribosomal"</span>, <span class="st">"Unassigned"</span>,</span>
+<span>                     <span class="st">"Bacterial"</span>, <span class="st">"Archaeal"</span>, <span class="st">"Viral"</span>, <span class="st">"Human"</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Import composition data</span></span>
+<span><span class="va">comp_path</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/file.path.html">file.path</a></span><span class="op">(</span><span class="va">data_dir</span>, <span class="st">"taxonomic_composition.tsv.gz"</span><span class="op">)</span></span>
+<span><span class="va">comp</span> <span class="op">&lt;-</span> <span class="fu">read_tsv</span><span class="op">(</span><span class="va">comp_path</span>, show_col_types <span class="op">=</span> <span class="cn">FALSE</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">left_join</span><span class="op">(</span><span class="va">libraries</span>, by<span class="op">=</span><span class="st">"sample"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>classification <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/factor.html">factor</a></span><span class="op">(</span><span class="va">classification</span>, levels <span class="op">=</span> <span class="va">classifications</span><span class="op">)</span><span class="op">)</span></span>
+<span>  </span>
+<span></span>
+<span><span class="co"># Summarize composition</span></span>
+<span><span class="va">read_comp_summ</span> <span class="op">&lt;-</span> <span class="va">comp</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">classification</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>n_reads <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads</span><span class="op">)</span>, .groups <span class="op">=</span> <span class="st">"drop_last"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>n_reads <span class="op">=</span> <span class="fu">replace_na</span><span class="op">(</span><span class="va">n_reads</span>,<span class="fl">0</span><span class="op">)</span>,</span>
+<span>    p_reads <span class="op">=</span> <span class="va">n_reads</span><span class="op">/</span><span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads</span><span class="op">)</span>,</span>
+<span>    pc_reads <span class="op">=</span> <span class="va">p_reads</span><span class="op">*</span><span class="fl">100</span><span class="op">)</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details>
+</div>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb16"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Prepare plotting templates</span></span>
+<span><span class="va">g_comp_base</span> <span class="op">&lt;-</span> <span class="fu">ggplot</span><span class="op">(</span>mapping<span class="op">=</span><span class="fu">aes</span><span class="op">(</span>x<span class="op">=</span><span class="va">sample</span>, y<span class="op">=</span><span class="va">p_reads</span>, fill<span class="op">=</span><span class="va">classification</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="va">theme_kit</span></span>
+<span><span class="va">scale_y_pc_reads</span> <span class="op">&lt;-</span> <span class="fu">purrr</span><span class="fu">::</span><span class="fu"><a href="https://purrr.tidyverse.org/reference/partial.html">partial</a></span><span class="op">(</span><span class="va">scale_y_continuous</span>, name <span class="op">=</span> <span class="st">"% Reads"</span>,</span>
+<span>                                   expand <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span>, labels <span class="op">=</span> <span class="kw">function</span><span class="op">(</span><span class="va">y</span><span class="op">)</span> <span class="va">y</span><span class="op">*</span><span class="fl">100</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Plot overall composition</span></span>
+<span><span class="va">g_comp</span> <span class="op">&lt;-</span> <span class="va">g_comp_base</span> <span class="op">+</span> <span class="fu">geom_col</span><span class="op">(</span>data <span class="op">=</span> <span class="va">comp</span>, position <span class="op">=</span> <span class="st">"stack"</span>, width<span class="op">=</span><span class="fl">1</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_pc_reads</span><span class="op">(</span>limits <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">1.01</span><span class="op">)</span>, breaks <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/seq.html">seq</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">1</span>,<span class="fl">0.2</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_fill_brewer</span><span class="op">(</span>palette <span class="op">=</span> <span class="st">"Set1"</span>, name <span class="op">=</span> <span class="st">"Classification"</span><span class="op">)</span></span>
+<span><span class="va">g_comp</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/plot-composition-all-1.png" class="img-fluid figure-img" width="768"></p>
+</figure>
+</div>
+</div>
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb17"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Plot composition of minor components</span></span>
+<span><span class="va">comp_minor</span> <span class="op">&lt;-</span> <span class="va">comp</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">classification</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="st">"Archaeal"</span>, <span class="st">"Viral"</span>, <span class="st">"Human"</span>, <span class="st">"Other"</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">palette_minor</span> <span class="op">&lt;-</span> <span class="fu">brewer.pal</span><span class="op">(</span><span class="fl">9</span>, <span class="st">"Set1"</span><span class="op">)</span><span class="op">[</span><span class="fl">6</span><span class="op">:</span><span class="fl">9</span><span class="op">]</span></span>
+<span><span class="va">g_comp_minor</span> <span class="op">&lt;-</span> <span class="va">g_comp_base</span> <span class="op">+</span> </span>
+<span>  <span class="fu">geom_col</span><span class="op">(</span>data<span class="op">=</span><span class="va">comp_minor</span>, position <span class="op">=</span> <span class="st">"stack"</span>, width<span class="op">=</span><span class="fl">1</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_pc_reads</span><span class="op">(</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_fill_manual</span><span class="op">(</span>values<span class="op">=</span><span class="va">palette_minor</span>, name <span class="op">=</span> <span class="st">"Classification"</span><span class="op">)</span></span>
+<span><span class="va">g_comp_minor</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/plot-composition-all-2.png" class="img-fluid figure-img" width="768"></p>
+</figure>
+</div>
+</div>
+</div>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb18"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="va">p_reads_summ_group</span> <span class="op">&lt;-</span> <span class="va">comp</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>classification <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/ifelse.html">ifelse</a></span><span class="op">(</span><span class="va">classification</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="st">"Filtered"</span>, <span class="st">"Duplicate"</span>, <span class="st">"Unassigned"</span><span class="op">)</span>, <span class="st">"Excluded"</span>, <span class="fu"><a href="https://rdrr.io/r/base/character.html">as.character</a></span><span class="op">(</span><span class="va">classification</span><span class="op">)</span><span class="op">)</span>,</span>
+<span>         classification <span class="op">=</span> <span class="fu">fct_inorder</span><span class="op">(</span><span class="va">classification</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">classification</span>, <span class="va">sample</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>p_reads <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">p_reads</span><span class="op">)</span>, .groups <span class="op">=</span> <span class="st">"drop"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">classification</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>pc_min <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">min</a></span><span class="op">(</span><span class="va">p_reads</span><span class="op">)</span><span class="op">*</span><span class="fl">100</span>, pc_max <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">max</a></span><span class="op">(</span><span class="va">p_reads</span><span class="op">)</span><span class="op">*</span><span class="fl">100</span>, </span>
+<span>            pc_mean <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/mean.html">mean</a></span><span class="op">(</span><span class="va">p_reads</span><span class="op">)</span><span class="op">*</span><span class="fl">100</span>, .groups <span class="op">=</span> <span class="st">"drop"</span><span class="op">)</span></span>
+<span><span class="va">p_reads_summ_prep</span> <span class="op">&lt;-</span> <span class="va">p_reads_summ_group</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>classification <span class="op">=</span> <span class="fu">fct_inorder</span><span class="op">(</span><span class="va">classification</span><span class="op">)</span>,</span>
+<span>         pc_min <span class="op">=</span> <span class="va">pc_min</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/base/Round.html">signif</a></span><span class="op">(</span>digits<span class="op">=</span><span class="fl">2</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/base/lapply.html">sapply</a></span><span class="op">(</span><span class="va">format</span>, scientific<span class="op">=</span><span class="cn">FALSE</span>, trim<span class="op">=</span><span class="cn">TRUE</span>, digits<span class="op">=</span><span class="fl">2</span><span class="op">)</span>,</span>
+<span>         pc_max <span class="op">=</span> <span class="va">pc_max</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/base/Round.html">signif</a></span><span class="op">(</span>digits<span class="op">=</span><span class="fl">2</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/base/lapply.html">sapply</a></span><span class="op">(</span><span class="va">format</span>, scientific<span class="op">=</span><span class="cn">FALSE</span>, trim<span class="op">=</span><span class="cn">TRUE</span>, digits<span class="op">=</span><span class="fl">2</span><span class="op">)</span>,</span>
+<span>         pc_mean <span class="op">=</span> <span class="va">pc_mean</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/base/Round.html">signif</a></span><span class="op">(</span>digits<span class="op">=</span><span class="fl">2</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/base/lapply.html">sapply</a></span><span class="op">(</span><span class="va">format</span>, scientific<span class="op">=</span><span class="cn">FALSE</span>, trim<span class="op">=</span><span class="cn">TRUE</span>, digits<span class="op">=</span><span class="fl">2</span><span class="op">)</span>,</span>
+<span>         display <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/paste.html">paste0</a></span><span class="op">(</span><span class="va">pc_min</span>, <span class="st">"-"</span>, <span class="va">pc_max</span>, <span class="st">"% (mean "</span>, <span class="va">pc_mean</span>, <span class="st">"%)"</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">p_reads_summ</span> <span class="op">&lt;-</span> <span class="va">p_reads_summ_prep</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">select</span><span class="op">(</span>Classification<span class="op">=</span><span class="va">classification</span>, </span>
+<span>         `Read Fraction`<span class="op">=</span><span class="va">display</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">arrange</span><span class="op">(</span><span class="va">Classification</span><span class="op">)</span></span>
+<span><span class="va">p_reads_summ</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div data-pagedtable="false">
+  <script data-pagedtable-source="" type="application/json">
+{"columns":[{"label":["Classification"],"name":[1],"type":["fct"],"align":["left"]},{"label":["Read Fraction"],"name":[2],"type":["chr"],"align":["left"]}],"data":[{"1":"Excluded","2":"44-87% (mean 57%)"},{"1":"Ribosomal","2":"0.1-0.48% (mean 0.4%)"},{"1":"Bacterial","2":"11-55% (mean 42%)"},{"1":"Archaeal","2":"0.011-0.13% (mean 0.022%)"},{"1":"Viral","2":"0.048-0.98% (mean 0.13%)"},{"1":"Human","2":"0.13-0.7% (mean 0.32%)"}],"options":{"columns":{"min":{},"max":[10]},"rows":{"min":[10],"max":[10]},"pages":{}}}
+  </script>
+</div>
+</div>
+</div>
+<p>As in previous DNA datasets, the vast majority of classified reads were bacterial in origin. Viral fraction averaged 0.13%, though one samples (NYC-08) reached almost 1%. As is common for DNA data, viral reads were overwhelmingly dominated by <em>Caudoviricetes</em> phages:</p>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb19"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Get Kraken reports</span></span>
+<span><span class="va">reports_path</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/file.path.html">file.path</a></span><span class="op">(</span><span class="va">data_dir</span>, <span class="st">"kraken_reports.tsv.gz"</span><span class="op">)</span></span>
+<span><span class="va">reports</span> <span class="op">&lt;-</span> <span class="fu">read_tsv</span><span class="op">(</span><span class="va">reports_path</span>, show_col_types <span class="op">=</span> <span class="cn">FALSE</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Get viral taxonomy</span></span>
+<span><span class="va">viral_taxa_path</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/file.path.html">file.path</a></span><span class="op">(</span><span class="va">data_dir</span>, <span class="st">"viral-taxids.tsv.gz"</span><span class="op">)</span></span>
+<span><span class="va">viral_taxa</span> <span class="op">&lt;-</span> <span class="fu">read_tsv</span><span class="op">(</span><span class="va">viral_taxa_path</span>, show_col_types <span class="op">=</span> <span class="cn">FALSE</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Filter to viral taxa</span></span>
+<span><span class="va">kraken_reports_viral</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">reports</span>, <span class="va">taxid</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>p_reads_viral <span class="op">=</span> <span class="va">n_reads_clade</span><span class="op">/</span><span class="va">n_reads_clade</span><span class="op">[</span><span class="fl">1</span><span class="op">]</span><span class="op">)</span></span>
+<span><span class="va">kraken_reports_viral_cleaned</span> <span class="op">&lt;-</span> <span class="va">kraken_reports_viral</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">inner_join</span><span class="op">(</span><span class="va">libraries</span>, by<span class="op">=</span><span class="st">"sample"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">select</span><span class="op">(</span><span class="op">-</span><span class="va">pc_reads_total</span>, <span class="op">-</span><span class="va">n_reads_direct</span>, <span class="op">-</span><span class="fu">contains</span><span class="op">(</span><span class="st">"minimizers"</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">select</span><span class="op">(</span><span class="va">name</span>, <span class="va">taxid</span>, <span class="va">p_reads_viral</span>, <span class="va">n_reads_clade</span>, <span class="fu">everything</span><span class="op">(</span><span class="op">)</span><span class="op">)</span></span>
+<span></span>
+<span><span class="va">viral_classes</span> <span class="op">&lt;-</span> <span class="va">kraken_reports_viral_cleaned</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">rank</span> <span class="op">==</span> <span class="st">"C"</span><span class="op">)</span></span>
+<span><span class="va">viral_families</span> <span class="op">&lt;-</span> <span class="va">kraken_reports_viral_cleaned</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">rank</span> <span class="op">==</span> <span class="st">"F"</span><span class="op">)</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details>
+</div>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb20"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="va">major_threshold</span> <span class="op">&lt;-</span> <span class="fl">0.02</span></span>
+<span></span>
+<span><span class="co"># Identify major viral classes</span></span>
+<span><span class="va">viral_classes_major_tab</span> <span class="op">&lt;-</span> <span class="va">viral_classes</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">name</span>, <span class="va">taxid</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>p_reads_viral_max <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">max</a></span><span class="op">(</span><span class="va">p_reads_viral</span><span class="op">)</span>, .groups<span class="op">=</span><span class="st">"drop"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">p_reads_viral_max</span> <span class="op">&gt;=</span> <span class="va">major_threshold</span><span class="op">)</span></span>
+<span><span class="va">viral_classes_major_list</span> <span class="op">&lt;-</span> <span class="va">viral_classes_major_tab</span> <span class="op">%&gt;%</span> <span class="fu">pull</span><span class="op">(</span><span class="va">name</span><span class="op">)</span></span>
+<span><span class="va">viral_classes_major</span> <span class="op">&lt;-</span> <span class="va">viral_classes</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">name</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">viral_classes_major_list</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">select</span><span class="op">(</span><span class="va">name</span>, <span class="va">taxid</span>, <span class="va">sample</span>, <span class="va">p_reads_viral</span><span class="op">)</span></span>
+<span><span class="va">viral_classes_minor</span> <span class="op">&lt;-</span> <span class="va">viral_classes_major</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>p_reads_viral_major <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">p_reads_viral</span><span class="op">)</span>, .groups <span class="op">=</span> <span class="st">"drop"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>name <span class="op">=</span> <span class="st">"Other"</span>, taxid<span class="op">=</span><span class="cn">NA</span>, p_reads_viral <span class="op">=</span> <span class="fl">1</span><span class="op">-</span><span class="va">p_reads_viral_major</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">select</span><span class="op">(</span><span class="va">name</span>, <span class="va">taxid</span>, <span class="va">sample</span>, <span class="va">p_reads_viral</span><span class="op">)</span></span>
+<span><span class="va">viral_classes_display</span> <span class="op">&lt;-</span> <span class="fu">bind_rows</span><span class="op">(</span><span class="va">viral_classes_major</span>, <span class="va">viral_classes_minor</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">arrange</span><span class="op">(</span><span class="fu">desc</span><span class="op">(</span><span class="va">p_reads_viral</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>name <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/factor.html">factor</a></span><span class="op">(</span><span class="va">name</span>, levels<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="va">viral_classes_major_list</span>, <span class="st">"Other"</span><span class="op">)</span><span class="op">)</span>,</span>
+<span>         p_reads_viral <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">pmax</a></span><span class="op">(</span><span class="va">p_reads_viral</span>, <span class="fl">0</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">rename</span><span class="op">(</span>p_reads <span class="op">=</span> <span class="va">p_reads_viral</span>, classification<span class="op">=</span><span class="va">name</span><span class="op">)</span></span>
+<span></span>
+<span><span class="va">palette_viral</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fu">brewer.pal</span><span class="op">(</span><span class="fl">12</span>, <span class="st">"Set3"</span><span class="op">)</span>, <span class="fu">brewer.pal</span><span class="op">(</span><span class="fl">8</span>, <span class="st">"Dark2"</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">g_classes</span> <span class="op">&lt;-</span> <span class="va">g_comp_base</span> <span class="op">+</span> </span>
+<span>  <span class="fu">geom_col</span><span class="op">(</span>data<span class="op">=</span><span class="va">viral_classes_display</span>, position <span class="op">=</span> <span class="st">"stack"</span>, width<span class="op">=</span><span class="fl">1</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"% Viral Reads"</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">1.01</span><span class="op">)</span>, breaks <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/seq.html">seq</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">1</span>,<span class="fl">0.2</span><span class="op">)</span>,</span>
+<span>                     expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span>, labels <span class="op">=</span> <span class="kw">function</span><span class="op">(</span><span class="va">y</span><span class="op">)</span> <span class="va">y</span><span class="op">*</span><span class="fl">100</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_fill_manual</span><span class="op">(</span>values<span class="op">=</span><span class="va">palette_viral</span>, name <span class="op">=</span> <span class="st">"Viral class"</span><span class="op">)</span></span>
+<span>  </span>
+<span><span class="va">g_classes</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/viral-class-composition-1.png" class="img-fluid figure-img" width="672"></p>
+</figure>
+</div>
+</div>
+</div>
+</section><section id="human-infecting-virus-reads-validation" class="level1"><h1>Human-infecting virus reads: validation</h1>
+<p>Next, I investigated the human-infecting virus read content of these unenriched samples. A grand total of 199 reads were identified as putatively human-viral:</p>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb21"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Import HV read data</span></span>
+<span><span class="va">hv_reads_filtered_path</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/file.path.html">file.path</a></span><span class="op">(</span><span class="va">data_dir</span>, <span class="st">"hv_hits_putative_filtered.tsv.gz"</span><span class="op">)</span></span>
+<span><span class="va">hv_reads_filtered</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/lapply.html">lapply</a></span><span class="op">(</span><span class="va">hv_reads_filtered_path</span>, <span class="va">read_tsv</span>,</span>
+<span>                            show_col_types <span class="op">=</span> <span class="cn">FALSE</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">bind_rows</span><span class="op">(</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">left_join</span><span class="op">(</span><span class="va">libraries</span>, by<span class="op">=</span><span class="st">"sample"</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Count reads</span></span>
+<span><span class="va">n_hv_filtered</span> <span class="op">&lt;-</span> <span class="va">hv_reads_filtered</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span>, <span class="va">seq_id</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="va">count</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="va">count</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">inner_join</span><span class="op">(</span><span class="va">basic_stats</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">stage</span> <span class="op">==</span> <span class="st">"ribo_initial"</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>               <span class="fu">select</span><span class="op">(</span><span class="va">sample</span>, <span class="va">n_read_pairs</span><span class="op">)</span>, by<span class="op">=</span><span class="st">"sample"</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">rename</span><span class="op">(</span>n_putative <span class="op">=</span> <span class="va">n</span>, n_total <span class="op">=</span> <span class="va">n_read_pairs</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>p_reads <span class="op">=</span> <span class="va">n_putative</span><span class="op">/</span><span class="va">n_total</span>, pc_reads <span class="op">=</span> <span class="va">p_reads</span> <span class="op">*</span> <span class="fl">100</span><span class="op">)</span></span>
+<span><span class="va">n_hv_filtered_summ</span> <span class="op">&lt;-</span> <span class="va">n_hv_filtered</span> <span class="op">%&gt;%</span> <span class="va">ungroup</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>n_putative <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_putative</span><span class="op">)</span>, n_total <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_total</span><span class="op">)</span>, </span>
+<span>            .groups<span class="op">=</span><span class="st">"drop"</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>p_reads <span class="op">=</span> <span class="va">n_putative</span><span class="op">/</span><span class="va">n_total</span>, pc_reads <span class="op">=</span> <span class="va">p_reads</span><span class="op">*</span><span class="fl">100</span><span class="op">)</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details>
+</div>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb22"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Collapse multi-entry sequences</span></span>
+<span><span class="va">rmax</span> <span class="op">&lt;-</span> <span class="fu">purrr</span><span class="fu">::</span><span class="fu"><a href="https://purrr.tidyverse.org/reference/partial.html">partial</a></span><span class="op">(</span><span class="va">max</span>, na.rm <span class="op">=</span> <span class="cn">TRUE</span><span class="op">)</span></span>
+<span><span class="va">collapse</span> <span class="op">&lt;-</span> <span class="kw">function</span><span class="op">(</span><span class="va">x</span><span class="op">)</span> <span class="fu"><a href="https://rdrr.io/r/base/ifelse.html">ifelse</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/all.html">all</a></span><span class="op">(</span><span class="va">x</span> <span class="op">==</span> <span class="va">x</span><span class="op">[</span><span class="fl">1</span><span class="op">]</span><span class="op">)</span>, <span class="va">x</span><span class="op">[</span><span class="fl">1</span><span class="op">]</span>, <span class="fu"><a href="https://rdrr.io/r/base/paste.html">paste</a></span><span class="op">(</span><span class="va">x</span>, collapse<span class="op">=</span><span class="st">"/"</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">mrg</span> <span class="op">&lt;-</span> <span class="va">hv_reads_filtered</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>adj_score_max <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">pmax</a></span><span class="op">(</span><span class="va">adj_score_fwd</span>, <span class="va">adj_score_rev</span>, na.rm <span class="op">=</span> <span class="cn">TRUE</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">arrange</span><span class="op">(</span><span class="fu">desc</span><span class="op">(</span><span class="va">adj_score_max</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">seq_id</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>sample <span class="op">=</span> <span class="fu">collapse</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span>,</span>
+<span>            genome_id <span class="op">=</span> <span class="fu">collapse</span><span class="op">(</span><span class="va">genome_id</span><span class="op">)</span>,</span>
+<span>            taxid_best <span class="op">=</span> <span class="va">taxid</span><span class="op">[</span><span class="fl">1</span><span class="op">]</span>,</span>
+<span>            taxid <span class="op">=</span> <span class="fu">collapse</span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/character.html">as.character</a></span><span class="op">(</span><span class="va">taxid</span><span class="op">)</span><span class="op">)</span>,</span>
+<span>            best_alignment_score_fwd <span class="op">=</span> <span class="fu">rmax</span><span class="op">(</span><span class="va">best_alignment_score_fwd</span><span class="op">)</span>,</span>
+<span>            best_alignment_score_rev <span class="op">=</span> <span class="fu">rmax</span><span class="op">(</span><span class="va">best_alignment_score_rev</span><span class="op">)</span>,</span>
+<span>            query_len_fwd <span class="op">=</span> <span class="fu">rmax</span><span class="op">(</span><span class="va">query_len_fwd</span><span class="op">)</span>,</span>
+<span>            query_len_rev <span class="op">=</span> <span class="fu">rmax</span><span class="op">(</span><span class="va">query_len_rev</span><span class="op">)</span>,</span>
+<span>            query_seq_fwd <span class="op">=</span> <span class="va">query_seq_fwd</span><span class="op">[</span><span class="op">!</span><span class="fu"><a href="https://rdrr.io/r/base/NA.html">is.na</a></span><span class="op">(</span><span class="va">query_seq_fwd</span><span class="op">)</span><span class="op">]</span><span class="op">[</span><span class="fl">1</span><span class="op">]</span>,</span>
+<span>            query_seq_rev <span class="op">=</span> <span class="va">query_seq_rev</span><span class="op">[</span><span class="op">!</span><span class="fu"><a href="https://rdrr.io/r/base/NA.html">is.na</a></span><span class="op">(</span><span class="va">query_seq_rev</span><span class="op">)</span><span class="op">]</span><span class="op">[</span><span class="fl">1</span><span class="op">]</span>,</span>
+<span>            classified <span class="op">=</span> <span class="fu">rmax</span><span class="op">(</span><span class="va">classified</span><span class="op">)</span>,</span>
+<span>            assigned_name <span class="op">=</span> <span class="fu">collapse</span><span class="op">(</span><span class="va">assigned_name</span><span class="op">)</span>,</span>
+<span>            assigned_taxid_best <span class="op">=</span> <span class="va">assigned_taxid</span><span class="op">[</span><span class="fl">1</span><span class="op">]</span>,</span>
+<span>            assigned_taxid <span class="op">=</span> <span class="fu">collapse</span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/character.html">as.character</a></span><span class="op">(</span><span class="va">assigned_taxid</span><span class="op">)</span><span class="op">)</span>,</span>
+<span>            assigned_hv <span class="op">=</span> <span class="fu">rmax</span><span class="op">(</span><span class="va">assigned_hv</span><span class="op">)</span>,</span>
+<span>            hit_hv <span class="op">=</span> <span class="fu">rmax</span><span class="op">(</span><span class="va">hit_hv</span><span class="op">)</span>,</span>
+<span>            encoded_hits <span class="op">=</span> <span class="fu">collapse</span><span class="op">(</span><span class="va">encoded_hits</span><span class="op">)</span>,</span>
+<span>            adj_score_fwd <span class="op">=</span> <span class="fu">rmax</span><span class="op">(</span><span class="va">adj_score_fwd</span><span class="op">)</span>,</span>
+<span>            adj_score_rev <span class="op">=</span> <span class="fu">rmax</span><span class="op">(</span><span class="va">adj_score_rev</span><span class="op">)</span></span>
+<span>            <span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">inner_join</span><span class="op">(</span><span class="va">libraries</span>, by<span class="op">=</span><span class="st">"sample"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>kraken_label <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/ifelse.html">ifelse</a></span><span class="op">(</span><span class="va">assigned_hv</span>, <span class="st">"Kraken2 HV\nassignment"</span>,</span>
+<span>                               <span class="fu"><a href="https://rdrr.io/r/base/ifelse.html">ifelse</a></span><span class="op">(</span><span class="va">hit_hv</span>, <span class="st">"Kraken2 HV\nhit"</span>,</span>
+<span>                                      <span class="st">"No hit or\nassignment"</span><span class="op">)</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>adj_score_max <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">pmax</a></span><span class="op">(</span><span class="va">adj_score_fwd</span>, <span class="va">adj_score_rev</span><span class="op">)</span>,</span>
+<span>         highscore <span class="op">=</span> <span class="va">adj_score_max</span> <span class="op">&gt;=</span> <span class="fl">20</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Plot results</span></span>
+<span><span class="va">geom_vhist</span> <span class="op">&lt;-</span> <span class="fu">purrr</span><span class="fu">::</span><span class="fu"><a href="https://purrr.tidyverse.org/reference/partial.html">partial</a></span><span class="op">(</span><span class="va">geom_histogram</span>, binwidth<span class="op">=</span><span class="fl">5</span>, boundary<span class="op">=</span><span class="fl">0</span><span class="op">)</span></span>
+<span><span class="va">g_vhist_base</span> <span class="op">&lt;-</span> <span class="fu">ggplot</span><span class="op">(</span>mapping<span class="op">=</span><span class="fu">aes</span><span class="op">(</span>x<span class="op">=</span><span class="va">adj_score_max</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_vline</span><span class="op">(</span>xintercept<span class="op">=</span><span class="fl">20</span>, linetype<span class="op">=</span><span class="st">"dashed"</span>, color<span class="op">=</span><span class="st">"red"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">facet_wrap</span><span class="op">(</span><span class="op">~</span><span class="va">kraken_label</span>, labeller <span class="op">=</span> <span class="fu">labeller</span><span class="op">(</span>kit <span class="op">=</span> <span class="fu">label_wrap_gen</span><span class="op">(</span><span class="fl">20</span><span class="op">)</span><span class="op">)</span>, scales <span class="op">=</span> <span class="st">"free_y"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_x_continuous</span><span class="op">(</span>name <span class="op">=</span> <span class="st">"Maximum adjusted alignment score"</span><span class="op">)</span> <span class="op">+</span> </span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"# Read pairs"</span><span class="op">)</span> <span class="op">+</span> </span>
+<span>  <span class="va">theme_base</span> </span>
+<span><span class="va">g_vhist_0</span> <span class="op">&lt;-</span> <span class="va">g_vhist_base</span> <span class="op">+</span> <span class="fu">geom_vhist</span><span class="op">(</span>data<span class="op">=</span><span class="va">mrg</span><span class="op">)</span></span>
+<span><span class="va">g_vhist_0</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/plot-hv-scores-1.png" class="img-fluid figure-img" width="768"></p>
+</figure>
+</div>
+</div>
+</div>
+<p>BLASTing these reads against nt, we find that the pipeline performs well, with only a single high-scoring false-positive read:</p>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb23"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Import paired BLAST results</span></span>
+<span><span class="va">blast_paired_path</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/file.path.html">file.path</a></span><span class="op">(</span><span class="va">data_dir</span>, <span class="st">"hv_hits_blast_paired.tsv.gz"</span><span class="op">)</span></span>
+<span><span class="va">blast_paired</span> <span class="op">&lt;-</span> <span class="fu">read_tsv</span><span class="op">(</span><span class="va">blast_paired_path</span>, show_col_types <span class="op">=</span> <span class="cn">FALSE</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Add viral status</span></span>
+<span><span class="va">blast_viral</span> <span class="op">&lt;-</span> <span class="fu">mutate</span><span class="op">(</span><span class="va">blast_paired</span>, viral <span class="op">=</span> <span class="va">staxid</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>viral_full <span class="op">=</span> <span class="va">viral</span> <span class="op">&amp;</span> <span class="va">n_reads</span> <span class="op">==</span> <span class="fl">2</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Compare to Kraken &amp; Bowtie assignments</span></span>
+<span><span class="va">match_taxid</span> <span class="op">&lt;-</span> <span class="kw">function</span><span class="op">(</span><span class="va">taxid_1</span>, <span class="va">taxid_2</span><span class="op">)</span><span class="op">{</span></span>
+<span>  <span class="va">p1</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/mapply.html">mapply</a></span><span class="op">(</span><span class="va">grepl</span>, <span class="fu"><a href="https://rdrr.io/r/base/paste.html">paste0</a></span><span class="op">(</span><span class="st">"/"</span>, <span class="va">taxid_1</span>, <span class="st">"$"</span><span class="op">)</span>, <span class="va">taxid_2</span><span class="op">)</span></span>
+<span>  <span class="va">p2</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/mapply.html">mapply</a></span><span class="op">(</span><span class="va">grepl</span>, <span class="fu"><a href="https://rdrr.io/r/base/paste.html">paste0</a></span><span class="op">(</span><span class="st">"^"</span>, <span class="va">taxid_1</span>, <span class="st">"/"</span><span class="op">)</span>, <span class="va">taxid_2</span><span class="op">)</span></span>
+<span>  <span class="va">p3</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/mapply.html">mapply</a></span><span class="op">(</span><span class="va">grepl</span>, <span class="fu"><a href="https://rdrr.io/r/base/paste.html">paste0</a></span><span class="op">(</span><span class="st">"^"</span>, <span class="va">taxid_1</span>, <span class="st">"$"</span><span class="op">)</span>, <span class="va">taxid_2</span><span class="op">)</span></span>
+<span>  <span class="va">out</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/stats/setNames.html">setNames</a></span><span class="op">(</span><span class="va">p1</span><span class="op">|</span><span class="va">p2</span><span class="op">|</span><span class="va">p3</span>, <span class="cn">NULL</span><span class="op">)</span></span>
+<span>  <span class="kw"><a href="https://rdrr.io/r/base/function.html">return</a></span><span class="op">(</span><span class="va">out</span><span class="op">)</span></span>
+<span><span class="op">}</span></span>
+<span><span class="va">mrg_assign</span> <span class="op">&lt;-</span> <span class="va">mrg</span> <span class="op">%&gt;%</span> <span class="fu">select</span><span class="op">(</span><span class="va">sample</span>, <span class="va">seq_id</span>, <span class="va">taxid</span>, <span class="va">assigned_taxid</span>, <span class="va">adj_score_max</span><span class="op">)</span></span>
+<span><span class="va">blast_assign</span> <span class="op">&lt;-</span> <span class="fu">inner_join</span><span class="op">(</span><span class="va">blast_viral</span>, <span class="va">mrg_assign</span>, by<span class="op">=</span><span class="st">"seq_id"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>    <span class="fu">mutate</span><span class="op">(</span>taxid_match_bowtie <span class="op">=</span> <span class="fu">match_taxid</span><span class="op">(</span><span class="va">staxid</span>, <span class="va">taxid</span><span class="op">)</span>,</span>
+<span>           taxid_match_kraken <span class="op">=</span> <span class="fu">match_taxid</span><span class="op">(</span><span class="va">staxid</span>, <span class="va">assigned_taxid</span><span class="op">)</span>,</span>
+<span>           taxid_match_any <span class="op">=</span> <span class="va">taxid_match_bowtie</span> <span class="op">|</span> <span class="va">taxid_match_kraken</span><span class="op">)</span></span>
+<span><span class="va">blast_out</span> <span class="op">&lt;-</span> <span class="va">blast_assign</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">seq_id</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>viral_status <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/ifelse.html">ifelse</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/any.html">any</a></span><span class="op">(</span><span class="va">viral_full</span><span class="op">)</span>, <span class="fl">2</span>,</span>
+<span>                                  <span class="fu"><a href="https://rdrr.io/r/base/ifelse.html">ifelse</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/any.html">any</a></span><span class="op">(</span><span class="va">taxid_match_any</span><span class="op">)</span>, <span class="fl">2</span>,</span>
+<span>                                             <span class="fu"><a href="https://rdrr.io/r/base/ifelse.html">ifelse</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/any.html">any</a></span><span class="op">(</span><span class="va">viral</span><span class="op">)</span>, <span class="fl">1</span>, <span class="fl">0</span><span class="op">)</span><span class="op">)</span><span class="op">)</span>,</span>
+<span>            .groups <span class="op">=</span> <span class="st">"drop"</span><span class="op">)</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details>
+</div>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb24"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Merge BLAST results with unenriched read data</span></span>
+<span><span class="va">mrg_blast</span> <span class="op">&lt;-</span> <span class="fu">full_join</span><span class="op">(</span><span class="va">mrg</span>, <span class="va">blast_out</span>, by<span class="op">=</span><span class="st">"seq_id"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>viral_status <span class="op">=</span> <span class="fu">replace_na</span><span class="op">(</span><span class="va">viral_status</span>, <span class="fl">0</span><span class="op">)</span>,</span>
+<span>         viral_status_out <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/ifelse.html">ifelse</a></span><span class="op">(</span><span class="va">viral_status</span> <span class="op">==</span> <span class="fl">0</span>, <span class="cn">FALSE</span>, <span class="cn">TRUE</span><span class="op">)</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Plot</span></span>
+<span><span class="va">g_vhist_1</span> <span class="op">&lt;-</span> <span class="va">g_vhist_base</span> <span class="op">+</span> <span class="fu">geom_vhist</span><span class="op">(</span>data<span class="op">=</span><span class="va">mrg_blast</span>, mapping<span class="op">=</span><span class="fu">aes</span><span class="op">(</span>fill<span class="op">=</span><span class="va">viral_status_out</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_fill_brewer</span><span class="op">(</span>palette <span class="op">=</span> <span class="st">"Set1"</span>, name <span class="op">=</span> <span class="st">"Viral status"</span><span class="op">)</span></span>
+<span><span class="va">g_vhist_1</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/plot-blast-results-1.png" class="img-fluid figure-img" width="672"></p>
+</figure>
+</div>
+</div>
+</div>
+<p>My usual disjunctive score threshold of 20 gave precision, sensitivity, and F1 scores all &gt;96%:</p>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb25"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="va">test_sens_spec</span> <span class="op">&lt;-</span> <span class="kw">function</span><span class="op">(</span><span class="va">tab</span>, <span class="va">score_threshold</span><span class="op">)</span><span class="op">{</span></span>
+<span>  <span class="va">tab_retained</span> <span class="op">&lt;-</span> <span class="va">tab</span> <span class="op">%&gt;%</span> </span>
+<span>    <span class="fu">mutate</span><span class="op">(</span>retain_score <span class="op">=</span> <span class="op">(</span><span class="va">adj_score_fwd</span> <span class="op">&gt;</span> <span class="va">score_threshold</span> <span class="op">|</span> <span class="va">adj_score_rev</span> <span class="op">&gt;</span> <span class="va">score_threshold</span><span class="op">)</span>,</span>
+<span>           retain <span class="op">=</span> <span class="va">assigned_hv</span> <span class="op">|</span> <span class="va">retain_score</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>    <span class="fu">group_by</span><span class="op">(</span><span class="va">viral_status_out</span>, <span class="va">retain</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="va">count</span></span>
+<span>  <span class="va">pos_tru</span> <span class="op">&lt;-</span> <span class="va">tab_retained</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">viral_status_out</span> <span class="op">==</span> <span class="st">"TRUE"</span>, <span class="va">retain</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="fu">pull</span><span class="op">(</span><span class="va">n</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="va">sum</span></span>
+<span>  <span class="va">pos_fls</span> <span class="op">&lt;-</span> <span class="va">tab_retained</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">viral_status_out</span> <span class="op">!=</span> <span class="st">"TRUE"</span>, <span class="va">retain</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="fu">pull</span><span class="op">(</span><span class="va">n</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="va">sum</span></span>
+<span>  <span class="va">neg_tru</span> <span class="op">&lt;-</span> <span class="va">tab_retained</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">viral_status_out</span> <span class="op">!=</span> <span class="st">"TRUE"</span>, <span class="op">!</span><span class="va">retain</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="fu">pull</span><span class="op">(</span><span class="va">n</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="va">sum</span></span>
+<span>  <span class="va">neg_fls</span> <span class="op">&lt;-</span> <span class="va">tab_retained</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">viral_status_out</span> <span class="op">==</span> <span class="st">"TRUE"</span>, <span class="op">!</span><span class="va">retain</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="fu">pull</span><span class="op">(</span><span class="va">n</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="va">sum</span></span>
+<span>  <span class="va">sensitivity</span> <span class="op">&lt;-</span> <span class="va">pos_tru</span> <span class="op">/</span> <span class="op">(</span><span class="va">pos_tru</span> <span class="op">+</span> <span class="va">neg_fls</span><span class="op">)</span></span>
+<span>  <span class="va">specificity</span> <span class="op">&lt;-</span> <span class="va">neg_tru</span> <span class="op">/</span> <span class="op">(</span><span class="va">neg_tru</span> <span class="op">+</span> <span class="va">pos_fls</span><span class="op">)</span></span>
+<span>  <span class="va">precision</span>   <span class="op">&lt;-</span> <span class="va">pos_tru</span> <span class="op">/</span> <span class="op">(</span><span class="va">pos_tru</span> <span class="op">+</span> <span class="va">pos_fls</span><span class="op">)</span></span>
+<span>  <span class="va">f1</span> <span class="op">&lt;-</span> <span class="fl">2</span> <span class="op">*</span> <span class="va">precision</span> <span class="op">*</span> <span class="va">sensitivity</span> <span class="op">/</span> <span class="op">(</span><span class="va">precision</span> <span class="op">+</span> <span class="va">sensitivity</span><span class="op">)</span></span>
+<span>  <span class="va">out</span> <span class="op">&lt;-</span> <span class="fu">tibble</span><span class="op">(</span>threshold<span class="op">=</span><span class="va">score_threshold</span>, sensitivity<span class="op">=</span><span class="va">sensitivity</span>, </span>
+<span>                specificity<span class="op">=</span><span class="va">specificity</span>, precision<span class="op">=</span><span class="va">precision</span>, f1<span class="op">=</span><span class="va">f1</span><span class="op">)</span></span>
+<span>  <span class="kw"><a href="https://rdrr.io/r/base/function.html">return</a></span><span class="op">(</span><span class="va">out</span><span class="op">)</span></span>
+<span><span class="op">}</span></span>
+<span><span class="va">range_f1</span> <span class="op">&lt;-</span> <span class="kw">function</span><span class="op">(</span><span class="va">intab</span>, <span class="va">inrange</span><span class="op">=</span><span class="fl">15</span><span class="op">:</span><span class="fl">45</span><span class="op">)</span><span class="op">{</span></span>
+<span>  <span class="va">tss</span> <span class="op">&lt;-</span> <span class="fu">purrr</span><span class="fu">::</span><span class="fu"><a href="https://purrr.tidyverse.org/reference/partial.html">partial</a></span><span class="op">(</span><span class="va">test_sens_spec</span>, tab<span class="op">=</span><span class="va">intab</span><span class="op">)</span></span>
+<span>  <span class="va">stats</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/lapply.html">lapply</a></span><span class="op">(</span><span class="va">inrange</span>, <span class="va">tss</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="va">bind_rows</span> <span class="op">%&gt;%</span></span>
+<span>    <span class="fu">pivot_longer</span><span class="op">(</span><span class="op">!</span><span class="va">threshold</span>, names_to<span class="op">=</span><span class="st">"metric"</span>, values_to<span class="op">=</span><span class="st">"value"</span><span class="op">)</span></span>
+<span>  <span class="kw"><a href="https://rdrr.io/r/base/function.html">return</a></span><span class="op">(</span><span class="va">stats</span><span class="op">)</span></span>
+<span><span class="op">}</span></span>
+<span><span class="va">stats_0</span> <span class="op">&lt;-</span> <span class="fu">range_f1</span><span class="op">(</span><span class="va">mrg_blast</span><span class="op">)</span></span>
+<span><span class="va">g_stats_0</span> <span class="op">&lt;-</span> <span class="fu">ggplot</span><span class="op">(</span><span class="va">stats_0</span>, <span class="fu">aes</span><span class="op">(</span>x<span class="op">=</span><span class="va">threshold</span>, y<span class="op">=</span><span class="va">value</span>, color<span class="op">=</span><span class="va">metric</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_vline</span><span class="op">(</span>xintercept<span class="op">=</span><span class="fl">20</span>, color <span class="op">=</span> <span class="st">"red"</span>, linetype <span class="op">=</span> <span class="st">"dashed"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_line</span><span class="op">(</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span>name <span class="op">=</span> <span class="st">"Value"</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">1</span><span class="op">)</span>, breaks <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/seq.html">seq</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">1</span>,<span class="fl">0.2</span><span class="op">)</span>, expand <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_x_continuous</span><span class="op">(</span>name <span class="op">=</span> <span class="st">"Adjusted Score Threshold"</span>, expand <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_color_brewer</span><span class="op">(</span>palette<span class="op">=</span><span class="st">"Dark2"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="va">theme_base</span></span>
+<span><span class="va">g_stats_0</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/plot-f1-1.png" class="img-fluid figure-img" width="672"></p>
+</figure>
+</div>
+</div>
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb26"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="va">stats_0</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">threshold</span> <span class="op">==</span> <span class="fl">20</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">select</span><span class="op">(</span>Threshold<span class="op">=</span><span class="va">threshold</span>, Metric<span class="op">=</span><span class="va">metric</span>, Value<span class="op">=</span><span class="va">value</span><span class="op">)</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div data-pagedtable="false">
+  <script data-pagedtable-source="" type="application/json">
+{"columns":[{"label":["Threshold"],"name":[1],"type":["int"],"align":["right"]},{"label":["Metric"],"name":[2],"type":["chr"],"align":["left"]},{"label":["Value"],"name":[3],"type":["dbl"],"align":["right"]}],"data":[{"1":"20","2":"sensitivity","3":"0.9698795"},{"1":"20","2":"specificity","3":"0.9696970"},{"1":"20","2":"precision","3":"0.9938272"},{"1":"20","2":"f1","3":"0.9817073"}],"options":{"columns":{"min":{},"max":[10]},"rows":{"min":[10],"max":[10]},"pages":{}}}
+  </script>
+</div>
+</div>
+</div>
+</section><section id="human-infecting-viruses-overall-relative-abundance" class="level1"><h1>Human-infecting viruses: overall relative abundance</h1>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb27"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Get raw read counts</span></span>
+<span><span class="va">read_counts_raw</span> <span class="op">&lt;-</span> <span class="va">basic_stats_raw</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">select</span><span class="op">(</span><span class="va">sample</span>, n_reads_raw <span class="op">=</span> <span class="va">n_read_pairs</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Get HV read counts</span></span>
+<span><span class="va">mrg_hv</span> <span class="op">&lt;-</span> <span class="va">mrg</span> <span class="op">%&gt;%</span> <span class="fu">mutate</span><span class="op">(</span>hv_status <span class="op">=</span> <span class="va">assigned_hv</span> <span class="op">|</span> <span class="va">highscore</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">rename</span><span class="op">(</span>taxid_all <span class="op">=</span> <span class="va">taxid</span>, taxid <span class="op">=</span> <span class="va">taxid_best</span><span class="op">)</span></span>
+<span><span class="va">read_counts_hv</span> <span class="op">&lt;-</span> <span class="va">mrg_hv</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">hv_status</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">count</span><span class="op">(</span>name<span class="op">=</span><span class="st">"n_reads_hv"</span><span class="op">)</span></span>
+<span><span class="va">read_counts</span> <span class="op">&lt;-</span> <span class="va">read_counts_raw</span> <span class="op">%&gt;%</span> <span class="fu">left_join</span><span class="op">(</span><span class="va">read_counts_hv</span>, by<span class="op">=</span><span class="st">"sample"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>n_reads_hv <span class="op">=</span> <span class="fu">replace_na</span><span class="op">(</span><span class="va">n_reads_hv</span>, <span class="fl">0</span><span class="op">)</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Aggregate</span></span>
+<span><span class="va">read_counts_grp</span> <span class="op">&lt;-</span> <span class="va">read_counts</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>n_reads_raw <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_raw</span><span class="op">)</span>,</span>
+<span>            n_reads_hv <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_hv</span><span class="op">)</span>, .groups<span class="op">=</span><span class="st">"drop"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>sample<span class="op">=</span> <span class="st">"All samples"</span><span class="op">)</span></span>
+<span><span class="va">read_counts_agg</span> <span class="op">&lt;-</span> <span class="fu">bind_rows</span><span class="op">(</span><span class="va">read_counts</span>, <span class="va">read_counts_grp</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>p_reads_hv <span class="op">=</span> <span class="va">n_reads_hv</span><span class="op">/</span><span class="va">n_reads_raw</span>,</span>
+<span>         sample <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/factor.html">factor</a></span><span class="op">(</span><span class="va">sample</span>, levels<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/levels.html">levels</a></span><span class="op">(</span><span class="va">libraries</span><span class="op">$</span><span class="va">sample</span><span class="op">)</span>, <span class="st">"All samples"</span><span class="op">)</span><span class="op">)</span><span class="op">)</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details>
+</div>
+<p>Applying a disjunctive cutoff at S=20 identifies 162 read pairs as human-viral. This gives an overall relative HV abundance of <span class="math inline">\(9.42 \times 10^{-7}\)</span>; higher than <a href="https://data.securebio.org/wills-public-notebook/notebooks/2024-05-01_ng.html">Ng</a> and <a href="https://data.securebio.org/wills-public-notebook/notebooks/2024-05-01_bengtsson-palme.html">Bengtsson-Palme</a> but lower than most other datasets I’ve analyzed with this pipeline:</p>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb28"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Visualize</span></span>
+<span><span class="va">g_phv_agg</span> <span class="op">&lt;-</span> <span class="fu">ggplot</span><span class="op">(</span><span class="va">read_counts_agg</span>, <span class="fu">aes</span><span class="op">(</span>x<span class="op">=</span><span class="va">sample</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_point</span><span class="op">(</span><span class="fu">aes</span><span class="op">(</span>y<span class="op">=</span><span class="va">p_reads_hv</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_log10</span><span class="op">(</span><span class="st">"Relative abundance of human virus reads"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="va">theme_kit</span></span>
+<span><span class="va">g_phv_agg</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/plot-hv-ra-1.png" class="img-fluid figure-img" width="672"></p>
+</figure>
+</div>
+</div>
+</div>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb29"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Collate past RA values</span></span>
+<span><span class="va">ra_past</span> <span class="op">&lt;-</span> <span class="fu">tribble</span><span class="op">(</span><span class="op">~</span><span class="va">dataset</span>, <span class="op">~</span><span class="va">ra</span>, <span class="op">~</span><span class="va">na_type</span>, <span class="op">~</span><span class="va">panel_enriched</span>,</span>
+<span>                   <span class="st">"Brumfield"</span>, <span class="fl">5e-5</span>, <span class="st">"RNA"</span>, <span class="cn">FALSE</span>,</span>
+<span>                   <span class="st">"Brumfield"</span>, <span class="fl">3.66e-7</span>, <span class="st">"DNA"</span>, <span class="cn">FALSE</span>,</span>
+<span>                   <span class="st">"Spurbeck"</span>, <span class="fl">5.44e-6</span>, <span class="st">"RNA"</span>, <span class="cn">FALSE</span>,</span>
+<span>                   <span class="st">"Yang"</span>, <span class="fl">3.62e-4</span>, <span class="st">"RNA"</span>, <span class="cn">FALSE</span>,</span>
+<span>                   <span class="st">"Rothman (unenriched)"</span>, <span class="fl">1.87e-5</span>, <span class="st">"RNA"</span>, <span class="cn">FALSE</span>,</span>
+<span>                   <span class="st">"Rothman (panel-enriched)"</span>, <span class="fl">3.3e-5</span>, <span class="st">"RNA"</span>, <span class="cn">TRUE</span>,</span>
+<span>                   <span class="st">"Crits-Christoph (unenriched)"</span>, <span class="fl">1.37e-5</span>, <span class="st">"RNA"</span>, <span class="cn">FALSE</span>,</span>
+<span>                   <span class="st">"Crits-Christoph (panel-enriched)"</span>, <span class="fl">1.26e-2</span>, <span class="st">"RNA"</span>, <span class="cn">TRUE</span>,</span>
+<span>                   <span class="st">"Prussin (non-control)"</span>, <span class="fl">1.63e-5</span>, <span class="st">"RNA"</span>, <span class="cn">FALSE</span>,</span>
+<span>                   <span class="st">"Prussin (non-control)"</span>, <span class="fl">4.16e-5</span>, <span class="st">"DNA"</span>, <span class="cn">FALSE</span>,</span>
+<span>                   <span class="st">"Rosario (non-control)"</span>, <span class="fl">1.21e-5</span>, <span class="st">"RNA"</span>, <span class="cn">FALSE</span>,</span>
+<span>                   <span class="st">"Rosario (non-control)"</span>, <span class="fl">1.50e-4</span>, <span class="st">"DNA"</span>, <span class="cn">FALSE</span>,</span>
+<span>                   <span class="st">"Leung"</span>, <span class="fl">1.73e-5</span>, <span class="st">"DNA"</span>, <span class="cn">FALSE</span>,</span>
+<span>                   <span class="st">"Brinch"</span>, <span class="fl">3.88e-6</span>, <span class="st">"DNA"</span>, <span class="cn">FALSE</span>,</span>
+<span>                   <span class="st">"Bengtsson-Palme"</span>, <span class="fl">8.86e-8</span>, <span class="st">"DNA"</span>, <span class="cn">FALSE</span>,</span>
+<span>                   <span class="st">"Ng"</span>, <span class="fl">2.90e-7</span>, <span class="st">"DNA"</span>, <span class="cn">FALSE</span></span>
+<span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Collate new RA values</span></span>
+<span><span class="va">ra_new</span> <span class="op">&lt;-</span> <span class="fu">tribble</span><span class="op">(</span><span class="op">~</span><span class="va">dataset</span>, <span class="op">~</span><span class="va">ra</span>, <span class="op">~</span><span class="va">na_type</span>, <span class="op">~</span><span class="va">panel_enriched</span>,</span>
+<span>                  <span class="st">"Maritz"</span>, <span class="fl">9.42e-7</span>, <span class="st">"DNA"</span>, <span class="cn">FALSE</span><span class="op">)</span></span>
+<span></span>
+<span></span>
+<span><span class="co"># Plot</span></span>
+<span><span class="va">scale_color_na</span> <span class="op">&lt;-</span> <span class="fu">purrr</span><span class="fu">::</span><span class="fu"><a href="https://purrr.tidyverse.org/reference/partial.html">partial</a></span><span class="op">(</span><span class="va">scale_color_brewer</span>, palette<span class="op">=</span><span class="st">"Set1"</span>,</span>
+<span>                                 name<span class="op">=</span><span class="st">"Nucleic acid type"</span><span class="op">)</span></span>
+<span><span class="va">ra_comp</span> <span class="op">&lt;-</span> <span class="fu">bind_rows</span><span class="op">(</span><span class="va">ra_past</span>, <span class="va">ra_new</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="fu">mutate</span><span class="op">(</span>dataset <span class="op">=</span> <span class="fu">fct_inorder</span><span class="op">(</span><span class="va">dataset</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">g_ra_comp</span> <span class="op">&lt;-</span> <span class="fu">ggplot</span><span class="op">(</span><span class="va">ra_comp</span>, <span class="fu">aes</span><span class="op">(</span>y<span class="op">=</span><span class="va">dataset</span>, x<span class="op">=</span><span class="va">ra</span>, color<span class="op">=</span><span class="va">na_type</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_point</span><span class="op">(</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_color_na</span><span class="op">(</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_x_log10</span><span class="op">(</span>name<span class="op">=</span><span class="st">"Relative abundance of human virus reads"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="va">theme_base</span> <span class="op">+</span> <span class="fu">theme</span><span class="op">(</span>axis.title.y <span class="op">=</span> <span class="fu">element_blank</span><span class="op">(</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">g_ra_comp</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/ra-hv-past-1.png" class="img-fluid figure-img" width="672"></p>
+</figure>
+</div>
+</div>
+</div>
+</section><section id="human-infecting-viruses-taxonomy-and-composition" class="level1"><h1>Human-infecting viruses: taxonomy and composition</h1>
+<p>In investigating the taxonomy of human-infecting virus reads, I restricted my analysis to samples with more than 5 HV read pairs total across all viruses, to reduce noise arising from extremely low HV read counts in some samples. 10 samples met this criterion.</p>
+<p>At the family level, most samples were dominated by <em>Adenoviridae</em>, <em>Polyomaviridae</em> and <em>Papillomaviridae.</em> However, one sample, NYC-03, was overwhelmingly dominated by <em>Herpesviridae</em>:</p>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb30"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Get viral taxon names for putative HV reads</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">249588</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Mamastrovirus"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">194960</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Kobuvirus"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">688449</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Salivirus"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">585893</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Picobirnaviridae"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">333922</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Betapapillomavirus"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">334207</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Betapapillomavirus 3"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">369960</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Porcine type-C oncovirus"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">333924</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Betapapillomavirus 2"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">687329</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Anelloviridae"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">325455</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Gammapapillomavirus"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">333750</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Alphapapillomavirus"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">694002</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Betacoronavirus"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">334202</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Mupapillomavirus"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">197911</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Alphainfluenzavirus"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">186938</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Respirovirus"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">333926</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Gammapapillomavirus 1"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">337051</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Betapapillomavirus 1"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">337043</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Alphapapillomavirus 4"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">694003</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Betacoronavirus 1"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">334204</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Mupapillomavirus 2"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">334208</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Betapapillomavirus 4"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">333928</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Gammapapillomavirus 2"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">337039</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Alphapapillomavirus 2"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">333929</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Gammapapillomavirus 3"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">337042</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Alphapapillomavirus 7"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">334203</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Mupapillomavirus 1"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">333757</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Alphapapillomavirus 8"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">337050</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Alphapapillomavirus 6"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">333767</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Alphapapillomavirus 3"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">333754</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Alphapapillomavirus 10"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">687363</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Torque teno virus 24"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">687342</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Torque teno virus 3"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">687359</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Torque teno virus 20"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">194441</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Primate T-lymphotropic virus 2"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">334209</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Betapapillomavirus 5"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">194965</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Aichivirus B"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">333930</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Gammapapillomavirus 4"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">337048</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Alphapapillomavirus 1"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">337041</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Alphapapillomavirus 9"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">337049</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Alphapapillomavirus 11"</span></span>
+<span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">name</span><span class="op">[</span><span class="va">viral_taxa</span><span class="op">$</span><span class="va">taxid</span> <span class="op">==</span> <span class="fl">337044</span><span class="op">]</span> <span class="op">&lt;-</span> <span class="st">"Alphapapillomavirus 5"</span></span>
+<span></span>
+<span><span class="co"># Filter samples and add viral taxa information</span></span>
+<span><span class="va">samples_keep</span> <span class="op">&lt;-</span> <span class="va">read_counts</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">n_reads_hv</span> <span class="op">&gt;</span> <span class="fl">5</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="fu">pull</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span></span>
+<span><span class="va">mrg_hv_named</span> <span class="op">&lt;-</span> <span class="va">mrg_hv</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">sample</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">samples_keep</span>, <span class="va">hv_status</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="fu">left_join</span><span class="op">(</span><span class="va">viral_taxa</span>, by<span class="op">=</span><span class="st">"taxid"</span><span class="op">)</span> </span>
+<span></span>
+<span><span class="co"># Discover viral species &amp; genera for HV reads</span></span>
+<span><span class="va">raise_rank</span> <span class="op">&lt;-</span> <span class="kw">function</span><span class="op">(</span><span class="va">read_db</span>, <span class="va">taxid_db</span>, <span class="va">out_rank</span> <span class="op">=</span> <span class="st">"species"</span>, <span class="va">verbose</span> <span class="op">=</span> <span class="cn">FALSE</span><span class="op">)</span><span class="op">{</span></span>
+<span>  <span class="co"># Get higher ranks than search rank</span></span>
+<span>  <span class="va">ranks</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="st">"subspecies"</span>, <span class="st">"species"</span>, <span class="st">"subgenus"</span>, <span class="st">"genus"</span>, <span class="st">"subfamily"</span>, <span class="st">"family"</span>, <span class="st">"suborder"</span>, <span class="st">"order"</span>, <span class="st">"class"</span>, <span class="st">"subphylum"</span>, <span class="st">"phylum"</span>, <span class="st">"kingdom"</span>, <span class="st">"superkingdom"</span><span class="op">)</span></span>
+<span>  <span class="va">rank_match</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/which.min.html">which.max</a></span><span class="op">(</span><span class="va">ranks</span> <span class="op">==</span> <span class="va">out_rank</span><span class="op">)</span></span>
+<span>  <span class="va">high_ranks</span> <span class="op">&lt;-</span> <span class="va">ranks</span><span class="op">[</span><span class="va">rank_match</span><span class="op">:</span><span class="fu"><a href="https://rdrr.io/r/base/length.html">length</a></span><span class="op">(</span><span class="va">ranks</span><span class="op">)</span><span class="op">]</span></span>
+<span>  <span class="co"># Merge read DB and taxid DB</span></span>
+<span>  <span class="va">reads</span> <span class="op">&lt;-</span> <span class="va">read_db</span> <span class="op">%&gt;%</span> <span class="fu">select</span><span class="op">(</span><span class="op">-</span><span class="va">parent_taxid</span>, <span class="op">-</span><span class="va">rank</span>, <span class="op">-</span><span class="va">name</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>    <span class="fu">left_join</span><span class="op">(</span><span class="va">taxid_db</span>, by<span class="op">=</span><span class="st">"taxid"</span><span class="op">)</span></span>
+<span>  <span class="co"># Extract sequences that are already at appropriate rank</span></span>
+<span>  <span class="va">reads_rank</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">reads</span>, <span class="va">rank</span> <span class="op">==</span> <span class="va">out_rank</span><span class="op">)</span></span>
+<span>  <span class="co"># Drop sequences at a higher rank and return unclassified sequences</span></span>
+<span>  <span class="va">reads_norank</span> <span class="op">&lt;-</span> <span class="va">reads</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">rank</span> <span class="op">!=</span> <span class="va">out_rank</span>, <span class="op">!</span><span class="va">rank</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">high_ranks</span>, <span class="op">!</span><span class="fu"><a href="https://rdrr.io/r/base/NA.html">is.na</a></span><span class="op">(</span><span class="va">taxid</span><span class="op">)</span><span class="op">)</span></span>
+<span>  <span class="kw">while</span><span class="op">(</span><span class="fu"><a href="https://rdrr.io/r/base/nrow.html">nrow</a></span><span class="op">(</span><span class="va">reads_norank</span><span class="op">)</span> <span class="op">&gt;</span> <span class="fl">0</span><span class="op">)</span><span class="op">{</span> <span class="co"># As long as there are unclassified sequences...</span></span>
+<span>    <span class="co"># Promote read taxids and re-merge with taxid DB, then re-classify and filter</span></span>
+<span>    <span class="va">reads_remaining</span> <span class="op">&lt;-</span> <span class="va">reads_norank</span> <span class="op">%&gt;%</span> <span class="fu">mutate</span><span class="op">(</span>taxid <span class="op">=</span> <span class="va">parent_taxid</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>      <span class="fu">select</span><span class="op">(</span><span class="op">-</span><span class="va">parent_taxid</span>, <span class="op">-</span><span class="va">rank</span>, <span class="op">-</span><span class="va">name</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>      <span class="fu">left_join</span><span class="op">(</span><span class="va">taxid_db</span>, by<span class="op">=</span><span class="st">"taxid"</span><span class="op">)</span></span>
+<span>    <span class="va">reads_rank</span> <span class="op">&lt;-</span> <span class="va">reads_remaining</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">rank</span> <span class="op">==</span> <span class="va">out_rank</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>      <span class="fu">bind_rows</span><span class="op">(</span><span class="va">reads_rank</span><span class="op">)</span></span>
+<span>    <span class="va">reads_norank</span> <span class="op">&lt;-</span> <span class="va">reads_remaining</span> <span class="op">%&gt;%</span></span>
+<span>      <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">rank</span> <span class="op">!=</span> <span class="va">out_rank</span>, <span class="op">!</span><span class="va">rank</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">high_ranks</span>, <span class="op">!</span><span class="fu"><a href="https://rdrr.io/r/base/NA.html">is.na</a></span><span class="op">(</span><span class="va">taxid</span><span class="op">)</span><span class="op">)</span></span>
+<span>  <span class="op">}</span></span>
+<span>  <span class="co"># Finally, extract and append reads that were excluded during the process</span></span>
+<span>  <span class="va">reads_dropped</span> <span class="op">&lt;-</span> <span class="va">reads</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="op">!</span><span class="va">seq_id</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">reads_rank</span><span class="op">$</span><span class="va">seq_id</span><span class="op">)</span></span>
+<span>  <span class="va">reads_out</span> <span class="op">&lt;-</span> <span class="va">reads_rank</span> <span class="op">%&gt;%</span> <span class="fu">bind_rows</span><span class="op">(</span><span class="va">reads_dropped</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>    <span class="fu">select</span><span class="op">(</span><span class="op">-</span><span class="va">parent_taxid</span>, <span class="op">-</span><span class="va">rank</span>, <span class="op">-</span><span class="va">name</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>    <span class="fu">left_join</span><span class="op">(</span><span class="va">taxid_db</span>, by<span class="op">=</span><span class="st">"taxid"</span><span class="op">)</span></span>
+<span>  <span class="kw"><a href="https://rdrr.io/r/base/function.html">return</a></span><span class="op">(</span><span class="va">reads_out</span><span class="op">)</span></span>
+<span><span class="op">}</span></span>
+<span><span class="va">hv_reads_species</span> <span class="op">&lt;-</span> <span class="fu">raise_rank</span><span class="op">(</span><span class="va">mrg_hv_named</span>, <span class="va">viral_taxa</span>, <span class="st">"species"</span><span class="op">)</span></span>
+<span><span class="va">hv_reads_genus</span> <span class="op">&lt;-</span> <span class="fu">raise_rank</span><span class="op">(</span><span class="va">mrg_hv_named</span>, <span class="va">viral_taxa</span>, <span class="st">"genus"</span><span class="op">)</span></span>
+<span><span class="va">hv_reads_family</span> <span class="op">&lt;-</span> <span class="fu">raise_rank</span><span class="op">(</span><span class="va">mrg_hv_named</span>, <span class="va">viral_taxa</span>, <span class="st">"family"</span><span class="op">)</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details>
+</div>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb31"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="va">threshold_major_family</span> <span class="op">&lt;-</span> <span class="fl">0.02</span></span>
+<span></span>
+<span><span class="co"># Count reads for each human-viral family</span></span>
+<span><span class="va">hv_family_counts</span> <span class="op">&lt;-</span> <span class="va">hv_reads_family</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span>, <span class="va">name</span>, <span class="va">taxid</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">count</span><span class="op">(</span>name <span class="op">=</span> <span class="st">"n_reads_hv"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>p_reads_hv <span class="op">=</span> <span class="va">n_reads_hv</span><span class="op">/</span><span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_hv</span><span class="op">)</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Identify high-ranking families and group others</span></span>
+<span><span class="va">hv_family_major_tab</span> <span class="op">&lt;-</span> <span class="va">hv_family_counts</span> <span class="op">%&gt;%</span> <span class="fu">group_by</span><span class="op">(</span><span class="va">name</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">p_reads_hv</span> <span class="op">==</span> <span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">max</a></span><span class="op">(</span><span class="va">p_reads_hv</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="fu">row_number</span><span class="op">(</span><span class="op">)</span> <span class="op">==</span> <span class="fl">1</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">arrange</span><span class="op">(</span><span class="fu">desc</span><span class="op">(</span><span class="va">p_reads_hv</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">p_reads_hv</span> <span class="op">&gt;</span> <span class="va">threshold_major_family</span><span class="op">)</span></span>
+<span><span class="va">hv_family_counts_major</span> <span class="op">&lt;-</span> <span class="va">hv_family_counts</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>name_display <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/ifelse.html">ifelse</a></span><span class="op">(</span><span class="va">name</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">hv_family_major_tab</span><span class="op">$</span><span class="va">name</span>, <span class="va">name</span>, <span class="st">"Other"</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span>, <span class="va">name_display</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>n_reads_hv <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_hv</span><span class="op">)</span>, p_reads_hv <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">p_reads_hv</span><span class="op">)</span>, </span>
+<span>            .groups<span class="op">=</span><span class="st">"drop"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>name_display <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/factor.html">factor</a></span><span class="op">(</span><span class="va">name_display</span>, </span>
+<span>                               levels <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="va">hv_family_major_tab</span><span class="op">$</span><span class="va">name</span>, <span class="st">"Other"</span><span class="op">)</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">hv_family_counts_display</span> <span class="op">&lt;-</span> <span class="va">hv_family_counts_major</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">rename</span><span class="op">(</span>p_reads <span class="op">=</span> <span class="va">p_reads_hv</span>, classification <span class="op">=</span> <span class="va">name_display</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Plot</span></span>
+<span><span class="va">g_hv_family</span> <span class="op">&lt;-</span> <span class="va">g_comp_base</span> <span class="op">+</span> </span>
+<span>  <span class="fu">geom_col</span><span class="op">(</span>data<span class="op">=</span><span class="va">hv_family_counts_display</span>, position <span class="op">=</span> <span class="st">"stack"</span>, width<span class="op">=</span><span class="fl">1</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"% HV Reads"</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">1.01</span><span class="op">)</span>, </span>
+<span>                     breaks <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/seq.html">seq</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">1</span>,<span class="fl">0.2</span><span class="op">)</span>,</span>
+<span>                     expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span>, labels <span class="op">=</span> <span class="kw">function</span><span class="op">(</span><span class="va">y</span><span class="op">)</span> <span class="va">y</span><span class="op">*</span><span class="fl">100</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_fill_manual</span><span class="op">(</span>values<span class="op">=</span><span class="va">palette_viral</span>, name <span class="op">=</span> <span class="st">"Viral family"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">labs</span><span class="op">(</span>title<span class="op">=</span><span class="st">"Family composition of human-viral reads"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">guides</span><span class="op">(</span>fill<span class="op">=</span><span class="fu">guide_legend</span><span class="op">(</span>ncol<span class="op">=</span><span class="fl">4</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">theme</span><span class="op">(</span>plot.title <span class="op">=</span> <span class="fu">element_text</span><span class="op">(</span>size<span class="op">=</span><span class="fu">rel</span><span class="op">(</span><span class="fl">1.4</span><span class="op">)</span>, hjust<span class="op">=</span><span class="fl">0</span>, face<span class="op">=</span><span class="st">"plain"</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">g_hv_family</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/hv-family-1.png" class="img-fluid figure-img" width="672"></p>
+</figure>
+</div>
+</div>
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb32"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Get most prominent families for text</span></span>
+<span><span class="va">hv_family_collate</span> <span class="op">&lt;-</span> <span class="va">hv_family_counts</span> <span class="op">%&gt;%</span> <span class="fu">group_by</span><span class="op">(</span><span class="va">name</span>, <span class="va">taxid</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>n_reads_tot <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_hv</span><span class="op">)</span>,</span>
+<span>            p_reads_max <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">max</a></span><span class="op">(</span><span class="va">p_reads_hv</span><span class="op">)</span>, .groups<span class="op">=</span><span class="st">"drop"</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">arrange</span><span class="op">(</span><span class="fu">desc</span><span class="op">(</span><span class="va">n_reads_tot</span><span class="op">)</span><span class="op">)</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details>
+</div>
+<p>In investigating individual viral families, to avoid distortions from a few rare reads, I restricted myself to samples where that family made up at least 10% of human-viral reads:</p>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb33"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="va">threshold_major_species</span> <span class="op">&lt;-</span> <span class="fl">0.05</span></span>
+<span><span class="va">taxid_adeno</span> <span class="op">&lt;-</span> <span class="fl">10508</span></span>
+<span></span>
+<span><span class="co"># Get set of adenoviridae reads</span></span>
+<span><span class="va">adeno_samples</span> <span class="op">&lt;-</span> <span class="va">hv_family_counts</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">taxid</span> <span class="op">==</span> <span class="va">taxid_adeno</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">p_reads_hv</span> <span class="op">&gt;=</span> <span class="fl">0.1</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">pull</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span></span>
+<span><span class="va">adeno_ids</span> <span class="op">&lt;-</span> <span class="va">hv_reads_family</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">taxid</span> <span class="op">==</span> <span class="va">taxid_adeno</span>, <span class="va">sample</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">adeno_samples</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">pull</span><span class="op">(</span><span class="va">seq_id</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Count reads for each adenoviridae species</span></span>
+<span><span class="va">adeno_species_counts</span> <span class="op">&lt;-</span> <span class="va">hv_reads_species</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">seq_id</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">adeno_ids</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span>, <span class="va">name</span>, <span class="va">taxid</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">count</span><span class="op">(</span>name <span class="op">=</span> <span class="st">"n_reads_hv"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>p_reads_adeno <span class="op">=</span> <span class="va">n_reads_hv</span><span class="op">/</span><span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_hv</span><span class="op">)</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Identify high-ranking families and group others</span></span>
+<span><span class="va">adeno_species_major_tab</span> <span class="op">&lt;-</span> <span class="va">adeno_species_counts</span> <span class="op">%&gt;%</span> <span class="fu">group_by</span><span class="op">(</span><span class="va">name</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">p_reads_adeno</span> <span class="op">==</span> <span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">max</a></span><span class="op">(</span><span class="va">p_reads_adeno</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="fu">row_number</span><span class="op">(</span><span class="op">)</span> <span class="op">==</span> <span class="fl">1</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">arrange</span><span class="op">(</span><span class="fu">desc</span><span class="op">(</span><span class="va">p_reads_adeno</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">p_reads_adeno</span> <span class="op">&gt;</span> <span class="va">threshold_major_species</span><span class="op">)</span></span>
+<span><span class="va">adeno_species_counts_major</span> <span class="op">&lt;-</span> <span class="va">adeno_species_counts</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>name_display <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/ifelse.html">ifelse</a></span><span class="op">(</span><span class="va">name</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">adeno_species_major_tab</span><span class="op">$</span><span class="va">name</span>, </span>
+<span>                               <span class="va">name</span>, <span class="st">"Other"</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span>, <span class="va">name_display</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>n_reads_adeno <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_hv</span><span class="op">)</span>,</span>
+<span>            p_reads_adeno <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">p_reads_adeno</span><span class="op">)</span>, </span>
+<span>            .groups<span class="op">=</span><span class="st">"drop"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>name_display <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/factor.html">factor</a></span><span class="op">(</span><span class="va">name_display</span>, </span>
+<span>                               levels <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="va">adeno_species_major_tab</span><span class="op">$</span><span class="va">name</span>, <span class="st">"Other"</span><span class="op">)</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">adeno_species_counts_display</span> <span class="op">&lt;-</span> <span class="va">adeno_species_counts_major</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">rename</span><span class="op">(</span>p_reads <span class="op">=</span> <span class="va">p_reads_adeno</span>, classification <span class="op">=</span> <span class="va">name_display</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Plot</span></span>
+<span><span class="va">g_adeno_species</span> <span class="op">&lt;-</span> <span class="va">g_comp_base</span> <span class="op">+</span> </span>
+<span>  <span class="fu">geom_col</span><span class="op">(</span>data<span class="op">=</span><span class="va">adeno_species_counts_display</span>, position <span class="op">=</span> <span class="st">"stack"</span>, width<span class="op">=</span><span class="fl">1</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"% Adenoviridae Reads"</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">1.01</span><span class="op">)</span>, </span>
+<span>                     breaks <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/seq.html">seq</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">1</span>,<span class="fl">0.2</span><span class="op">)</span>,</span>
+<span>                     expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span>, labels <span class="op">=</span> <span class="kw">function</span><span class="op">(</span><span class="va">y</span><span class="op">)</span> <span class="va">y</span><span class="op">*</span><span class="fl">100</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_fill_manual</span><span class="op">(</span>values<span class="op">=</span><span class="va">palette_viral</span>, name <span class="op">=</span> <span class="st">"Viral species"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">labs</span><span class="op">(</span>title<span class="op">=</span><span class="st">"Species composition of Adenoviridae reads"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">guides</span><span class="op">(</span>fill<span class="op">=</span><span class="fu">guide_legend</span><span class="op">(</span>ncol<span class="op">=</span><span class="fl">3</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">theme</span><span class="op">(</span>plot.title <span class="op">=</span> <span class="fu">element_text</span><span class="op">(</span>size<span class="op">=</span><span class="fu">rel</span><span class="op">(</span><span class="fl">1.4</span><span class="op">)</span>, hjust<span class="op">=</span><span class="fl">0</span>, face<span class="op">=</span><span class="st">"plain"</span><span class="op">)</span><span class="op">)</span></span>
+<span></span>
+<span><span class="va">g_adeno_species</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/hv-species-adeno-1.png" class="img-fluid figure-img" width="672"></p>
+</figure>
+</div>
+</div>
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb34"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Get most prominent species for text</span></span>
+<span><span class="va">adeno_species_collate</span> <span class="op">&lt;-</span> <span class="va">adeno_species_counts</span> <span class="op">%&gt;%</span> <span class="fu">group_by</span><span class="op">(</span><span class="va">name</span>, <span class="va">taxid</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>n_reads_tot <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_hv</span><span class="op">)</span>, p_reads_mean <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/mean.html">mean</a></span><span class="op">(</span><span class="va">p_reads_adeno</span><span class="op">)</span>, .groups<span class="op">=</span><span class="st">"drop"</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">arrange</span><span class="op">(</span><span class="fu">desc</span><span class="op">(</span><span class="va">n_reads_tot</span><span class="op">)</span><span class="op">)</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details>
+</div>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb35"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="va">threshold_major_species</span> <span class="op">&lt;-</span> <span class="fl">0.1</span></span>
+<span><span class="va">taxid_polyoma</span> <span class="op">&lt;-</span> <span class="fl">151341</span></span>
+<span></span>
+<span><span class="co"># Get set of polyomaviridae reads</span></span>
+<span><span class="va">polyoma_samples</span> <span class="op">&lt;-</span> <span class="va">hv_family_counts</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">taxid</span> <span class="op">==</span> <span class="va">taxid_polyoma</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">p_reads_hv</span> <span class="op">&gt;=</span> <span class="fl">0.1</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">pull</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span></span>
+<span><span class="va">polyoma_ids</span> <span class="op">&lt;-</span> <span class="va">hv_reads_family</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">taxid</span> <span class="op">==</span> <span class="va">taxid_polyoma</span>, <span class="va">sample</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">polyoma_samples</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">pull</span><span class="op">(</span><span class="va">seq_id</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Count reads for each polyomaviridae species</span></span>
+<span><span class="va">polyoma_species_counts</span> <span class="op">&lt;-</span> <span class="va">hv_reads_species</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">seq_id</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">polyoma_ids</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span>, <span class="va">name</span>, <span class="va">taxid</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">count</span><span class="op">(</span>name <span class="op">=</span> <span class="st">"n_reads_hv"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>p_reads_polyoma <span class="op">=</span> <span class="va">n_reads_hv</span><span class="op">/</span><span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_hv</span><span class="op">)</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Identify high-ranking families and group others</span></span>
+<span><span class="va">polyoma_species_major_tab</span> <span class="op">&lt;-</span> <span class="va">polyoma_species_counts</span> <span class="op">%&gt;%</span> <span class="fu">group_by</span><span class="op">(</span><span class="va">name</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">p_reads_polyoma</span> <span class="op">==</span> <span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">max</a></span><span class="op">(</span><span class="va">p_reads_polyoma</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="fu">row_number</span><span class="op">(</span><span class="op">)</span> <span class="op">==</span> <span class="fl">1</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">arrange</span><span class="op">(</span><span class="fu">desc</span><span class="op">(</span><span class="va">p_reads_polyoma</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">p_reads_polyoma</span> <span class="op">&gt;</span> <span class="va">threshold_major_species</span><span class="op">)</span></span>
+<span><span class="va">polyoma_species_counts_major</span> <span class="op">&lt;-</span> <span class="va">polyoma_species_counts</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>name_display <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/ifelse.html">ifelse</a></span><span class="op">(</span><span class="va">name</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">polyoma_species_major_tab</span><span class="op">$</span><span class="va">name</span>, </span>
+<span>                               <span class="va">name</span>, <span class="st">"Other"</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span>, <span class="va">name_display</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>n_reads_polyoma <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_hv</span><span class="op">)</span>,</span>
+<span>            p_reads_polyoma <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">p_reads_polyoma</span><span class="op">)</span>, </span>
+<span>            .groups<span class="op">=</span><span class="st">"drop"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>name_display <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/factor.html">factor</a></span><span class="op">(</span><span class="va">name_display</span>, </span>
+<span>                               levels <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="va">polyoma_species_major_tab</span><span class="op">$</span><span class="va">name</span>, <span class="st">"Other"</span><span class="op">)</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">polyoma_species_counts_display</span> <span class="op">&lt;-</span> <span class="va">polyoma_species_counts_major</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">rename</span><span class="op">(</span>p_reads <span class="op">=</span> <span class="va">p_reads_polyoma</span>, classification <span class="op">=</span> <span class="va">name_display</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Plot</span></span>
+<span><span class="va">g_polyoma_species</span> <span class="op">&lt;-</span> <span class="va">g_comp_base</span> <span class="op">+</span> </span>
+<span>  <span class="fu">geom_col</span><span class="op">(</span>data<span class="op">=</span><span class="va">polyoma_species_counts_display</span>, position <span class="op">=</span> <span class="st">"stack"</span>, width<span class="op">=</span><span class="fl">1</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"% Polyomaviridae Reads"</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">1.01</span><span class="op">)</span>, </span>
+<span>                     breaks <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/seq.html">seq</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">1</span>,<span class="fl">0.2</span><span class="op">)</span>,</span>
+<span>                     expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span>, labels <span class="op">=</span> <span class="kw">function</span><span class="op">(</span><span class="va">y</span><span class="op">)</span> <span class="va">y</span><span class="op">*</span><span class="fl">100</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_fill_manual</span><span class="op">(</span>values<span class="op">=</span><span class="va">palette_viral</span>, name <span class="op">=</span> <span class="st">"Viral species"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">labs</span><span class="op">(</span>title<span class="op">=</span><span class="st">"Species composition of Polyomaviridae reads"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">guides</span><span class="op">(</span>fill<span class="op">=</span><span class="fu">guide_legend</span><span class="op">(</span>ncol<span class="op">=</span><span class="fl">3</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">theme</span><span class="op">(</span>plot.title <span class="op">=</span> <span class="fu">element_text</span><span class="op">(</span>size<span class="op">=</span><span class="fu">rel</span><span class="op">(</span><span class="fl">1.4</span><span class="op">)</span>, hjust<span class="op">=</span><span class="fl">0</span>, face<span class="op">=</span><span class="st">"plain"</span><span class="op">)</span><span class="op">)</span></span>
+<span></span>
+<span><span class="va">g_polyoma_species</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/hv-species-polyoma-1.png" class="img-fluid figure-img" width="672"></p>
+</figure>
+</div>
+</div>
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb36"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Get most prominent species for text</span></span>
+<span><span class="va">polyoma_species_collate</span> <span class="op">&lt;-</span> <span class="va">polyoma_species_counts</span> <span class="op">%&gt;%</span> <span class="fu">group_by</span><span class="op">(</span><span class="va">name</span>, <span class="va">taxid</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>n_reads_tot <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_hv</span><span class="op">)</span>, p_reads_mean <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/mean.html">mean</a></span><span class="op">(</span><span class="va">p_reads_polyoma</span><span class="op">)</span>, .groups<span class="op">=</span><span class="st">"drop"</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">arrange</span><span class="op">(</span><span class="fu">desc</span><span class="op">(</span><span class="va">n_reads_tot</span><span class="op">)</span><span class="op">)</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details>
+</div>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb37"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="va">threshold_major_species</span> <span class="op">&lt;-</span> <span class="fl">0.1</span></span>
+<span><span class="va">taxid_papilloma</span> <span class="op">&lt;-</span> <span class="fl">151340</span></span>
+<span></span>
+<span><span class="co"># Get set of papillomaviridae reads</span></span>
+<span><span class="va">papilloma_samples</span> <span class="op">&lt;-</span> <span class="va">hv_family_counts</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">taxid</span> <span class="op">==</span> <span class="va">taxid_papilloma</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">p_reads_hv</span> <span class="op">&gt;=</span> <span class="fl">0.1</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">pull</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span></span>
+<span><span class="va">papilloma_ids</span> <span class="op">&lt;-</span> <span class="va">hv_reads_family</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">taxid</span> <span class="op">==</span> <span class="va">taxid_papilloma</span>, <span class="va">sample</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">papilloma_samples</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">pull</span><span class="op">(</span><span class="va">seq_id</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Count reads for each papillomaviridae species</span></span>
+<span><span class="va">papilloma_species_counts</span> <span class="op">&lt;-</span> <span class="va">hv_reads_species</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">seq_id</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">papilloma_ids</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span>, <span class="va">name</span>, <span class="va">taxid</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">count</span><span class="op">(</span>name <span class="op">=</span> <span class="st">"n_reads_hv"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>p_reads_papilloma <span class="op">=</span> <span class="va">n_reads_hv</span><span class="op">/</span><span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_hv</span><span class="op">)</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Identify high-ranking families and group others</span></span>
+<span><span class="va">papilloma_species_major_tab</span> <span class="op">&lt;-</span> <span class="va">papilloma_species_counts</span> <span class="op">%&gt;%</span> <span class="fu">group_by</span><span class="op">(</span><span class="va">name</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">p_reads_papilloma</span> <span class="op">==</span> <span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">max</a></span><span class="op">(</span><span class="va">p_reads_papilloma</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="fu">row_number</span><span class="op">(</span><span class="op">)</span> <span class="op">==</span> <span class="fl">1</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">arrange</span><span class="op">(</span><span class="fu">desc</span><span class="op">(</span><span class="va">p_reads_papilloma</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">p_reads_papilloma</span> <span class="op">&gt;</span> <span class="va">threshold_major_species</span><span class="op">)</span></span>
+<span><span class="va">papilloma_species_counts_major</span> <span class="op">&lt;-</span> <span class="va">papilloma_species_counts</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>name_display <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/ifelse.html">ifelse</a></span><span class="op">(</span><span class="va">name</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">papilloma_species_major_tab</span><span class="op">$</span><span class="va">name</span>, </span>
+<span>                               <span class="va">name</span>, <span class="st">"Other"</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span>, <span class="va">name_display</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>n_reads_papilloma <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_hv</span><span class="op">)</span>,</span>
+<span>            p_reads_papilloma <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">p_reads_papilloma</span><span class="op">)</span>, </span>
+<span>            .groups<span class="op">=</span><span class="st">"drop"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>name_display <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/factor.html">factor</a></span><span class="op">(</span><span class="va">name_display</span>, </span>
+<span>                               levels <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="va">papilloma_species_major_tab</span><span class="op">$</span><span class="va">name</span>, <span class="st">"Other"</span><span class="op">)</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">papilloma_species_counts_display</span> <span class="op">&lt;-</span> <span class="va">papilloma_species_counts_major</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">rename</span><span class="op">(</span>p_reads <span class="op">=</span> <span class="va">p_reads_papilloma</span>, classification <span class="op">=</span> <span class="va">name_display</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Plot</span></span>
+<span><span class="va">g_papilloma_species</span> <span class="op">&lt;-</span> <span class="va">g_comp_base</span> <span class="op">+</span> </span>
+<span>  <span class="fu">geom_col</span><span class="op">(</span>data<span class="op">=</span><span class="va">papilloma_species_counts_display</span>, position <span class="op">=</span> <span class="st">"stack"</span>, width<span class="op">=</span><span class="fl">1</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"% Papillomaviridae Reads"</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">1.01</span><span class="op">)</span>, </span>
+<span>                     breaks <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/seq.html">seq</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">1</span>,<span class="fl">0.2</span><span class="op">)</span>,</span>
+<span>                     expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span>, labels <span class="op">=</span> <span class="kw">function</span><span class="op">(</span><span class="va">y</span><span class="op">)</span> <span class="va">y</span><span class="op">*</span><span class="fl">100</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_fill_manual</span><span class="op">(</span>values<span class="op">=</span><span class="va">palette_viral</span>, name <span class="op">=</span> <span class="st">"Viral species"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">labs</span><span class="op">(</span>title<span class="op">=</span><span class="st">"Species composition of Papillomaviridae reads"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">guides</span><span class="op">(</span>fill<span class="op">=</span><span class="fu">guide_legend</span><span class="op">(</span>ncol<span class="op">=</span><span class="fl">3</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">theme</span><span class="op">(</span>plot.title <span class="op">=</span> <span class="fu">element_text</span><span class="op">(</span>size<span class="op">=</span><span class="fu">rel</span><span class="op">(</span><span class="fl">1.4</span><span class="op">)</span>, hjust<span class="op">=</span><span class="fl">0</span>, face<span class="op">=</span><span class="st">"plain"</span><span class="op">)</span><span class="op">)</span></span>
+<span></span>
+<span><span class="va">g_papilloma_species</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/hv-species-papilloma-1.png" class="img-fluid figure-img" width="672"></p>
+</figure>
+</div>
+</div>
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb38"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Get most prominent species for text</span></span>
+<span><span class="va">papilloma_species_collate</span> <span class="op">&lt;-</span> <span class="va">papilloma_species_counts</span> <span class="op">%&gt;%</span> <span class="fu">group_by</span><span class="op">(</span><span class="va">name</span>, <span class="va">taxid</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>n_reads_tot <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_hv</span><span class="op">)</span>, p_reads_mean <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/mean.html">mean</a></span><span class="op">(</span><span class="va">p_reads_papilloma</span><span class="op">)</span>, .groups<span class="op">=</span><span class="st">"drop"</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">arrange</span><span class="op">(</span><span class="fu">desc</span><span class="op">(</span><span class="va">n_reads_tot</span><span class="op">)</span><span class="op">)</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details>
+</div>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb39"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="va">threshold_major_species</span> <span class="op">&lt;-</span> <span class="fl">0.1</span></span>
+<span><span class="va">taxid_herpes</span> <span class="op">&lt;-</span> <span class="fl">10292</span></span>
+<span></span>
+<span><span class="co"># Get set of herpesviridae reads</span></span>
+<span><span class="va">herpes_samples</span> <span class="op">&lt;-</span> <span class="va">hv_family_counts</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">taxid</span> <span class="op">==</span> <span class="va">taxid_herpes</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">p_reads_hv</span> <span class="op">&gt;=</span> <span class="fl">0.1</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">pull</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span></span>
+<span><span class="va">herpes_ids</span> <span class="op">&lt;-</span> <span class="va">hv_reads_family</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">taxid</span> <span class="op">==</span> <span class="va">taxid_herpes</span>, <span class="va">sample</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">herpes_samples</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">pull</span><span class="op">(</span><span class="va">seq_id</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Count reads for each herpesviridae species</span></span>
+<span><span class="va">herpes_species_counts</span> <span class="op">&lt;-</span> <span class="va">hv_reads_species</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">seq_id</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">herpes_ids</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span>, <span class="va">name</span>, <span class="va">taxid</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">count</span><span class="op">(</span>name <span class="op">=</span> <span class="st">"n_reads_hv"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>p_reads_herpes <span class="op">=</span> <span class="va">n_reads_hv</span><span class="op">/</span><span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_hv</span><span class="op">)</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Identify high-ranking families and group others</span></span>
+<span><span class="va">herpes_species_major_tab</span> <span class="op">&lt;-</span> <span class="va">herpes_species_counts</span> <span class="op">%&gt;%</span> <span class="fu">group_by</span><span class="op">(</span><span class="va">name</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">p_reads_herpes</span> <span class="op">==</span> <span class="fu"><a href="https://rdrr.io/r/base/Extremes.html">max</a></span><span class="op">(</span><span class="va">p_reads_herpes</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="fu">row_number</span><span class="op">(</span><span class="op">)</span> <span class="op">==</span> <span class="fl">1</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">arrange</span><span class="op">(</span><span class="fu">desc</span><span class="op">(</span><span class="va">p_reads_herpes</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">p_reads_herpes</span> <span class="op">&gt;</span> <span class="va">threshold_major_species</span><span class="op">)</span></span>
+<span><span class="va">herpes_species_counts_major</span> <span class="op">&lt;-</span> <span class="va">herpes_species_counts</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>name_display <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/ifelse.html">ifelse</a></span><span class="op">(</span><span class="va">name</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">herpes_species_major_tab</span><span class="op">$</span><span class="va">name</span>, </span>
+<span>                               <span class="va">name</span>, <span class="st">"Other"</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span>, <span class="va">name_display</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>n_reads_herpes <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_hv</span><span class="op">)</span>,</span>
+<span>            p_reads_herpes <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">p_reads_herpes</span><span class="op">)</span>, </span>
+<span>            .groups<span class="op">=</span><span class="st">"drop"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>name_display <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/factor.html">factor</a></span><span class="op">(</span><span class="va">name_display</span>, </span>
+<span>                               levels <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="va">herpes_species_major_tab</span><span class="op">$</span><span class="va">name</span>, <span class="st">"Other"</span><span class="op">)</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">herpes_species_counts_display</span> <span class="op">&lt;-</span> <span class="va">herpes_species_counts_major</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">rename</span><span class="op">(</span>p_reads <span class="op">=</span> <span class="va">p_reads_herpes</span>, classification <span class="op">=</span> <span class="va">name_display</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Plot</span></span>
+<span><span class="va">g_herpes_species</span> <span class="op">&lt;-</span> <span class="va">g_comp_base</span> <span class="op">+</span> </span>
+<span>  <span class="fu">geom_col</span><span class="op">(</span>data<span class="op">=</span><span class="va">herpes_species_counts_display</span>, position <span class="op">=</span> <span class="st">"stack"</span>, width<span class="op">=</span><span class="fl">1</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_y_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"% Herpesviridae Reads"</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">1.01</span><span class="op">)</span>, </span>
+<span>                     breaks <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/seq.html">seq</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">1</span>,<span class="fl">0.2</span><span class="op">)</span>,</span>
+<span>                     expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span>, labels <span class="op">=</span> <span class="kw">function</span><span class="op">(</span><span class="va">y</span><span class="op">)</span> <span class="va">y</span><span class="op">*</span><span class="fl">100</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_fill_manual</span><span class="op">(</span>values<span class="op">=</span><span class="va">palette_viral</span>, name <span class="op">=</span> <span class="st">"Viral species"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">labs</span><span class="op">(</span>title<span class="op">=</span><span class="st">"Species composition of Herpesviridae reads"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">guides</span><span class="op">(</span>fill<span class="op">=</span><span class="fu">guide_legend</span><span class="op">(</span>ncol<span class="op">=</span><span class="fl">3</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">theme</span><span class="op">(</span>plot.title <span class="op">=</span> <span class="fu">element_text</span><span class="op">(</span>size<span class="op">=</span><span class="fu">rel</span><span class="op">(</span><span class="fl">1.4</span><span class="op">)</span>, hjust<span class="op">=</span><span class="fl">0</span>, face<span class="op">=</span><span class="st">"plain"</span><span class="op">)</span><span class="op">)</span></span>
+<span></span>
+<span><span class="va">g_herpes_species</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/hv-species-herpes-1.png" class="img-fluid figure-img" width="672"></p>
+</figure>
+</div>
+</div>
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb40"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Get most prominent species for text</span></span>
+<span><span class="va">herpes_species_collate</span> <span class="op">&lt;-</span> <span class="va">herpes_species_counts</span> <span class="op">%&gt;%</span> <span class="fu">group_by</span><span class="op">(</span><span class="va">name</span>, <span class="va">taxid</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>n_reads_tot <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_hv</span><span class="op">)</span>, p_reads_mean <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/mean.html">mean</a></span><span class="op">(</span><span class="va">p_reads_herpes</span><span class="op">)</span>, .groups<span class="op">=</span><span class="st">"drop"</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">arrange</span><span class="op">(</span><span class="fu">desc</span><span class="op">(</span><span class="va">n_reads_tot</span><span class="op">)</span><span class="op">)</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details>
+</div>
+<p>I was a bit suspicious of this last result, given that it only occurred in one sample, but according to BLASTN, at least, these human gammaherpesvirus 4 (a.k.a. EBV) matches are real:</p>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb41"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Configure</span></span>
+<span><span class="va">ref_taxids_hv</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">10376</span><span class="op">)</span></span>
+<span><span class="va">ref_names_hv</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/lapply.html">sapply</a></span><span class="op">(</span><span class="va">ref_taxids_hv</span>, <span class="kw">function</span><span class="op">(</span><span class="va">x</span><span class="op">)</span> <span class="va">viral_taxa</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">taxid</span> <span class="op">==</span> <span class="va">x</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="fu">pull</span><span class="op">(</span><span class="va">name</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="va">first</span><span class="op">)</span></span>
+<span><span class="va">p_threshold</span> <span class="op">&lt;-</span> <span class="fl">0.1</span></span>
+<span></span>
+<span><span class="co"># Get taxon names</span></span>
+<span><span class="va">tax_names_path</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/file.path.html">file.path</a></span><span class="op">(</span><span class="va">data_dir</span>, <span class="st">"taxid-names.tsv.gz"</span><span class="op">)</span></span>
+<span><span class="va">tax_names</span> <span class="op">&lt;-</span> <span class="fu">read_tsv</span><span class="op">(</span><span class="va">tax_names_path</span>, show_col_types <span class="op">=</span> <span class="cn">FALSE</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Add missing names</span></span>
+<span><span class="va">tax_names_new</span> <span class="op">&lt;-</span> <span class="fu">tribble</span><span class="op">(</span><span class="op">~</span><span class="va">staxid</span>, <span class="op">~</span><span class="va">name</span>,</span>
+<span>                         <span class="fl">3050295</span>, <span class="st">"Cytomegalovirus humanbeta5"</span>,</span>
+<span>                         <span class="fl">459231</span>, <span class="st">"FLAG-tagging vector pFLAG97-TSR"</span>,</span>
+<span>                         <span class="fl">257877</span>, <span class="st">"Macaca thibetana thibetana"</span>,</span>
+<span>                         <span class="fl">256321</span>, <span class="st">"Lentiviral transfer vector pHsCXW"</span>,</span>
+<span>                         <span class="fl">419242</span>, <span class="st">"Shuttle vector pLvCmvMYOCDHA"</span>,</span>
+<span>                         <span class="fl">419243</span>, <span class="st">"Shuttle vector pLvCmvLacZ"</span>,</span>
+<span>                         <span class="fl">421868</span>, <span class="st">"Cloning vector pLvCmvLacZ.Gfp"</span>,</span>
+<span>                         <span class="fl">421869</span>, <span class="st">"Cloning vector pLvCmvMyocardin.Gfp"</span>,</span>
+<span>                         <span class="fl">426303</span>, <span class="st">"Lentiviral vector pNL-GFP-RRE(SA)"</span>,</span>
+<span>                         <span class="fl">436015</span>, <span class="st">"Lentiviral transfer vector pFTMGW"</span>,</span>
+<span>                         <span class="fl">454257</span>, <span class="st">"Shuttle vector pLvCmvMYOCD2aHA"</span>,</span>
+<span>                         <span class="fl">476184</span>, <span class="st">"Shuttle vector pLV.mMyoD::ERT2.eGFP"</span>,</span>
+<span>                         <span class="fl">476185</span>, <span class="st">"Shuttle vector pLV.hMyoD.eGFP"</span>,</span>
+<span>                         <span class="fl">591936</span>, <span class="st">"Piliocolobus tephrosceles"</span>,</span>
+<span>                         <span class="fl">627481</span>, <span class="st">"Lentiviral transfer vector pFTM3GW"</span>,</span>
+<span>                         <span class="fl">680261</span>, <span class="st">"Self-inactivating lentivirus vector pLV.C-EF1a.cyt-bGal.dCpG"</span>,</span>
+<span>                         <span class="fl">2952778</span>, <span class="st">"Expression vector pLV[Exp]-EGFP:T2A:Puro-EF1A"</span>,</span>
+<span>                         <span class="fl">3022699</span>, <span class="st">"Vector PAS_122122"</span>,</span>
+<span>                         <span class="fl">3025913</span>, <span class="st">"Vector pSIN-WP-mPGK-GDNF"</span>,</span>
+<span>                         <span class="fl">3105863</span>, <span class="st">"Vector pLKO.1-ZsGreen1"</span>,</span>
+<span>                         <span class="fl">3105864</span>, <span class="st">"Vector pLKO.1-ZsGreen1 mouse Wfs1 shRNA"</span>,</span>
+<span>                         <span class="fl">3108001</span>, <span class="st">"Cloning vector pLVSIN-CMV_Neo_v4.0"</span>,</span>
+<span>                         <span class="fl">3109234</span>, <span class="st">"Vector pTwist+Kan+High"</span>,</span>
+<span>                         <span class="fl">3117662</span>, <span class="st">"Cloning vector pLV[Exp]-CBA&gt;P301L"</span>,</span>
+<span>                         <span class="fl">3117663</span>, <span class="st">"Cloning vector pLV[Exp]-CBA&gt;P301L:T2A:mRuby3"</span>,</span>
+<span>                         <span class="fl">3117664</span>, <span class="st">"Cloning vector pLV[Exp]-CBA&gt;hMAPT[NM_005910.6](ns):T2A:mRuby3"</span>,</span>
+<span>                         <span class="fl">3117665</span>, <span class="st">"Cloning vector pLV[Exp]-CBA&gt;mRuby3"</span>,</span>
+<span>                         <span class="fl">3117666</span>, <span class="st">"Cloning vector pLV[Exp]-CBA&gt;mRuby3/NFAT3 fusion protein"</span>,</span>
+<span>                         <span class="fl">3117667</span>, <span class="st">"Cloning vector pLV[Exp]-Neo-mPGK&gt;{EGFP-hSEPT6}"</span>,</span>
+<span>                         <span class="fl">438045</span>, <span class="st">"Xenotropic MuLV-related virus"</span>,</span>
+<span>                         <span class="fl">447135</span>, <span class="st">"Myodes glareolus"</span>,</span>
+<span>                         <span class="fl">590745</span>, <span class="st">"Mus musculus mobilized endogenous polytropic provirus"</span>,</span>
+<span>                         <span class="fl">181858</span>, <span class="st">"Murine AIDS virus-related provirus"</span>,</span>
+<span>                         <span class="fl">356663</span>, <span class="st">"Xenotropic MuLV-related virus VP35"</span>,</span>
+<span>                         <span class="fl">356664</span>, <span class="st">"Xenotropic MuLV-related virus VP42"</span>,</span>
+<span>                         <span class="fl">373193</span>, <span class="st">"Xenotropic MuLV-related virus VP62"</span>,</span>
+<span>                         <span class="fl">286419</span>, <span class="st">"Canis lupus dingo"</span>,</span>
+<span>                         <span class="fl">415978</span>, <span class="st">"Sus scrofa scrofa"</span>,</span>
+<span>                         <span class="fl">494514</span>, <span class="st">"Vulpes lagopus"</span>,</span>
+<span>                         <span class="fl">3082113</span>, <span class="st">"Rangifer tarandus platyrhynchus"</span>,</span>
+<span>                         <span class="fl">3119969</span>, <span class="st">"Bubalus kerabau"</span><span class="op">)</span></span>
+<span><span class="va">tax_names</span> <span class="op">&lt;-</span> <span class="fu">bind_rows</span><span class="op">(</span><span class="va">tax_names</span>, <span class="va">tax_names_new</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Get matches</span></span>
+<span><span class="va">hv_blast_staxids</span> <span class="op">&lt;-</span> <span class="va">hv_reads_species</span> <span class="op">%&gt;%</span> <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">taxid</span> <span class="op"><a href="https://rdrr.io/r/base/match.html">%in%</a></span> <span class="va">ref_taxids_hv</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">taxid</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="fu">mutate</span><span class="op">(</span>n_seq <span class="op">=</span> <span class="fu">n</span><span class="op">(</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">left_join</span><span class="op">(</span><span class="va">blast_paired</span>, by<span class="op">=</span><span class="st">"seq_id"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>staxid <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/integer.html">as.integer</a></span><span class="op">(</span><span class="va">staxid</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">left_join</span><span class="op">(</span><span class="va">tax_names</span> <span class="op">%&gt;%</span> <span class="fu">rename</span><span class="op">(</span>sname<span class="op">=</span><span class="va">name</span><span class="op">)</span>, by<span class="op">=</span><span class="st">"staxid"</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Count matches</span></span>
+<span><span class="va">hv_blast_counts</span> <span class="op">&lt;-</span> <span class="va">hv_blast_staxids</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">taxid</span>, <span class="va">name</span>, <span class="va">staxid</span>, <span class="va">sname</span>, <span class="va">n_seq</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="va">count</span> <span class="op">%&gt;%</span> <span class="fu">mutate</span><span class="op">(</span>p<span class="op">=</span><span class="va">n</span><span class="op">/</span><span class="va">n_seq</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Subset to major matches</span></span>
+<span><span class="va">hv_blast_counts_major</span> <span class="op">&lt;-</span> <span class="va">hv_blast_counts</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="va">n</span><span class="op">&gt;</span><span class="fl">1</span>, <span class="va">p</span><span class="op">&gt;</span><span class="va">p_threshold</span>, <span class="op">!</span><span class="fu"><a href="https://rdrr.io/r/base/NA.html">is.na</a></span><span class="op">(</span><span class="va">staxid</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">arrange</span><span class="op">(</span><span class="fu">desc</span><span class="op">(</span><span class="va">p</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span> <span class="fu">group_by</span><span class="op">(</span><span class="va">taxid</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu"><a href="https://rdrr.io/r/stats/filter.html">filter</a></span><span class="op">(</span><span class="fu">row_number</span><span class="op">(</span><span class="op">)</span> <span class="op">&lt;=</span> <span class="fl">25</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>name_display <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/ifelse.html">ifelse</a></span><span class="op">(</span><span class="va">name</span> <span class="op">==</span> <span class="va">ref_names_hv</span><span class="op">[</span><span class="fl">1</span><span class="op">]</span>, <span class="st">"EBV"</span>, <span class="va">name</span><span class="op">)</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Plot</span></span>
+<span><span class="va">g_hv_blast</span> <span class="op">&lt;-</span> <span class="fu">ggplot</span><span class="op">(</span><span class="va">hv_blast_counts_major</span>, mapping<span class="op">=</span><span class="fu">aes</span><span class="op">(</span>x<span class="op">=</span><span class="va">p</span>, y<span class="op">=</span><span class="va">sname</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_col</span><span class="op">(</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">facet_grid</span><span class="op">(</span><span class="va">name_display</span><span class="op">~</span><span class="va">.</span>, scales<span class="op">=</span><span class="st">"free_y"</span>, space<span class="op">=</span><span class="st">"free_y"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_x_continuous</span><span class="op">(</span>name<span class="op">=</span><span class="st">"% mapped reads"</span>, limits<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">1</span><span class="op">)</span>, </span>
+<span>                     breaks<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/seq.html">seq</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">1</span>,<span class="fl">0.2</span><span class="op">)</span>, expand<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="fl">0</span>,<span class="fl">0</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="va">theme_base</span> <span class="op">+</span> <span class="fu">theme</span><span class="op">(</span>axis.title.y <span class="op">=</span> <span class="fu">element_blank</span><span class="op">(</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">g_hv_blast</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/hv-blast-hits-1.png" class="img-fluid figure-img" width="576"></p>
+</figure>
+</div>
+</div>
+</div>
+<p>Finally, here again are the overall relative abundances of the specific viral genera I picked out manually in my last entry:</p>
+<div class="cell">
+<details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb42"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Define reference genera</span></span>
+<span><span class="va">path_genera_rna</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="st">"Mamastrovirus"</span>, <span class="st">"Enterovirus"</span>, <span class="st">"Salivirus"</span>, <span class="st">"Kobuvirus"</span>, <span class="st">"Norovirus"</span>, <span class="st">"Sapovirus"</span>, <span class="st">"Rotavirus"</span>, <span class="st">"Alphacoronavirus"</span>, <span class="st">"Betacoronavirus"</span>, <span class="st">"Alphainfluenzavirus"</span>, <span class="st">"Betainfluenzavirus"</span>, <span class="st">"Lentivirus"</span><span class="op">)</span></span>
+<span><span class="va">path_genera_dna</span> <span class="op">&lt;-</span> <span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="st">"Mastadenovirus"</span>, <span class="st">"Alphapolyomavirus"</span>, <span class="st">"Betapolyomavirus"</span>, <span class="st">"Alphapapillomavirus"</span>, <span class="st">"Betapapillomavirus"</span>, <span class="st">"Gammapapillomavirus"</span>, <span class="st">"Orthopoxvirus"</span>, <span class="st">"Simplexvirus"</span>,</span>
+<span>                     <span class="st">"Lymphocryptovirus"</span>, <span class="st">"Cytomegalovirus"</span>, <span class="st">"Dependoparvovirus"</span><span class="op">)</span></span>
+<span><span class="va">path_genera</span> <span class="op">&lt;-</span> <span class="fu">bind_rows</span><span class="op">(</span><span class="fu">tibble</span><span class="op">(</span>name<span class="op">=</span><span class="va">path_genera_rna</span>, genome_type<span class="op">=</span><span class="st">"RNA genome"</span><span class="op">)</span>,</span>
+<span>                         <span class="fu">tibble</span><span class="op">(</span>name<span class="op">=</span><span class="va">path_genera_dna</span>, genome_type<span class="op">=</span><span class="st">"DNA genome"</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">left_join</span><span class="op">(</span><span class="va">viral_taxa</span>, by<span class="op">=</span><span class="st">"name"</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Count in each sample</span></span>
+<span><span class="va">mrg_hv_named_all</span> <span class="op">&lt;-</span> <span class="va">mrg_hv</span> <span class="op">%&gt;%</span> <span class="fu">left_join</span><span class="op">(</span><span class="va">viral_taxa</span>, by<span class="op">=</span><span class="st">"taxid"</span><span class="op">)</span></span>
+<span><span class="va">hv_reads_genus_all</span> <span class="op">&lt;-</span> <span class="fu">raise_rank</span><span class="op">(</span><span class="va">mrg_hv_named_all</span>, <span class="va">viral_taxa</span>, <span class="st">"genus"</span><span class="op">)</span></span>
+<span><span class="va">n_path_genera</span> <span class="op">&lt;-</span> <span class="va">hv_reads_genus_all</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">sample</span>, <span class="va">name</span>, <span class="va">taxid</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">count</span><span class="op">(</span>name<span class="op">=</span><span class="st">"n_reads_viral"</span><span class="op">)</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">inner_join</span><span class="op">(</span><span class="va">path_genera</span>, by<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="st">"name"</span>, <span class="st">"taxid"</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">left_join</span><span class="op">(</span><span class="va">read_counts_raw</span>, by<span class="op">=</span><span class="fu"><a href="https://rdrr.io/r/base/c.html">c</a></span><span class="op">(</span><span class="st">"sample"</span><span class="op">)</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>p_reads_viral <span class="op">=</span> <span class="va">n_reads_viral</span><span class="op">/</span><span class="va">n_reads_raw</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Pivot out and back to add zero lines</span></span>
+<span><span class="va">n_path_genera_out</span> <span class="op">&lt;-</span> <span class="va">n_path_genera</span> <span class="op">%&gt;%</span> <span class="va">ungroup</span> <span class="op">%&gt;%</span> <span class="fu">select</span><span class="op">(</span><span class="va">sample</span>, <span class="va">name</span>, <span class="va">n_reads_viral</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">pivot_wider</span><span class="op">(</span>names_from<span class="op">=</span><span class="st">"name"</span>, values_from<span class="op">=</span><span class="st">"n_reads_viral"</span>, values_fill<span class="op">=</span><span class="fl">0</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">pivot_longer</span><span class="op">(</span><span class="op">-</span><span class="va">sample</span>, names_to<span class="op">=</span><span class="st">"name"</span>, values_to<span class="op">=</span><span class="st">"n_reads_viral"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">left_join</span><span class="op">(</span><span class="va">read_counts_raw</span>, by<span class="op">=</span><span class="st">"sample"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">left_join</span><span class="op">(</span><span class="va">path_genera</span>, by<span class="op">=</span><span class="st">"name"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>p_reads_viral <span class="op">=</span> <span class="va">n_reads_viral</span><span class="op">/</span><span class="va">n_reads_raw</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co">## Aggregate across dates</span></span>
+<span><span class="va">n_path_genera_stype</span> <span class="op">&lt;-</span> <span class="va">n_path_genera_out</span> <span class="op">%&gt;%</span> </span>
+<span>  <span class="fu">group_by</span><span class="op">(</span><span class="va">name</span>, <span class="va">taxid</span>, <span class="va">genome_type</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">summarize</span><span class="op">(</span>n_reads_raw <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_raw</span><span class="op">)</span>,</span>
+<span>            n_reads_viral <span class="op">=</span> <span class="fu"><a href="https://rdrr.io/r/base/sum.html">sum</a></span><span class="op">(</span><span class="va">n_reads_viral</span><span class="op">)</span>, .groups <span class="op">=</span> <span class="st">"drop"</span><span class="op">)</span> <span class="op">%&gt;%</span></span>
+<span>  <span class="fu">mutate</span><span class="op">(</span>sample<span class="op">=</span><span class="st">"All samples"</span>, location<span class="op">=</span><span class="st">"All locations"</span>,</span>
+<span>         p_reads_viral <span class="op">=</span> <span class="va">n_reads_viral</span><span class="op">/</span><span class="va">n_reads_raw</span>,</span>
+<span>         na_type <span class="op">=</span> <span class="st">"DNA"</span><span class="op">)</span></span>
+<span></span>
+<span><span class="co"># Plot</span></span>
+<span><span class="va">g_path_genera</span> <span class="op">&lt;-</span> <span class="fu">ggplot</span><span class="op">(</span><span class="va">n_path_genera_stype</span>,</span>
+<span>                        <span class="fu">aes</span><span class="op">(</span>y<span class="op">=</span><span class="va">name</span>, x<span class="op">=</span><span class="va">p_reads_viral</span><span class="op">)</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">geom_point</span><span class="op">(</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">scale_x_log10</span><span class="op">(</span>name<span class="op">=</span><span class="st">"Relative abundance"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="fu">facet_grid</span><span class="op">(</span><span class="va">genome_type</span><span class="op">~</span><span class="va">.</span>, scales<span class="op">=</span><span class="st">"free_y"</span><span class="op">)</span> <span class="op">+</span></span>
+<span>  <span class="va">theme_base</span> <span class="op">+</span> <span class="fu">theme</span><span class="op">(</span>axis.title.y <span class="op">=</span> <span class="fu">element_blank</span><span class="op">(</span><span class="op">)</span><span class="op">)</span></span>
+<span><span class="va">g_path_genera</span></span></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</details><div class="cell-output-display">
+<div>
+<figure class="figure"><p><img src="2024-05-01_maritz_files/figure-html/ra-genera-1.png" class="img-fluid figure-img" width="672"></p>
+</figure>
+</div>
+</div>
+</div>
+</section><section id="conclusion" class="level1"><h1>Conclusion</h1>
+<p>I’ve had trouble with this dataset previously, so I was surprised at how well this analysis went. It seems the improvements I’ve made to the pipeline over the last couple of months have really had an effect. Like other DNA wastewater datasets I’ve looked at recently, this one (a) has very low HV relative abundance overall, and (b) shows a very high preponderance of human mastadenovirus F. I have one more DNA dataset from the P2RA study to analyze with this pipeline, so we’ll see if this pattern persists there.</p>
+
+
+<!-- -->
+
+</section></main><!-- /main --><script id="quarto-html-after-body" type="application/javascript">
+window.document.addEventListener("DOMContentLoaded", function (event) {
+  const toggleBodyColorMode = (bsSheetEl) => {
+    const mode = bsSheetEl.getAttribute("data-mode");
+    const bodyEl = window.document.querySelector("body");
+    if (mode === "dark") {
+      bodyEl.classList.add("quarto-dark");
+      bodyEl.classList.remove("quarto-light");
+    } else {
+      bodyEl.classList.add("quarto-light");
+      bodyEl.classList.remove("quarto-dark");
+    }
+  }
+  const toggleBodyColorPrimary = () => {
+    const bsSheetEl = window.document.querySelector("link#quarto-bootstrap");
+    if (bsSheetEl) {
+      toggleBodyColorMode(bsSheetEl);
+    }
+  }
+  toggleBodyColorPrimary();  
+  const icon = "";
+  const anchorJS = new window.AnchorJS();
+  anchorJS.options = {
+    placement: 'right',
+    icon: icon
+  };
+  anchorJS.add('.anchored');
+  const isCodeAnnotation = (el) => {
+    for (const clz of el.classList) {
+      if (clz.startsWith('code-annotation-')) {                     
+        return true;
+      }
+    }
+    return false;
+  }
+  const clipboard = new window.ClipboardJS('.code-copy-button', {
+    text: function(trigger) {
+      const codeEl = trigger.previousElementSibling.cloneNode(true);
+      for (const childEl of codeEl.children) {
+        if (isCodeAnnotation(childEl)) {
+          childEl.remove();
+        }
+      }
+      return codeEl.innerText;
+    }
+  });
+  clipboard.on('success', function(e) {
+    // button target
+    const button = e.trigger;
+    // don't keep focus
+    button.blur();
+    // flash "checked"
+    button.classList.add('code-copy-button-checked');
+    var currentTitle = button.getAttribute("title");
+    button.setAttribute("title", "Copied!");
+    let tooltip;
+    if (window.bootstrap) {
+      button.setAttribute("data-bs-toggle", "tooltip");
+      button.setAttribute("data-bs-placement", "left");
+      button.setAttribute("data-bs-title", "Copied!");
+      tooltip = new bootstrap.Tooltip(button, 
+        { trigger: "manual", 
+          customClass: "code-copy-button-tooltip",
+          offset: [0, -8]});
+      tooltip.show();    
+    }
+    setTimeout(function() {
+      if (tooltip) {
+        tooltip.hide();
+        button.removeAttribute("data-bs-title");
+        button.removeAttribute("data-bs-toggle");
+        button.removeAttribute("data-bs-placement");
+      }
+      button.setAttribute("title", currentTitle);
+      button.classList.remove('code-copy-button-checked');
+    }, 1000);
+    // clear code selection
+    e.clearSelection();
+  });
+  const viewSource = window.document.getElementById('quarto-view-source') ||
+                     window.document.getElementById('quarto-code-tools-source');
+  if (viewSource) {
+    const sourceUrl = viewSource.getAttribute("data-quarto-source-url");
+    viewSource.addEventListener("click", function(e) {
+      if (sourceUrl) {
+        // rstudio viewer pane
+        if (/\bcapabilities=\b/.test(window.location)) {
+          window.open(sourceUrl);
+        } else {
+          window.location.href = sourceUrl;
+        }
+      } else {
+        const modal = new bootstrap.Modal(document.getElementById('quarto-embedded-source-code-modal'));
+        modal.show();
+      }
+      return false;
+    });
+  }
+  function toggleCodeHandler(show) {
+    return function(e) {
+      const detailsSrc = window.document.querySelectorAll(".cell > details > .sourceCode");
+      for (let i=0; i<detailsSrc.length; i++) {
+        const details = detailsSrc[i].parentElement;
+        if (show) {
+          details.open = true;
+        } else {
+          details.removeAttribute("open");
+        }
+      }
+      const cellCodeDivs = window.document.querySelectorAll(".cell > .sourceCode");
+      const fromCls = show ? "hidden" : "unhidden";
+      const toCls = show ? "unhidden" : "hidden";
+      for (let i=0; i<cellCodeDivs.length; i++) {
+        const codeDiv = cellCodeDivs[i];
+        if (codeDiv.classList.contains(fromCls)) {
+          codeDiv.classList.remove(fromCls);
+          codeDiv.classList.add(toCls);
+        } 
+      }
+      return false;
+    }
+  }
+  const hideAllCode = window.document.getElementById("quarto-hide-all-code");
+  if (hideAllCode) {
+    hideAllCode.addEventListener("click", toggleCodeHandler(false));
+  }
+  const showAllCode = window.document.getElementById("quarto-show-all-code");
+  if (showAllCode) {
+    showAllCode.addEventListener("click", toggleCodeHandler(true));
+  }
+    var localhostRegex = new RegExp(/^(?:http|https):\/\/localhost\:?[0-9]*\//);
+    var mailtoRegex = new RegExp(/^mailto:/);
+      var filterRegex = new RegExp('/' + window.location.host + '/');
+    var isInternal = (href) => {
+        return filterRegex.test(href) || localhostRegex.test(href) || mailtoRegex.test(href);
+    }
+    // Inspect non-navigation links and adorn them if external
+ 	var links = window.document.querySelectorAll('a[href]:not(.nav-link):not(.navbar-brand):not(.toc-action):not(.sidebar-link):not(.sidebar-item-toggle):not(.pagination-link):not(.no-external):not([aria-hidden]):not(.dropdown-item):not(.quarto-navigation-tool)');
+    for (var i=0; i<links.length; i++) {
+      const link = links[i];
+      if (!isInternal(link.href)) {
+        // undo the damage that might have been done by quarto-nav.js in the case of
+        // links that we want to consider external
+        if (link.dataset.originalHref !== undefined) {
+          link.href = link.dataset.originalHref;
+        }
+      }
+    }
+  function tippyHover(el, contentFn, onTriggerFn, onUntriggerFn) {
+    const config = {
+      allowHTML: true,
+      maxWidth: 500,
+      delay: 100,
+      arrow: false,
+      appendTo: function(el) {
+          return el.parentElement;
+      },
+      interactive: true,
+      interactiveBorder: 10,
+      theme: 'quarto',
+      placement: 'bottom-start',
+    };
+    if (contentFn) {
+      config.content = contentFn;
+    }
+    if (onTriggerFn) {
+      config.onTrigger = onTriggerFn;
+    }
+    if (onUntriggerFn) {
+      config.onUntrigger = onUntriggerFn;
+    }
+    window.tippy(el, config); 
+  }
+  const noterefs = window.document.querySelectorAll('a[role="doc-noteref"]');
+  for (var i=0; i<noterefs.length; i++) {
+    const ref = noterefs[i];
+    tippyHover(ref, function() {
+      // use id or data attribute instead here
+      let href = ref.getAttribute('data-footnote-href') || ref.getAttribute('href');
+      try { href = new URL(href).hash; } catch {}
+      const id = href.replace(/^#\/?/, "");
+      const note = window.document.getElementById(id);
+      if (note) {
+        return note.innerHTML;
+      } else {
+        return "";
+      }
+    });
+  }
+  const xrefs = window.document.querySelectorAll('a.quarto-xref');
+  const processXRef = (id, note) => {
+    // Strip column container classes
+    const stripColumnClz = (el) => {
+      el.classList.remove("page-full", "page-columns");
+      if (el.children) {
+        for (const child of el.children) {
+          stripColumnClz(child);
+        }
+      }
+    }
+    stripColumnClz(note)
+    if (id === null || id.startsWith('sec-')) {
+      // Special case sections, only their first couple elements
+      const container = document.createElement("div");
+      if (note.children && note.children.length > 2) {
+        container.appendChild(note.children[0].cloneNode(true));
+        for (let i = 1; i < note.children.length; i++) {
+          const child = note.children[i];
+          if (child.tagName === "P" && child.innerText === "") {
+            continue;
+          } else {
+            container.appendChild(child.cloneNode(true));
+            break;
+          }
+        }
+        if (window.Quarto?.typesetMath) {
+          window.Quarto.typesetMath(container);
+        }
+        return container.innerHTML
+      } else {
+        if (window.Quarto?.typesetMath) {
+          window.Quarto.typesetMath(note);
+        }
+        return note.innerHTML;
+      }
+    } else {
+      // Remove any anchor links if they are present
+      const anchorLink = note.querySelector('a.anchorjs-link');
+      if (anchorLink) {
+        anchorLink.remove();
+      }
+      if (window.Quarto?.typesetMath) {
+        window.Quarto.typesetMath(note);
+      }
+      // TODO in 1.5, we should make sure this works without a callout special case
+      if (note.classList.contains("callout")) {
+        return note.outerHTML;
+      } else {
+        return note.innerHTML;
+      }
+    }
+  }
+  for (var i=0; i<xrefs.length; i++) {
+    const xref = xrefs[i];
+    tippyHover(xref, undefined, function(instance) {
+      instance.disable();
+      let url = xref.getAttribute('href');
+      let hash = undefined; 
+      if (url.startsWith('#')) {
+        hash = url;
+      } else {
+        try { hash = new URL(url).hash; } catch {}
+      }
+      if (hash) {
+        const id = hash.replace(/^#\/?/, "");
+        const note = window.document.getElementById(id);
+        if (note !== null) {
+          try {
+            const html = processXRef(id, note.cloneNode(true));
+            instance.setContent(html);
+          } finally {
+            instance.enable();
+            instance.show();
+          }
+        } else {
+          // See if we can fetch this
+          fetch(url.split('#')[0])
+          .then(res => res.text())
+          .then(html => {
+            const parser = new DOMParser();
+            const htmlDoc = parser.parseFromString(html, "text/html");
+            const note = htmlDoc.getElementById(id);
+            if (note !== null) {
+              const html = processXRef(id, note);
+              instance.setContent(html);
+            } 
+          }).finally(() => {
+            instance.enable();
+            instance.show();
+          });
+        }
+      } else {
+        // See if we can fetch a full url (with no hash to target)
+        // This is a special case and we should probably do some content thinning / targeting
+        fetch(url)
+        .then(res => res.text())
+        .then(html => {
+          const parser = new DOMParser();
+          const htmlDoc = parser.parseFromString(html, "text/html");
+          const note = htmlDoc.querySelector('main.content');
+          if (note !== null) {
+            // This should only happen for chapter cross references
+            // (since there is no id in the URL)
+            // remove the first header
+            if (note.children.length > 0 && note.children[0].tagName === "HEADER") {
+              note.children[0].remove();
+            }
+            const html = processXRef(null, note);
+            instance.setContent(html);
+          } 
+        }).finally(() => {
+          instance.enable();
+          instance.show();
+        });
+      }
+    }, function(instance) {
+    });
+  }
+      let selectedAnnoteEl;
+      const selectorForAnnotation = ( cell, annotation) => {
+        let cellAttr = 'data-code-cell="' + cell + '"';
+        let lineAttr = 'data-code-annotation="' +  annotation + '"';
+        const selector = 'span[' + cellAttr + '][' + lineAttr + ']';
+        return selector;
+      }
+      const selectCodeLines = (annoteEl) => {
+        const doc = window.document;
+        const targetCell = annoteEl.getAttribute("data-target-cell");
+        const targetAnnotation = annoteEl.getAttribute("data-target-annotation");
+        const annoteSpan = window.document.querySelector(selectorForAnnotation(targetCell, targetAnnotation));
+        const lines = annoteSpan.getAttribute("data-code-lines").split(",");
+        const lineIds = lines.map((line) => {
+          return targetCell + "-" + line;
+        })
+        let top = null;
+        let height = null;
+        let parent = null;
+        if (lineIds.length > 0) {
+            //compute the position of the single el (top and bottom and make a div)
+            const el = window.document.getElementById(lineIds[0]);
+            top = el.offsetTop;
+            height = el.offsetHeight;
+            parent = el.parentElement.parentElement;
+          if (lineIds.length > 1) {
+            const lastEl = window.document.getElementById(lineIds[lineIds.length - 1]);
+            const bottom = lastEl.offsetTop + lastEl.offsetHeight;
+            height = bottom - top;
+          }
+          if (top !== null && height !== null && parent !== null) {
+            // cook up a div (if necessary) and position it 
+            let div = window.document.getElementById("code-annotation-line-highlight");
+            if (div === null) {
+              div = window.document.createElement("div");
+              div.setAttribute("id", "code-annotation-line-highlight");
+              div.style.position = 'absolute';
+              parent.appendChild(div);
+            }
+            div.style.top = top - 2 + "px";
+            div.style.height = height + 4 + "px";
+            div.style.left = 0;
+            let gutterDiv = window.document.getElementById("code-annotation-line-highlight-gutter");
+            if (gutterDiv === null) {
+              gutterDiv = window.document.createElement("div");
+              gutterDiv.setAttribute("id", "code-annotation-line-highlight-gutter");
+              gutterDiv.style.position = 'absolute';
+              const codeCell = window.document.getElementById(targetCell);
+              const gutter = codeCell.querySelector('.code-annotation-gutter');
+              gutter.appendChild(gutterDiv);
+            }
+            gutterDiv.style.top = top - 2 + "px";
+            gutterDiv.style.height = height + 4 + "px";
+          }
+          selectedAnnoteEl = annoteEl;
+        }
+      };
+      const unselectCodeLines = () => {
+        const elementsIds = ["code-annotation-line-highlight", "code-annotation-line-highlight-gutter"];
+        elementsIds.forEach((elId) => {
+          const div = window.document.getElementById(elId);
+          if (div) {
+            div.remove();
+          }
+        });
+        selectedAnnoteEl = undefined;
+      };
+        // Handle positioning of the toggle
+    window.addEventListener(
+      "resize",
+      throttle(() => {
+        elRect = undefined;
+        if (selectedAnnoteEl) {
+          selectCodeLines(selectedAnnoteEl);
+        }
+      }, 10)
+    );
+    function throttle(fn, ms) {
+    let throttle = false;
+    let timer;
+      return (...args) => {
+        if(!throttle) { // first call gets through
+            fn.apply(this, args);
+            throttle = true;
+        } else { // all the others get throttled
+            if(timer) clearTimeout(timer); // cancel #2
+            timer = setTimeout(() => {
+              fn.apply(this, args);
+              timer = throttle = false;
+            }, ms);
+        }
+      };
+    }
+      // Attach click handler to the DT
+      const annoteDls = window.document.querySelectorAll('dt[data-target-cell]');
+      for (const annoteDlNode of annoteDls) {
+        annoteDlNode.addEventListener('click', (event) => {
+          const clickedEl = event.target;
+          if (clickedEl !== selectedAnnoteEl) {
+            unselectCodeLines();
+            const activeEl = window.document.querySelector('dt[data-target-cell].code-annotation-active');
+            if (activeEl) {
+              activeEl.classList.remove('code-annotation-active');
+            }
+            selectCodeLines(clickedEl);
+            clickedEl.classList.add('code-annotation-active');
+          } else {
+            // Unselect the line
+            unselectCodeLines();
+            clickedEl.classList.remove('code-annotation-active');
+          }
+        });
+      }
+  const findCites = (el) => {
+    const parentEl = el.parentElement;
+    if (parentEl) {
+      const cites = parentEl.dataset.cites;
+      if (cites) {
+        return {
+          el,
+          cites: cites.split(' ')
+        };
+      } else {
+        return findCites(el.parentElement)
+      }
+    } else {
+      return undefined;
+    }
+  };
+  var bibliorefs = window.document.querySelectorAll('a[role="doc-biblioref"]');
+  for (var i=0; i<bibliorefs.length; i++) {
+    const ref = bibliorefs[i];
+    const citeInfo = findCites(ref);
+    if (citeInfo) {
+      tippyHover(citeInfo.el, function() {
+        var popup = window.document.createElement('div');
+        citeInfo.cites.forEach(function(cite) {
+          var citeDiv = window.document.createElement('div');
+          citeDiv.classList.add('hanging-indent');
+          citeDiv.classList.add('csl-entry');
+          var biblioDiv = window.document.getElementById('ref-' + cite);
+          if (biblioDiv) {
+            citeDiv.innerHTML = biblioDiv.innerHTML;
+          }
+          popup.appendChild(citeDiv);
+        });
+        return popup.innerHTML;
+      });
+    }
+  }
+});
+</script><div class="modal fade" id="quarto-embedded-source-code-modal" tabindex="-1" aria-labelledby="quarto-embedded-source-code-modal-label" aria-hidden="true"><div class="modal-dialog modal-dialog-scrollable"><div class="modal-content"><div class="modal-header"><h5 class="modal-title" id="quarto-embedded-source-code-modal-label">Source Code</h5><button class="btn-close" data-bs-dismiss="modal"></button></div><div class="modal-body"><div class="">
+<div class="sourceCode" id="cb43" data-shortcodes="false"><pre class="sourceCode markdown code-with-copy"><code class="sourceCode markdown"><span id="cb43-1"><a href="#cb43-1" aria-hidden="true" tabindex="-1"></a><span class="co">---</span></span>
+<span id="cb43-2"><a href="#cb43-2" aria-hidden="true" tabindex="-1"></a><span class="an">title:</span><span class="co"> "Workflow analysis of Maritz et al. (2019)"</span></span>
+<span id="cb43-3"><a href="#cb43-3" aria-hidden="true" tabindex="-1"></a><span class="an">subtitle:</span><span class="co"> "Wastewater from NYC."</span></span>
+<span id="cb43-4"><a href="#cb43-4" aria-hidden="true" tabindex="-1"></a><span class="an">author:</span><span class="co"> "Will Bradshaw"</span></span>
+<span id="cb43-5"><a href="#cb43-5" aria-hidden="true" tabindex="-1"></a><span class="an">date:</span><span class="co"> 2024-05-01</span></span>
+<span id="cb43-6"><a href="#cb43-6" aria-hidden="true" tabindex="-1"></a><span class="an">format:</span></span>
+<span id="cb43-7"><a href="#cb43-7" aria-hidden="true" tabindex="-1"></a><span class="co">  html:</span></span>
+<span id="cb43-8"><a href="#cb43-8" aria-hidden="true" tabindex="-1"></a><span class="co">    code-fold: true</span></span>
+<span id="cb43-9"><a href="#cb43-9" aria-hidden="true" tabindex="-1"></a><span class="co">    code-tools: true</span></span>
+<span id="cb43-10"><a href="#cb43-10" aria-hidden="true" tabindex="-1"></a><span class="co">    code-link: true</span></span>
+<span id="cb43-11"><a href="#cb43-11" aria-hidden="true" tabindex="-1"></a><span class="co">    df-print: paged</span></span>
+<span id="cb43-12"><a href="#cb43-12" aria-hidden="true" tabindex="-1"></a><span class="an">editor:</span><span class="co"> visual</span></span>
+<span id="cb43-13"><a href="#cb43-13" aria-hidden="true" tabindex="-1"></a><span class="an">title-block-banner:</span><span class="co"> black</span></span>
+<span id="cb43-14"><a href="#cb43-14" aria-hidden="true" tabindex="-1"></a><span class="co">---</span></span>
+<span id="cb43-15"><a href="#cb43-15" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-18"><a href="#cb43-18" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-19"><a href="#cb43-19" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: preamble</span></span>
+<span id="cb43-20"><a href="#cb43-20" aria-hidden="true" tabindex="-1"></a><span class="co">#| include: false</span></span>
+<span id="cb43-21"><a href="#cb43-21" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-22"><a href="#cb43-22" aria-hidden="true" tabindex="-1"></a><span class="co"># Load packages</span></span>
+<span id="cb43-23"><a href="#cb43-23" aria-hidden="true" tabindex="-1"></a><span class="fu">library</span>(tidyverse)</span>
+<span id="cb43-24"><a href="#cb43-24" aria-hidden="true" tabindex="-1"></a><span class="fu">library</span>(cowplot)</span>
+<span id="cb43-25"><a href="#cb43-25" aria-hidden="true" tabindex="-1"></a><span class="fu">library</span>(patchwork)</span>
+<span id="cb43-26"><a href="#cb43-26" aria-hidden="true" tabindex="-1"></a><span class="fu">library</span>(fastqcr)</span>
+<span id="cb43-27"><a href="#cb43-27" aria-hidden="true" tabindex="-1"></a><span class="fu">library</span>(RColorBrewer)</span>
+<span id="cb43-28"><a href="#cb43-28" aria-hidden="true" tabindex="-1"></a><span class="fu">source</span>(<span class="st">"../scripts/aux_plot-theme.R"</span>)</span>
+<span id="cb43-29"><a href="#cb43-29" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-30"><a href="#cb43-30" aria-hidden="true" tabindex="-1"></a><span class="co"># GGplot themes and scales</span></span>
+<span id="cb43-31"><a href="#cb43-31" aria-hidden="true" tabindex="-1"></a>theme_base <span class="ot">&lt;-</span> theme_base <span class="sc">+</span> <span class="fu">theme</span>(<span class="at">aspect.ratio =</span> <span class="cn">NULL</span>)</span>
+<span id="cb43-32"><a href="#cb43-32" aria-hidden="true" tabindex="-1"></a>theme_rotate <span class="ot">&lt;-</span> theme_base <span class="sc">+</span> <span class="fu">theme</span>(</span>
+<span id="cb43-33"><a href="#cb43-33" aria-hidden="true" tabindex="-1"></a>    <span class="at">axis.text.x =</span> <span class="fu">element_text</span>(<span class="at">hjust =</span> <span class="dv">1</span>, <span class="at">angle =</span> <span class="dv">45</span>),</span>
+<span id="cb43-34"><a href="#cb43-34" aria-hidden="true" tabindex="-1"></a>)</span>
+<span id="cb43-35"><a href="#cb43-35" aria-hidden="true" tabindex="-1"></a>theme_kit <span class="ot">&lt;-</span> theme_rotate <span class="sc">+</span> <span class="fu">theme</span>(</span>
+<span id="cb43-36"><a href="#cb43-36" aria-hidden="true" tabindex="-1"></a>  <span class="at">axis.title.x =</span> <span class="fu">element_blank</span>(),</span>
+<span id="cb43-37"><a href="#cb43-37" aria-hidden="true" tabindex="-1"></a>)</span>
+<span id="cb43-38"><a href="#cb43-38" aria-hidden="true" tabindex="-1"></a>theme_xblank <span class="ot">&lt;-</span> theme_kit <span class="sc">+</span> <span class="fu">theme</span>(</span>
+<span id="cb43-39"><a href="#cb43-39" aria-hidden="true" tabindex="-1"></a>  <span class="at">axis.text.x =</span> <span class="fu">element_blank</span>()</span>
+<span id="cb43-40"><a href="#cb43-40" aria-hidden="true" tabindex="-1"></a>)</span>
+<span id="cb43-41"><a href="#cb43-41" aria-hidden="true" tabindex="-1"></a>tnl <span class="ot">&lt;-</span> <span class="fu">theme</span>(<span class="at">legend.position =</span> <span class="st">"none"</span>)</span>
+<span id="cb43-42"><a href="#cb43-42" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-43"><a href="#cb43-43" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-44"><a href="#cb43-44" aria-hidden="true" tabindex="-1"></a>Continuing my analysis of datasets from the <span class="co">[</span><span class="ot">P2RA preprint</span><span class="co">](https://doi.org/10.1101/2023.12.22.23300450)</span>, I analyzed the data from <span class="co">[</span><span class="ot">Maritz et al. (2019)</span><span class="co">](https://doi.org/10.1038/s41396-019-0467-z)</span>, a study that used DNA sequencing of wastewater samples to characterize protist diversity and temporal diversity in New York City. Samples for this study underwent direct DNA extraction without a dedicated concentration step, then underwent library prep and Illumina sequencing on a HiSeq Rapid Run (2x250bp).</span>
+<span id="cb43-45"><a href="#cb43-45" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-46"><a href="#cb43-46" aria-hidden="true" tabindex="-1"></a><span class="fu"># The raw data</span></span>
+<span id="cb43-47"><a href="#cb43-47" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-48"><a href="#cb43-48" aria-hidden="true" tabindex="-1"></a>16 samples were collected from 14 treatment plants in NYC in November 2014. These samples yielded 8.6M-18.3M (mean 10.8M) reads per sample, for a total of 172M read pairs (84 gigabases of sequence). Read qualities were mostly high; adapter levels were moderate; inferred duplication levels were low.</span>
+<span id="cb43-49"><a href="#cb43-49" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-52"><a href="#cb43-52" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-53"><a href="#cb43-53" aria-hidden="true" tabindex="-1"></a><span class="co">#| warning: false</span></span>
+<span id="cb43-54"><a href="#cb43-54" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: import-qc-data</span></span>
+<span id="cb43-55"><a href="#cb43-55" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-56"><a href="#cb43-56" aria-hidden="true" tabindex="-1"></a><span class="co"># Importing the data is a bit more complicated this time as the samples are split across three pipeline runs</span></span>
+<span id="cb43-57"><a href="#cb43-57" aria-hidden="true" tabindex="-1"></a>data_dir <span class="ot">&lt;-</span> <span class="st">"../data/2024-05-01_maritz"</span></span>
+<span id="cb43-58"><a href="#cb43-58" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-59"><a href="#cb43-59" aria-hidden="true" tabindex="-1"></a><span class="co"># Data input paths</span></span>
+<span id="cb43-60"><a href="#cb43-60" aria-hidden="true" tabindex="-1"></a>libraries_path <span class="ot">&lt;-</span> <span class="fu">file.path</span>(data_dir, <span class="st">"sample-metadata.csv"</span>)</span>
+<span id="cb43-61"><a href="#cb43-61" aria-hidden="true" tabindex="-1"></a>basic_stats_path <span class="ot">&lt;-</span> <span class="fu">file.path</span>(data_dir, <span class="st">"qc_basic_stats.tsv.gz"</span>)</span>
+<span id="cb43-62"><a href="#cb43-62" aria-hidden="true" tabindex="-1"></a>adapter_stats_path <span class="ot">&lt;-</span> <span class="fu">file.path</span>(data_dir, <span class="st">"qc_adapter_stats.tsv.gz"</span>)</span>
+<span id="cb43-63"><a href="#cb43-63" aria-hidden="true" tabindex="-1"></a>quality_base_stats_path <span class="ot">&lt;-</span> <span class="fu">file.path</span>(data_dir, <span class="st">"qc_quality_base_stats.tsv.gz"</span>)</span>
+<span id="cb43-64"><a href="#cb43-64" aria-hidden="true" tabindex="-1"></a>quality_seq_stats_path <span class="ot">&lt;-</span> <span class="fu">file.path</span>(data_dir, <span class="st">"qc_quality_sequence_stats.tsv.gz"</span>)</span>
+<span id="cb43-65"><a href="#cb43-65" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-66"><a href="#cb43-66" aria-hidden="true" tabindex="-1"></a><span class="co"># Import libraries and extract metadata from sample names</span></span>
+<span id="cb43-67"><a href="#cb43-67" aria-hidden="true" tabindex="-1"></a>libraries_raw <span class="ot">&lt;-</span> <span class="fu">lapply</span>(libraries_path, read_csv, <span class="at">show_col_types =</span> <span class="cn">FALSE</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-68"><a href="#cb43-68" aria-hidden="true" tabindex="-1"></a>  bind_rows</span>
+<span id="cb43-69"><a href="#cb43-69" aria-hidden="true" tabindex="-1"></a>libraries <span class="ot">&lt;-</span> libraries_raw <span class="sc">%&gt;%</span></span>
+<span id="cb43-70"><a href="#cb43-70" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">sample =</span> <span class="fu">fct_inorder</span>(sample))</span>
+<span id="cb43-71"><a href="#cb43-71" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-72"><a href="#cb43-72" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-75"><a href="#cb43-75" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-76"><a href="#cb43-76" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: process-qc-data</span></span>
+<span id="cb43-77"><a href="#cb43-77" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-78"><a href="#cb43-78" aria-hidden="true" tabindex="-1"></a><span class="co"># Import QC data</span></span>
+<span id="cb43-79"><a href="#cb43-79" aria-hidden="true" tabindex="-1"></a>stages <span class="ot">&lt;-</span> <span class="fu">c</span>(<span class="st">"raw_concat"</span>, <span class="st">"cleaned"</span>, <span class="st">"dedup"</span>, <span class="st">"ribo_initial"</span>, <span class="st">"ribo_secondary"</span>)</span>
+<span id="cb43-80"><a href="#cb43-80" aria-hidden="true" tabindex="-1"></a>import_basic <span class="ot">&lt;-</span> <span class="cf">function</span>(paths){</span>
+<span id="cb43-81"><a href="#cb43-81" aria-hidden="true" tabindex="-1"></a>  <span class="fu">lapply</span>(paths, read_tsv, <span class="at">show_col_types =</span> <span class="cn">FALSE</span>) <span class="sc">%&gt;%</span> bind_rows <span class="sc">%&gt;%</span></span>
+<span id="cb43-82"><a href="#cb43-82" aria-hidden="true" tabindex="-1"></a>    <span class="fu">inner_join</span>(libraries, <span class="at">by=</span><span class="st">"sample"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-83"><a href="#cb43-83" aria-hidden="true" tabindex="-1"></a>    <span class="fu">arrange</span>(sample) <span class="sc">%&gt;%</span></span>
+<span id="cb43-84"><a href="#cb43-84" aria-hidden="true" tabindex="-1"></a>    <span class="fu">mutate</span>(<span class="at">stage =</span> <span class="fu">factor</span>(stage, <span class="at">levels =</span> stages),</span>
+<span id="cb43-85"><a href="#cb43-85" aria-hidden="true" tabindex="-1"></a>           <span class="at">sample =</span> <span class="fu">fct_inorder</span>(sample))</span>
+<span id="cb43-86"><a href="#cb43-86" aria-hidden="true" tabindex="-1"></a>}</span>
+<span id="cb43-87"><a href="#cb43-87" aria-hidden="true" tabindex="-1"></a>import_basic_paired <span class="ot">&lt;-</span> <span class="cf">function</span>(paths){</span>
+<span id="cb43-88"><a href="#cb43-88" aria-hidden="true" tabindex="-1"></a>  <span class="fu">import_basic</span>(paths) <span class="sc">%&gt;%</span> <span class="fu">arrange</span>(read_pair) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-89"><a href="#cb43-89" aria-hidden="true" tabindex="-1"></a>    <span class="fu">mutate</span>(<span class="at">read_pair =</span> <span class="fu">fct_inorder</span>(<span class="fu">as.character</span>(read_pair)))</span>
+<span id="cb43-90"><a href="#cb43-90" aria-hidden="true" tabindex="-1"></a>}</span>
+<span id="cb43-91"><a href="#cb43-91" aria-hidden="true" tabindex="-1"></a>basic_stats <span class="ot">&lt;-</span> <span class="fu">import_basic</span>(basic_stats_path)</span>
+<span id="cb43-92"><a href="#cb43-92" aria-hidden="true" tabindex="-1"></a>adapter_stats <span class="ot">&lt;-</span> <span class="fu">import_basic_paired</span>(adapter_stats_path)</span>
+<span id="cb43-93"><a href="#cb43-93" aria-hidden="true" tabindex="-1"></a>quality_base_stats <span class="ot">&lt;-</span> <span class="fu">import_basic_paired</span>(quality_base_stats_path)</span>
+<span id="cb43-94"><a href="#cb43-94" aria-hidden="true" tabindex="-1"></a>quality_seq_stats <span class="ot">&lt;-</span> <span class="fu">import_basic_paired</span>(quality_seq_stats_path)</span>
+<span id="cb43-95"><a href="#cb43-95" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-96"><a href="#cb43-96" aria-hidden="true" tabindex="-1"></a><span class="co"># Filter to raw data</span></span>
+<span id="cb43-97"><a href="#cb43-97" aria-hidden="true" tabindex="-1"></a>basic_stats_raw <span class="ot">&lt;-</span> basic_stats <span class="sc">%&gt;%</span> <span class="fu">filter</span>(stage <span class="sc">==</span> <span class="st">"raw_concat"</span>)</span>
+<span id="cb43-98"><a href="#cb43-98" aria-hidden="true" tabindex="-1"></a>adapter_stats_raw <span class="ot">&lt;-</span> adapter_stats <span class="sc">%&gt;%</span> <span class="fu">filter</span>(stage <span class="sc">==</span> <span class="st">"raw_concat"</span>)</span>
+<span id="cb43-99"><a href="#cb43-99" aria-hidden="true" tabindex="-1"></a>quality_base_stats_raw <span class="ot">&lt;-</span> quality_base_stats <span class="sc">%&gt;%</span> <span class="fu">filter</span>(stage <span class="sc">==</span> <span class="st">"raw_concat"</span>)</span>
+<span id="cb43-100"><a href="#cb43-100" aria-hidden="true" tabindex="-1"></a>quality_seq_stats_raw <span class="ot">&lt;-</span> quality_seq_stats <span class="sc">%&gt;%</span> <span class="fu">filter</span>(stage <span class="sc">==</span> <span class="st">"raw_concat"</span>)</span>
+<span id="cb43-101"><a href="#cb43-101" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-102"><a href="#cb43-102" aria-hidden="true" tabindex="-1"></a><span class="co"># Get key values for readout</span></span>
+<span id="cb43-103"><a href="#cb43-103" aria-hidden="true" tabindex="-1"></a>raw_read_counts <span class="ot">&lt;-</span> basic_stats_raw <span class="sc">%&gt;%</span> ungroup <span class="sc">%&gt;%</span> </span>
+<span id="cb43-104"><a href="#cb43-104" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">rmin =</span> <span class="fu">min</span>(n_read_pairs), <span class="at">rmax=</span><span class="fu">max</span>(n_read_pairs),</span>
+<span id="cb43-105"><a href="#cb43-105" aria-hidden="true" tabindex="-1"></a>            <span class="at">rmean=</span><span class="fu">mean</span>(n_read_pairs), </span>
+<span id="cb43-106"><a href="#cb43-106" aria-hidden="true" tabindex="-1"></a>            <span class="at">rtot =</span> <span class="fu">sum</span>(n_read_pairs),</span>
+<span id="cb43-107"><a href="#cb43-107" aria-hidden="true" tabindex="-1"></a>            <span class="at">btot =</span> <span class="fu">sum</span>(n_bases_approx),</span>
+<span id="cb43-108"><a href="#cb43-108" aria-hidden="true" tabindex="-1"></a>            <span class="at">dmin =</span> <span class="fu">min</span>(percent_duplicates), <span class="at">dmax=</span><span class="fu">max</span>(percent_duplicates),</span>
+<span id="cb43-109"><a href="#cb43-109" aria-hidden="true" tabindex="-1"></a>            <span class="at">dmean=</span><span class="fu">mean</span>(percent_duplicates), <span class="at">.groups =</span> <span class="st">"drop"</span>)</span>
+<span id="cb43-110"><a href="#cb43-110" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-111"><a href="#cb43-111" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-114"><a href="#cb43-114" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-115"><a href="#cb43-115" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-width: 9</span></span>
+<span id="cb43-116"><a href="#cb43-116" aria-hidden="true" tabindex="-1"></a><span class="co">#| warning: false</span></span>
+<span id="cb43-117"><a href="#cb43-117" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: plot-basic-stats</span></span>
+<span id="cb43-118"><a href="#cb43-118" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-119"><a href="#cb43-119" aria-hidden="true" tabindex="-1"></a><span class="co"># Prepare data</span></span>
+<span id="cb43-120"><a href="#cb43-120" aria-hidden="true" tabindex="-1"></a>basic_stats_raw_metrics <span class="ot">&lt;-</span> basic_stats_raw <span class="sc">%&gt;%</span></span>
+<span id="cb43-121"><a href="#cb43-121" aria-hidden="true" tabindex="-1"></a>  <span class="fu">select</span>(sample,</span>
+<span id="cb43-122"><a href="#cb43-122" aria-hidden="true" tabindex="-1"></a>         <span class="st">`</span><span class="at"># Read pairs</span><span class="st">`</span> <span class="ot">=</span> n_read_pairs,</span>
+<span id="cb43-123"><a href="#cb43-123" aria-hidden="true" tabindex="-1"></a>         <span class="st">`</span><span class="at">Total base pairs</span><span class="sc">\n</span><span class="at">(approx)</span><span class="st">`</span> <span class="ot">=</span> n_bases_approx,</span>
+<span id="cb43-124"><a href="#cb43-124" aria-hidden="true" tabindex="-1"></a>         <span class="st">`</span><span class="at">% Duplicates</span><span class="sc">\n</span><span class="at">(FASTQC)</span><span class="st">`</span> <span class="ot">=</span> percent_duplicates) <span class="sc">%&gt;%</span></span>
+<span id="cb43-125"><a href="#cb43-125" aria-hidden="true" tabindex="-1"></a>  <span class="fu">pivot_longer</span>(<span class="sc">-</span>(sample), <span class="at">names_to =</span> <span class="st">"metric"</span>, <span class="at">values_to =</span> <span class="st">"value"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-126"><a href="#cb43-126" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">metric =</span> <span class="fu">fct_inorder</span>(metric))</span>
+<span id="cb43-127"><a href="#cb43-127" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-128"><a href="#cb43-128" aria-hidden="true" tabindex="-1"></a><span class="co"># Set up plot templates</span></span>
+<span id="cb43-129"><a href="#cb43-129" aria-hidden="true" tabindex="-1"></a>g_basic <span class="ot">&lt;-</span> <span class="fu">ggplot</span>(basic_stats_raw_metrics, <span class="fu">aes</span>(<span class="at">x=</span>sample, <span class="at">y=</span>value)) <span class="sc">+</span></span>
+<span id="cb43-130"><a href="#cb43-130" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_col</span>(<span class="at">position =</span> <span class="st">"dodge"</span>) <span class="sc">+</span></span>
+<span id="cb43-131"><a href="#cb43-131" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>)) <span class="sc">+</span></span>
+<span id="cb43-132"><a href="#cb43-132" aria-hidden="true" tabindex="-1"></a>  <span class="fu">expand_limits</span>(<span class="at">y=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">100</span>)) <span class="sc">+</span></span>
+<span id="cb43-133"><a href="#cb43-133" aria-hidden="true" tabindex="-1"></a>  <span class="fu">facet_grid</span>(metric<span class="sc">~</span>., <span class="at">scales =</span> <span class="st">"free"</span>, <span class="at">space=</span><span class="st">"free_x"</span>, <span class="at">switch=</span><span class="st">"y"</span>) <span class="sc">+</span></span>
+<span id="cb43-134"><a href="#cb43-134" aria-hidden="true" tabindex="-1"></a>  theme_kit <span class="sc">+</span> <span class="fu">theme</span>(</span>
+<span id="cb43-135"><a href="#cb43-135" aria-hidden="true" tabindex="-1"></a>    <span class="at">axis.title.y =</span> <span class="fu">element_blank</span>(),</span>
+<span id="cb43-136"><a href="#cb43-136" aria-hidden="true" tabindex="-1"></a>    <span class="at">strip.text.y =</span> <span class="fu">element_text</span>(<span class="at">face=</span><span class="st">"plain"</span>)</span>
+<span id="cb43-137"><a href="#cb43-137" aria-hidden="true" tabindex="-1"></a>  )</span>
+<span id="cb43-138"><a href="#cb43-138" aria-hidden="true" tabindex="-1"></a>g_basic</span>
+<span id="cb43-139"><a href="#cb43-139" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-140"><a href="#cb43-140" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-143"><a href="#cb43-143" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-144"><a href="#cb43-144" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: plot-raw-quality</span></span>
+<span id="cb43-145"><a href="#cb43-145" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-146"><a href="#cb43-146" aria-hidden="true" tabindex="-1"></a><span class="co"># Set up plotting templates</span></span>
+<span id="cb43-147"><a href="#cb43-147" aria-hidden="true" tabindex="-1"></a>g_qual_raw <span class="ot">&lt;-</span> <span class="fu">ggplot</span>(<span class="at">mapping=</span><span class="fu">aes</span>(<span class="at">linetype=</span>read_pair, </span>
+<span id="cb43-148"><a href="#cb43-148" aria-hidden="true" tabindex="-1"></a>                         <span class="at">group=</span><span class="fu">interaction</span>(sample,read_pair))) <span class="sc">+</span> </span>
+<span id="cb43-149"><a href="#cb43-149" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_linetype_discrete</span>(<span class="at">name =</span> <span class="st">"Read Pair"</span>) <span class="sc">+</span></span>
+<span id="cb43-150"><a href="#cb43-150" aria-hidden="true" tabindex="-1"></a>  <span class="fu">guides</span>(<span class="at">color=</span><span class="fu">guide_legend</span>(<span class="at">nrow=</span><span class="dv">2</span>,<span class="at">byrow=</span><span class="cn">TRUE</span>),</span>
+<span id="cb43-151"><a href="#cb43-151" aria-hidden="true" tabindex="-1"></a>         <span class="at">linetype =</span> <span class="fu">guide_legend</span>(<span class="at">nrow=</span><span class="dv">2</span>,<span class="at">byrow=</span><span class="cn">TRUE</span>)) <span class="sc">+</span></span>
+<span id="cb43-152"><a href="#cb43-152" aria-hidden="true" tabindex="-1"></a>  theme_base</span>
+<span id="cb43-153"><a href="#cb43-153" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-154"><a href="#cb43-154" aria-hidden="true" tabindex="-1"></a><span class="co"># Visualize adapters</span></span>
+<span id="cb43-155"><a href="#cb43-155" aria-hidden="true" tabindex="-1"></a>g_adapters_raw <span class="ot">&lt;-</span> g_qual_raw <span class="sc">+</span> </span>
+<span id="cb43-156"><a href="#cb43-156" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_line</span>(<span class="fu">aes</span>(<span class="at">x=</span>position, <span class="at">y=</span>pc_adapters), <span class="at">data=</span>adapter_stats_raw) <span class="sc">+</span></span>
+<span id="cb43-157"><a href="#cb43-157" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="at">name=</span><span class="st">"% Adapters"</span>, <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="cn">NA</span>),</span>
+<span id="cb43-158"><a href="#cb43-158" aria-hidden="true" tabindex="-1"></a>                     <span class="at">breaks =</span> <span class="fu">seq</span>(<span class="dv">0</span>,<span class="dv">100</span>,<span class="dv">1</span>), <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>)) <span class="sc">+</span></span>
+<span id="cb43-159"><a href="#cb43-159" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_x_continuous</span>(<span class="at">name=</span><span class="st">"Position"</span>, <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="cn">NA</span>),</span>
+<span id="cb43-160"><a href="#cb43-160" aria-hidden="true" tabindex="-1"></a>                     <span class="at">breaks=</span><span class="fu">seq</span>(<span class="dv">0</span>,<span class="dv">500</span>,<span class="dv">20</span>), <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>)) <span class="sc">+</span></span>
+<span id="cb43-161"><a href="#cb43-161" aria-hidden="true" tabindex="-1"></a>  <span class="fu">facet_grid</span>(.<span class="sc">~</span>adapter)</span>
+<span id="cb43-162"><a href="#cb43-162" aria-hidden="true" tabindex="-1"></a>g_adapters_raw</span>
+<span id="cb43-163"><a href="#cb43-163" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-164"><a href="#cb43-164" aria-hidden="true" tabindex="-1"></a><span class="co"># Visualize quality</span></span>
+<span id="cb43-165"><a href="#cb43-165" aria-hidden="true" tabindex="-1"></a>g_quality_base_raw <span class="ot">&lt;-</span> g_qual_raw <span class="sc">+</span></span>
+<span id="cb43-166"><a href="#cb43-166" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_hline</span>(<span class="at">yintercept=</span><span class="dv">25</span>, <span class="at">linetype=</span><span class="st">"dashed"</span>, <span class="at">color=</span><span class="st">"red"</span>) <span class="sc">+</span></span>
+<span id="cb43-167"><a href="#cb43-167" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_hline</span>(<span class="at">yintercept=</span><span class="dv">30</span>, <span class="at">linetype=</span><span class="st">"dashed"</span>, <span class="at">color=</span><span class="st">"red"</span>) <span class="sc">+</span></span>
+<span id="cb43-168"><a href="#cb43-168" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_line</span>(<span class="fu">aes</span>(<span class="at">x=</span>position, <span class="at">y=</span>mean_phred_score), <span class="at">data=</span>quality_base_stats_raw) <span class="sc">+</span></span>
+<span id="cb43-169"><a href="#cb43-169" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="at">name=</span><span class="st">"Mean Phred score"</span>, <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>), <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">10</span>,<span class="dv">45</span>)) <span class="sc">+</span></span>
+<span id="cb43-170"><a href="#cb43-170" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_x_continuous</span>(<span class="at">name=</span><span class="st">"Position"</span>, <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="cn">NA</span>),</span>
+<span id="cb43-171"><a href="#cb43-171" aria-hidden="true" tabindex="-1"></a>                     <span class="at">breaks=</span><span class="fu">seq</span>(<span class="dv">0</span>,<span class="dv">500</span>,<span class="dv">20</span>), <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>))</span>
+<span id="cb43-172"><a href="#cb43-172" aria-hidden="true" tabindex="-1"></a>g_quality_base_raw</span>
+<span id="cb43-173"><a href="#cb43-173" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-174"><a href="#cb43-174" aria-hidden="true" tabindex="-1"></a>g_quality_seq_raw <span class="ot">&lt;-</span> g_qual_raw <span class="sc">+</span></span>
+<span id="cb43-175"><a href="#cb43-175" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_vline</span>(<span class="at">xintercept=</span><span class="dv">25</span>, <span class="at">linetype=</span><span class="st">"dashed"</span>, <span class="at">color=</span><span class="st">"red"</span>) <span class="sc">+</span></span>
+<span id="cb43-176"><a href="#cb43-176" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_vline</span>(<span class="at">xintercept=</span><span class="dv">30</span>, <span class="at">linetype=</span><span class="st">"dashed"</span>, <span class="at">color=</span><span class="st">"red"</span>) <span class="sc">+</span></span>
+<span id="cb43-177"><a href="#cb43-177" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_line</span>(<span class="fu">aes</span>(<span class="at">x=</span>mean_phred_score, <span class="at">y=</span>n_sequences), <span class="at">data=</span>quality_seq_stats_raw) <span class="sc">+</span></span>
+<span id="cb43-178"><a href="#cb43-178" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_x_continuous</span>(<span class="at">name=</span><span class="st">"Mean Phred score"</span>, <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>)) <span class="sc">+</span></span>
+<span id="cb43-179"><a href="#cb43-179" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="at">name=</span><span class="st">"# Sequences"</span>, <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>))</span>
+<span id="cb43-180"><a href="#cb43-180" aria-hidden="true" tabindex="-1"></a>g_quality_seq_raw</span>
+<span id="cb43-181"><a href="#cb43-181" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-182"><a href="#cb43-182" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-183"><a href="#cb43-183" aria-hidden="true" tabindex="-1"></a><span class="fu"># Preprocessing</span></span>
+<span id="cb43-184"><a href="#cb43-184" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-185"><a href="#cb43-185" aria-hidden="true" tabindex="-1"></a>About 6% of reads on average were lost during cleaning, and a further 2% during deduplication. Very few reads were lost during ribodepletion, as expected for DNA sequencing libraries.</span>
+<span id="cb43-186"><a href="#cb43-186" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-189"><a href="#cb43-189" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-190"><a href="#cb43-190" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: preproc-table</span></span>
+<span id="cb43-191"><a href="#cb43-191" aria-hidden="true" tabindex="-1"></a>n_reads_rel <span class="ot">&lt;-</span> basic_stats <span class="sc">%&gt;%</span> </span>
+<span id="cb43-192"><a href="#cb43-192" aria-hidden="true" tabindex="-1"></a>  <span class="fu">select</span>(sample, stage, </span>
+<span id="cb43-193"><a href="#cb43-193" aria-hidden="true" tabindex="-1"></a>         percent_duplicates, n_read_pairs) <span class="sc">%&gt;%</span></span>
+<span id="cb43-194"><a href="#cb43-194" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample) <span class="sc">%&gt;%</span> <span class="fu">arrange</span>(sample, stage) <span class="sc">%&gt;%</span></span>
+<span id="cb43-195"><a href="#cb43-195" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">p_reads_retained =</span> <span class="fu">replace_na</span>(n_read_pairs <span class="sc">/</span> <span class="fu">lag</span>(n_read_pairs), <span class="dv">0</span>),</span>
+<span id="cb43-196"><a href="#cb43-196" aria-hidden="true" tabindex="-1"></a>         <span class="at">p_reads_lost =</span> <span class="dv">1</span> <span class="sc">-</span> p_reads_retained,</span>
+<span id="cb43-197"><a href="#cb43-197" aria-hidden="true" tabindex="-1"></a>         <span class="at">p_reads_retained_abs =</span> n_read_pairs <span class="sc">/</span> n_read_pairs[<span class="dv">1</span>],</span>
+<span id="cb43-198"><a href="#cb43-198" aria-hidden="true" tabindex="-1"></a>         <span class="at">p_reads_lost_abs =</span> <span class="dv">1</span><span class="sc">-</span>p_reads_retained_abs,</span>
+<span id="cb43-199"><a href="#cb43-199" aria-hidden="true" tabindex="-1"></a>         <span class="at">p_reads_lost_abs_marginal =</span> <span class="fu">replace_na</span>(p_reads_lost_abs <span class="sc">-</span> <span class="fu">lag</span>(p_reads_lost_abs), <span class="dv">0</span>))</span>
+<span id="cb43-200"><a href="#cb43-200" aria-hidden="true" tabindex="-1"></a>n_reads_rel_display <span class="ot">&lt;-</span> n_reads_rel <span class="sc">%&gt;%</span> </span>
+<span id="cb43-201"><a href="#cb43-201" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(<span class="at">Stage=</span>stage) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-202"><a href="#cb43-202" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="st">`</span><span class="at">% Total Reads Lost (Cumulative)</span><span class="st">`</span> <span class="ot">=</span> <span class="fu">paste0</span>(<span class="fu">round</span>(<span class="fu">min</span>(p_reads_lost_abs<span class="sc">*</span><span class="dv">100</span>),<span class="dv">1</span>), <span class="st">"-"</span>, <span class="fu">round</span>(<span class="fu">max</span>(p_reads_lost_abs<span class="sc">*</span><span class="dv">100</span>),<span class="dv">1</span>), <span class="st">" (mean "</span>, <span class="fu">round</span>(<span class="fu">mean</span>(p_reads_lost_abs<span class="sc">*</span><span class="dv">100</span>),<span class="dv">1</span>), <span class="st">")"</span>),</span>
+<span id="cb43-203"><a href="#cb43-203" aria-hidden="true" tabindex="-1"></a>            <span class="st">`</span><span class="at">% Total Reads Lost (Marginal)</span><span class="st">`</span> <span class="ot">=</span> <span class="fu">paste0</span>(<span class="fu">round</span>(<span class="fu">min</span>(p_reads_lost_abs_marginal<span class="sc">*</span><span class="dv">100</span>),<span class="dv">1</span>), <span class="st">"-"</span>, <span class="fu">round</span>(<span class="fu">max</span>(p_reads_lost_abs_marginal<span class="sc">*</span><span class="dv">100</span>),<span class="dv">1</span>), <span class="st">" (mean "</span>, <span class="fu">round</span>(<span class="fu">mean</span>(p_reads_lost_abs_marginal<span class="sc">*</span><span class="dv">100</span>),<span class="dv">1</span>), <span class="st">")"</span>), <span class="at">.groups=</span><span class="st">"drop"</span>) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-204"><a href="#cb43-204" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(Stage <span class="sc">!=</span> <span class="st">"raw_concat"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-205"><a href="#cb43-205" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">Stage =</span> Stage <span class="sc">%&gt;%</span> as.numeric <span class="sc">%&gt;%</span> <span class="fu">factor</span>(<span class="at">labels=</span><span class="fu">c</span>(<span class="st">"Trimming &amp; filtering"</span>, <span class="st">"Deduplication"</span>, <span class="st">"Initial ribodepletion"</span>, <span class="st">"Secondary ribodepletion"</span>)))</span>
+<span id="cb43-206"><a href="#cb43-206" aria-hidden="true" tabindex="-1"></a>n_reads_rel_display</span>
+<span id="cb43-207"><a href="#cb43-207" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-208"><a href="#cb43-208" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-211"><a href="#cb43-211" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-212"><a href="#cb43-212" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: preproc-figures</span></span>
+<span id="cb43-213"><a href="#cb43-213" aria-hidden="true" tabindex="-1"></a><span class="co">#| warning: false</span></span>
+<span id="cb43-214"><a href="#cb43-214" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-height: 4</span></span>
+<span id="cb43-215"><a href="#cb43-215" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-width: 6</span></span>
+<span id="cb43-216"><a href="#cb43-216" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-217"><a href="#cb43-217" aria-hidden="true" tabindex="-1"></a>g_stage_base <span class="ot">&lt;-</span> <span class="fu">ggplot</span>(<span class="at">mapping=</span><span class="fu">aes</span>(<span class="at">x=</span>stage, <span class="at">group=</span>sample)) <span class="sc">+</span></span>
+<span id="cb43-218"><a href="#cb43-218" aria-hidden="true" tabindex="-1"></a>  theme_kit</span>
+<span id="cb43-219"><a href="#cb43-219" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-220"><a href="#cb43-220" aria-hidden="true" tabindex="-1"></a><span class="co"># Plot reads over preprocessing</span></span>
+<span id="cb43-221"><a href="#cb43-221" aria-hidden="true" tabindex="-1"></a>g_reads_stages <span class="ot">&lt;-</span> g_stage_base <span class="sc">+</span></span>
+<span id="cb43-222"><a href="#cb43-222" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_line</span>(<span class="fu">aes</span>(<span class="at">y=</span>n_read_pairs), <span class="at">data=</span>basic_stats) <span class="sc">+</span></span>
+<span id="cb43-223"><a href="#cb43-223" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="st">"# Read pairs"</span>, <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>), <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="cn">NA</span>))</span>
+<span id="cb43-224"><a href="#cb43-224" aria-hidden="true" tabindex="-1"></a>g_reads_stages</span>
+<span id="cb43-225"><a href="#cb43-225" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-226"><a href="#cb43-226" aria-hidden="true" tabindex="-1"></a><span class="co"># Plot relative read losses during preprocessing</span></span>
+<span id="cb43-227"><a href="#cb43-227" aria-hidden="true" tabindex="-1"></a>g_reads_rel <span class="ot">&lt;-</span> g_stage_base <span class="sc">+</span></span>
+<span id="cb43-228"><a href="#cb43-228" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_line</span>(<span class="fu">aes</span>(<span class="at">y=</span>p_reads_lost_abs_marginal), <span class="at">data=</span>n_reads_rel) <span class="sc">+</span></span>
+<span id="cb43-229"><a href="#cb43-229" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="st">"% Total Reads Lost"</span>, <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>), </span>
+<span id="cb43-230"><a href="#cb43-230" aria-hidden="true" tabindex="-1"></a>                     <span class="at">labels =</span> <span class="cf">function</span>(x) x<span class="sc">*</span><span class="dv">100</span>)</span>
+<span id="cb43-231"><a href="#cb43-231" aria-hidden="true" tabindex="-1"></a>g_reads_rel</span>
+<span id="cb43-232"><a href="#cb43-232" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-233"><a href="#cb43-233" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-234"><a href="#cb43-234" aria-hidden="true" tabindex="-1"></a>Data cleaning was very successful at removing adapters and improving read qualities:</span>
+<span id="cb43-235"><a href="#cb43-235" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-238"><a href="#cb43-238" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-239"><a href="#cb43-239" aria-hidden="true" tabindex="-1"></a><span class="co">#| warning: false</span></span>
+<span id="cb43-240"><a href="#cb43-240" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: plot-quality</span></span>
+<span id="cb43-241"><a href="#cb43-241" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-height: 7</span></span>
+<span id="cb43-242"><a href="#cb43-242" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-243"><a href="#cb43-243" aria-hidden="true" tabindex="-1"></a>g_qual <span class="ot">&lt;-</span> <span class="fu">ggplot</span>(<span class="at">mapping=</span><span class="fu">aes</span>(<span class="at">linetype=</span>read_pair, </span>
+<span id="cb43-244"><a href="#cb43-244" aria-hidden="true" tabindex="-1"></a>                         <span class="at">group=</span><span class="fu">interaction</span>(sample,read_pair))) <span class="sc">+</span> </span>
+<span id="cb43-245"><a href="#cb43-245" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_linetype_discrete</span>(<span class="at">name =</span> <span class="st">"Read Pair"</span>) <span class="sc">+</span></span>
+<span id="cb43-246"><a href="#cb43-246" aria-hidden="true" tabindex="-1"></a>  <span class="fu">guides</span>(<span class="at">color=</span><span class="fu">guide_legend</span>(<span class="at">nrow=</span><span class="dv">2</span>,<span class="at">byrow=</span><span class="cn">TRUE</span>),</span>
+<span id="cb43-247"><a href="#cb43-247" aria-hidden="true" tabindex="-1"></a>         <span class="at">linetype =</span> <span class="fu">guide_legend</span>(<span class="at">nrow=</span><span class="dv">2</span>,<span class="at">byrow=</span><span class="cn">TRUE</span>)) <span class="sc">+</span></span>
+<span id="cb43-248"><a href="#cb43-248" aria-hidden="true" tabindex="-1"></a>  theme_base</span>
+<span id="cb43-249"><a href="#cb43-249" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-250"><a href="#cb43-250" aria-hidden="true" tabindex="-1"></a><span class="co"># Visualize adapters</span></span>
+<span id="cb43-251"><a href="#cb43-251" aria-hidden="true" tabindex="-1"></a>g_adapters <span class="ot">&lt;-</span> g_qual <span class="sc">+</span> </span>
+<span id="cb43-252"><a href="#cb43-252" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_line</span>(<span class="fu">aes</span>(<span class="at">x=</span>position, <span class="at">y=</span>pc_adapters), <span class="at">data=</span>adapter_stats) <span class="sc">+</span></span>
+<span id="cb43-253"><a href="#cb43-253" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="at">name=</span><span class="st">"% Adapters"</span>, <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">20</span>),</span>
+<span id="cb43-254"><a href="#cb43-254" aria-hidden="true" tabindex="-1"></a>                     <span class="at">breaks =</span> <span class="fu">seq</span>(<span class="dv">0</span>,<span class="dv">50</span>,<span class="dv">10</span>), <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>)) <span class="sc">+</span></span>
+<span id="cb43-255"><a href="#cb43-255" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_x_continuous</span>(<span class="at">name=</span><span class="st">"Position"</span>, <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="cn">NA</span>),</span>
+<span id="cb43-256"><a href="#cb43-256" aria-hidden="true" tabindex="-1"></a>                     <span class="at">breaks=</span><span class="fu">seq</span>(<span class="dv">0</span>,<span class="dv">140</span>,<span class="dv">20</span>), <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>)) <span class="sc">+</span></span>
+<span id="cb43-257"><a href="#cb43-257" aria-hidden="true" tabindex="-1"></a>  <span class="fu">facet_grid</span>(stage<span class="sc">~</span>adapter)</span>
+<span id="cb43-258"><a href="#cb43-258" aria-hidden="true" tabindex="-1"></a>g_adapters</span>
+<span id="cb43-259"><a href="#cb43-259" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-260"><a href="#cb43-260" aria-hidden="true" tabindex="-1"></a><span class="co"># Visualize quality</span></span>
+<span id="cb43-261"><a href="#cb43-261" aria-hidden="true" tabindex="-1"></a>g_quality_base <span class="ot">&lt;-</span> g_qual <span class="sc">+</span></span>
+<span id="cb43-262"><a href="#cb43-262" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_hline</span>(<span class="at">yintercept=</span><span class="dv">25</span>, <span class="at">linetype=</span><span class="st">"dashed"</span>, <span class="at">color=</span><span class="st">"red"</span>) <span class="sc">+</span></span>
+<span id="cb43-263"><a href="#cb43-263" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_hline</span>(<span class="at">yintercept=</span><span class="dv">30</span>, <span class="at">linetype=</span><span class="st">"dashed"</span>, <span class="at">color=</span><span class="st">"red"</span>) <span class="sc">+</span></span>
+<span id="cb43-264"><a href="#cb43-264" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_line</span>(<span class="fu">aes</span>(<span class="at">x=</span>position, <span class="at">y=</span>mean_phred_score), <span class="at">data=</span>quality_base_stats) <span class="sc">+</span></span>
+<span id="cb43-265"><a href="#cb43-265" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="at">name=</span><span class="st">"Mean Phred score"</span>, <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>), <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">10</span>,<span class="dv">45</span>)) <span class="sc">+</span></span>
+<span id="cb43-266"><a href="#cb43-266" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_x_continuous</span>(<span class="at">name=</span><span class="st">"Position"</span>, <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="cn">NA</span>),</span>
+<span id="cb43-267"><a href="#cb43-267" aria-hidden="true" tabindex="-1"></a>                     <span class="at">breaks=</span><span class="fu">seq</span>(<span class="dv">0</span>,<span class="dv">140</span>,<span class="dv">20</span>), <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>)) <span class="sc">+</span></span>
+<span id="cb43-268"><a href="#cb43-268" aria-hidden="true" tabindex="-1"></a>  <span class="fu">facet_grid</span>(stage<span class="sc">~</span>.)</span>
+<span id="cb43-269"><a href="#cb43-269" aria-hidden="true" tabindex="-1"></a>g_quality_base</span>
+<span id="cb43-270"><a href="#cb43-270" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-271"><a href="#cb43-271" aria-hidden="true" tabindex="-1"></a>g_quality_seq <span class="ot">&lt;-</span> g_qual <span class="sc">+</span></span>
+<span id="cb43-272"><a href="#cb43-272" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_vline</span>(<span class="at">xintercept=</span><span class="dv">25</span>, <span class="at">linetype=</span><span class="st">"dashed"</span>, <span class="at">color=</span><span class="st">"red"</span>) <span class="sc">+</span></span>
+<span id="cb43-273"><a href="#cb43-273" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_vline</span>(<span class="at">xintercept=</span><span class="dv">30</span>, <span class="at">linetype=</span><span class="st">"dashed"</span>, <span class="at">color=</span><span class="st">"red"</span>) <span class="sc">+</span></span>
+<span id="cb43-274"><a href="#cb43-274" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_line</span>(<span class="fu">aes</span>(<span class="at">x=</span>mean_phred_score, <span class="at">y=</span>n_sequences), <span class="at">data=</span>quality_seq_stats) <span class="sc">+</span></span>
+<span id="cb43-275"><a href="#cb43-275" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_x_continuous</span>(<span class="at">name=</span><span class="st">"Mean Phred score"</span>, <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>)) <span class="sc">+</span></span>
+<span id="cb43-276"><a href="#cb43-276" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="at">name=</span><span class="st">"# Sequences"</span>, <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>)) <span class="sc">+</span></span>
+<span id="cb43-277"><a href="#cb43-277" aria-hidden="true" tabindex="-1"></a>  <span class="fu">facet_grid</span>(stage<span class="sc">~</span>.)</span>
+<span id="cb43-278"><a href="#cb43-278" aria-hidden="true" tabindex="-1"></a>g_quality_seq</span>
+<span id="cb43-279"><a href="#cb43-279" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-280"><a href="#cb43-280" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-281"><a href="#cb43-281" aria-hidden="true" tabindex="-1"></a>According to FASTQC, cleaning + deduplication was very effective at reducing measured duplicate levels in the few samples that required it:</span>
+<span id="cb43-282"><a href="#cb43-282" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-285"><a href="#cb43-285" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-286"><a href="#cb43-286" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: preproc-dedup</span></span>
+<span id="cb43-287"><a href="#cb43-287" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-height: 3.5</span></span>
+<span id="cb43-288"><a href="#cb43-288" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-width: 6</span></span>
+<span id="cb43-289"><a href="#cb43-289" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-290"><a href="#cb43-290" aria-hidden="true" tabindex="-1"></a>stage_dup <span class="ot">&lt;-</span> basic_stats <span class="sc">%&gt;%</span> <span class="fu">group_by</span>(stage) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-291"><a href="#cb43-291" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">dmin =</span> <span class="fu">min</span>(percent_duplicates), <span class="at">dmax=</span><span class="fu">max</span>(percent_duplicates),</span>
+<span id="cb43-292"><a href="#cb43-292" aria-hidden="true" tabindex="-1"></a>            <span class="at">dmean=</span><span class="fu">mean</span>(percent_duplicates), <span class="at">.groups =</span> <span class="st">"drop"</span>)</span>
+<span id="cb43-293"><a href="#cb43-293" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-294"><a href="#cb43-294" aria-hidden="true" tabindex="-1"></a>g_dup_stages <span class="ot">&lt;-</span> g_stage_base <span class="sc">+</span></span>
+<span id="cb43-295"><a href="#cb43-295" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_line</span>(<span class="fu">aes</span>(<span class="at">y=</span>percent_duplicates), <span class="at">data=</span>basic_stats) <span class="sc">+</span></span>
+<span id="cb43-296"><a href="#cb43-296" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="st">"% Duplicates"</span>, <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="cn">NA</span>), <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>))</span>
+<span id="cb43-297"><a href="#cb43-297" aria-hidden="true" tabindex="-1"></a>g_dup_stages</span>
+<span id="cb43-298"><a href="#cb43-298" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-299"><a href="#cb43-299" aria-hidden="true" tabindex="-1"></a>g_readlen_stages <span class="ot">&lt;-</span> g_stage_base <span class="sc">+</span> </span>
+<span id="cb43-300"><a href="#cb43-300" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_line</span>(<span class="fu">aes</span>(<span class="at">y=</span>mean_seq_len), <span class="at">data=</span>basic_stats) <span class="sc">+</span></span>
+<span id="cb43-301"><a href="#cb43-301" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="st">"Mean read length (nt)"</span>, <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>), <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="cn">NA</span>))</span>
+<span id="cb43-302"><a href="#cb43-302" aria-hidden="true" tabindex="-1"></a>g_readlen_stages</span>
+<span id="cb43-303"><a href="#cb43-303" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-304"><a href="#cb43-304" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-305"><a href="#cb43-305" aria-hidden="true" tabindex="-1"></a><span class="fu"># High-level composition</span></span>
+<span id="cb43-306"><a href="#cb43-306" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-307"><a href="#cb43-307" aria-hidden="true" tabindex="-1"></a>As before, to assess the high-level composition of the reads, I ran the ribodepleted files through Kraken (using the Standard 16 database) and summarized the results with Bracken. Combining these results with the read counts above gives us a breakdown of the inferred composition of the samples:</span>
+<span id="cb43-308"><a href="#cb43-308" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-311"><a href="#cb43-311" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-312"><a href="#cb43-312" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: prepare-composition</span></span>
+<span id="cb43-313"><a href="#cb43-313" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-314"><a href="#cb43-314" aria-hidden="true" tabindex="-1"></a>classifications <span class="ot">&lt;-</span> <span class="fu">c</span>(<span class="st">"Filtered"</span>, <span class="st">"Duplicate"</span>, <span class="st">"Ribosomal"</span>, <span class="st">"Unassigned"</span>,</span>
+<span id="cb43-315"><a href="#cb43-315" aria-hidden="true" tabindex="-1"></a>                     <span class="st">"Bacterial"</span>, <span class="st">"Archaeal"</span>, <span class="st">"Viral"</span>, <span class="st">"Human"</span>)</span>
+<span id="cb43-316"><a href="#cb43-316" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-317"><a href="#cb43-317" aria-hidden="true" tabindex="-1"></a><span class="co"># Import composition data</span></span>
+<span id="cb43-318"><a href="#cb43-318" aria-hidden="true" tabindex="-1"></a>comp_path <span class="ot">&lt;-</span> <span class="fu">file.path</span>(data_dir, <span class="st">"taxonomic_composition.tsv.gz"</span>)</span>
+<span id="cb43-319"><a href="#cb43-319" aria-hidden="true" tabindex="-1"></a>comp <span class="ot">&lt;-</span> <span class="fu">read_tsv</span>(comp_path, <span class="at">show_col_types =</span> <span class="cn">FALSE</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-320"><a href="#cb43-320" aria-hidden="true" tabindex="-1"></a>  <span class="fu">left_join</span>(libraries, <span class="at">by=</span><span class="st">"sample"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-321"><a href="#cb43-321" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">classification =</span> <span class="fu">factor</span>(classification, <span class="at">levels =</span> classifications))</span>
+<span id="cb43-322"><a href="#cb43-322" aria-hidden="true" tabindex="-1"></a>  </span>
+<span id="cb43-323"><a href="#cb43-323" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-324"><a href="#cb43-324" aria-hidden="true" tabindex="-1"></a><span class="co"># Summarize composition</span></span>
+<span id="cb43-325"><a href="#cb43-325" aria-hidden="true" tabindex="-1"></a>read_comp_summ <span class="ot">&lt;-</span> comp <span class="sc">%&gt;%</span> </span>
+<span id="cb43-326"><a href="#cb43-326" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(classification) <span class="sc">%&gt;%</span></span>
+<span id="cb43-327"><a href="#cb43-327" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">n_reads =</span> <span class="fu">sum</span>(n_reads), <span class="at">.groups =</span> <span class="st">"drop_last"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-328"><a href="#cb43-328" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">n_reads =</span> <span class="fu">replace_na</span>(n_reads,<span class="dv">0</span>),</span>
+<span id="cb43-329"><a href="#cb43-329" aria-hidden="true" tabindex="-1"></a>    <span class="at">p_reads =</span> n_reads<span class="sc">/</span><span class="fu">sum</span>(n_reads),</span>
+<span id="cb43-330"><a href="#cb43-330" aria-hidden="true" tabindex="-1"></a>    <span class="at">pc_reads =</span> p_reads<span class="sc">*</span><span class="dv">100</span>)</span>
+<span id="cb43-331"><a href="#cb43-331" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-332"><a href="#cb43-332" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-335"><a href="#cb43-335" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-336"><a href="#cb43-336" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: plot-composition-all</span></span>
+<span id="cb43-337"><a href="#cb43-337" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-height: 7</span></span>
+<span id="cb43-338"><a href="#cb43-338" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-width: 8</span></span>
+<span id="cb43-339"><a href="#cb43-339" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-340"><a href="#cb43-340" aria-hidden="true" tabindex="-1"></a><span class="co"># Prepare plotting templates</span></span>
+<span id="cb43-341"><a href="#cb43-341" aria-hidden="true" tabindex="-1"></a>g_comp_base <span class="ot">&lt;-</span> <span class="fu">ggplot</span>(<span class="at">mapping=</span><span class="fu">aes</span>(<span class="at">x=</span>sample, <span class="at">y=</span>p_reads, <span class="at">fill=</span>classification)) <span class="sc">+</span></span>
+<span id="cb43-342"><a href="#cb43-342" aria-hidden="true" tabindex="-1"></a>  theme_kit</span>
+<span id="cb43-343"><a href="#cb43-343" aria-hidden="true" tabindex="-1"></a>scale_y_pc_reads <span class="ot">&lt;-</span> purrr<span class="sc">::</span><span class="fu">partial</span>(scale_y_continuous, <span class="at">name =</span> <span class="st">"% Reads"</span>,</span>
+<span id="cb43-344"><a href="#cb43-344" aria-hidden="true" tabindex="-1"></a>                                   <span class="at">expand =</span> <span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>), <span class="at">labels =</span> <span class="cf">function</span>(y) y<span class="sc">*</span><span class="dv">100</span>)</span>
+<span id="cb43-345"><a href="#cb43-345" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-346"><a href="#cb43-346" aria-hidden="true" tabindex="-1"></a><span class="co"># Plot overall composition</span></span>
+<span id="cb43-347"><a href="#cb43-347" aria-hidden="true" tabindex="-1"></a>g_comp <span class="ot">&lt;-</span> g_comp_base <span class="sc">+</span> <span class="fu">geom_col</span>(<span class="at">data =</span> comp, <span class="at">position =</span> <span class="st">"stack"</span>, <span class="at">width=</span><span class="dv">1</span>) <span class="sc">+</span></span>
+<span id="cb43-348"><a href="#cb43-348" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_pc_reads</span>(<span class="at">limits =</span> <span class="fu">c</span>(<span class="dv">0</span>,<span class="fl">1.01</span>), <span class="at">breaks =</span> <span class="fu">seq</span>(<span class="dv">0</span>,<span class="dv">1</span>,<span class="fl">0.2</span>)) <span class="sc">+</span></span>
+<span id="cb43-349"><a href="#cb43-349" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_fill_brewer</span>(<span class="at">palette =</span> <span class="st">"Set1"</span>, <span class="at">name =</span> <span class="st">"Classification"</span>)</span>
+<span id="cb43-350"><a href="#cb43-350" aria-hidden="true" tabindex="-1"></a>g_comp</span>
+<span id="cb43-351"><a href="#cb43-351" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-352"><a href="#cb43-352" aria-hidden="true" tabindex="-1"></a><span class="co"># Plot composition of minor components</span></span>
+<span id="cb43-353"><a href="#cb43-353" aria-hidden="true" tabindex="-1"></a>comp_minor <span class="ot">&lt;-</span> comp <span class="sc">%&gt;%</span> </span>
+<span id="cb43-354"><a href="#cb43-354" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(classification <span class="sc">%in%</span> <span class="fu">c</span>(<span class="st">"Archaeal"</span>, <span class="st">"Viral"</span>, <span class="st">"Human"</span>, <span class="st">"Other"</span>))</span>
+<span id="cb43-355"><a href="#cb43-355" aria-hidden="true" tabindex="-1"></a>palette_minor <span class="ot">&lt;-</span> <span class="fu">brewer.pal</span>(<span class="dv">9</span>, <span class="st">"Set1"</span>)[<span class="dv">6</span><span class="sc">:</span><span class="dv">9</span>]</span>
+<span id="cb43-356"><a href="#cb43-356" aria-hidden="true" tabindex="-1"></a>g_comp_minor <span class="ot">&lt;-</span> g_comp_base <span class="sc">+</span> </span>
+<span id="cb43-357"><a href="#cb43-357" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_col</span>(<span class="at">data=</span>comp_minor, <span class="at">position =</span> <span class="st">"stack"</span>, <span class="at">width=</span><span class="dv">1</span>) <span class="sc">+</span></span>
+<span id="cb43-358"><a href="#cb43-358" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_pc_reads</span>() <span class="sc">+</span></span>
+<span id="cb43-359"><a href="#cb43-359" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_fill_manual</span>(<span class="at">values=</span>palette_minor, <span class="at">name =</span> <span class="st">"Classification"</span>)</span>
+<span id="cb43-360"><a href="#cb43-360" aria-hidden="true" tabindex="-1"></a>g_comp_minor</span>
+<span id="cb43-361"><a href="#cb43-361" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-362"><a href="#cb43-362" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-363"><a href="#cb43-363" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-366"><a href="#cb43-366" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-367"><a href="#cb43-367" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: composition-summary</span></span>
+<span id="cb43-368"><a href="#cb43-368" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-369"><a href="#cb43-369" aria-hidden="true" tabindex="-1"></a>p_reads_summ_group <span class="ot">&lt;-</span> comp <span class="sc">%&gt;%</span></span>
+<span id="cb43-370"><a href="#cb43-370" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">classification =</span> <span class="fu">ifelse</span>(classification <span class="sc">%in%</span> <span class="fu">c</span>(<span class="st">"Filtered"</span>, <span class="st">"Duplicate"</span>, <span class="st">"Unassigned"</span>), <span class="st">"Excluded"</span>, <span class="fu">as.character</span>(classification)),</span>
+<span id="cb43-371"><a href="#cb43-371" aria-hidden="true" tabindex="-1"></a>         <span class="at">classification =</span> <span class="fu">fct_inorder</span>(classification)) <span class="sc">%&gt;%</span></span>
+<span id="cb43-372"><a href="#cb43-372" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(classification, sample) <span class="sc">%&gt;%</span></span>
+<span id="cb43-373"><a href="#cb43-373" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">p_reads =</span> <span class="fu">sum</span>(p_reads), <span class="at">.groups =</span> <span class="st">"drop"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-374"><a href="#cb43-374" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(classification) <span class="sc">%&gt;%</span></span>
+<span id="cb43-375"><a href="#cb43-375" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">pc_min =</span> <span class="fu">min</span>(p_reads)<span class="sc">*</span><span class="dv">100</span>, <span class="at">pc_max =</span> <span class="fu">max</span>(p_reads)<span class="sc">*</span><span class="dv">100</span>, </span>
+<span id="cb43-376"><a href="#cb43-376" aria-hidden="true" tabindex="-1"></a>            <span class="at">pc_mean =</span> <span class="fu">mean</span>(p_reads)<span class="sc">*</span><span class="dv">100</span>, <span class="at">.groups =</span> <span class="st">"drop"</span>)</span>
+<span id="cb43-377"><a href="#cb43-377" aria-hidden="true" tabindex="-1"></a>p_reads_summ_prep <span class="ot">&lt;-</span> p_reads_summ_group <span class="sc">%&gt;%</span></span>
+<span id="cb43-378"><a href="#cb43-378" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">classification =</span> <span class="fu">fct_inorder</span>(classification),</span>
+<span id="cb43-379"><a href="#cb43-379" aria-hidden="true" tabindex="-1"></a>         <span class="at">pc_min =</span> pc_min <span class="sc">%&gt;%</span> <span class="fu">signif</span>(<span class="at">digits=</span><span class="dv">2</span>) <span class="sc">%&gt;%</span> <span class="fu">sapply</span>(format, <span class="at">scientific=</span><span class="cn">FALSE</span>, <span class="at">trim=</span><span class="cn">TRUE</span>, <span class="at">digits=</span><span class="dv">2</span>),</span>
+<span id="cb43-380"><a href="#cb43-380" aria-hidden="true" tabindex="-1"></a>         <span class="at">pc_max =</span> pc_max <span class="sc">%&gt;%</span> <span class="fu">signif</span>(<span class="at">digits=</span><span class="dv">2</span>) <span class="sc">%&gt;%</span> <span class="fu">sapply</span>(format, <span class="at">scientific=</span><span class="cn">FALSE</span>, <span class="at">trim=</span><span class="cn">TRUE</span>, <span class="at">digits=</span><span class="dv">2</span>),</span>
+<span id="cb43-381"><a href="#cb43-381" aria-hidden="true" tabindex="-1"></a>         <span class="at">pc_mean =</span> pc_mean <span class="sc">%&gt;%</span> <span class="fu">signif</span>(<span class="at">digits=</span><span class="dv">2</span>) <span class="sc">%&gt;%</span> <span class="fu">sapply</span>(format, <span class="at">scientific=</span><span class="cn">FALSE</span>, <span class="at">trim=</span><span class="cn">TRUE</span>, <span class="at">digits=</span><span class="dv">2</span>),</span>
+<span id="cb43-382"><a href="#cb43-382" aria-hidden="true" tabindex="-1"></a>         <span class="at">display =</span> <span class="fu">paste0</span>(pc_min, <span class="st">"-"</span>, pc_max, <span class="st">"% (mean "</span>, pc_mean, <span class="st">"%)"</span>))</span>
+<span id="cb43-383"><a href="#cb43-383" aria-hidden="true" tabindex="-1"></a>p_reads_summ <span class="ot">&lt;-</span> p_reads_summ_prep <span class="sc">%&gt;%</span></span>
+<span id="cb43-384"><a href="#cb43-384" aria-hidden="true" tabindex="-1"></a>  <span class="fu">select</span>(<span class="at">Classification=</span>classification, </span>
+<span id="cb43-385"><a href="#cb43-385" aria-hidden="true" tabindex="-1"></a>         <span class="st">`</span><span class="at">Read Fraction</span><span class="st">`</span><span class="ot">=</span>display) <span class="sc">%&gt;%</span></span>
+<span id="cb43-386"><a href="#cb43-386" aria-hidden="true" tabindex="-1"></a>  <span class="fu">arrange</span>(Classification)</span>
+<span id="cb43-387"><a href="#cb43-387" aria-hidden="true" tabindex="-1"></a>p_reads_summ</span>
+<span id="cb43-388"><a href="#cb43-388" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-389"><a href="#cb43-389" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-390"><a href="#cb43-390" aria-hidden="true" tabindex="-1"></a>As in previous DNA datasets, the vast majority of classified reads were bacterial in origin. Viral fraction averaged 0.13%, though one samples (NYC-08) reached almost 1%. As is common for DNA data, viral reads were overwhelmingly dominated by *Caudoviricetes* phages:</span>
+<span id="cb43-391"><a href="#cb43-391" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-394"><a href="#cb43-394" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-395"><a href="#cb43-395" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: extract-viral-taxa</span></span>
+<span id="cb43-396"><a href="#cb43-396" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-397"><a href="#cb43-397" aria-hidden="true" tabindex="-1"></a><span class="co"># Get Kraken reports</span></span>
+<span id="cb43-398"><a href="#cb43-398" aria-hidden="true" tabindex="-1"></a>reports_path <span class="ot">&lt;-</span> <span class="fu">file.path</span>(data_dir, <span class="st">"kraken_reports.tsv.gz"</span>)</span>
+<span id="cb43-399"><a href="#cb43-399" aria-hidden="true" tabindex="-1"></a>reports <span class="ot">&lt;-</span> <span class="fu">read_tsv</span>(reports_path, <span class="at">show_col_types =</span> <span class="cn">FALSE</span>)</span>
+<span id="cb43-400"><a href="#cb43-400" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-401"><a href="#cb43-401" aria-hidden="true" tabindex="-1"></a><span class="co"># Get viral taxonomy</span></span>
+<span id="cb43-402"><a href="#cb43-402" aria-hidden="true" tabindex="-1"></a>viral_taxa_path <span class="ot">&lt;-</span> <span class="fu">file.path</span>(data_dir, <span class="st">"viral-taxids.tsv.gz"</span>)</span>
+<span id="cb43-403"><a href="#cb43-403" aria-hidden="true" tabindex="-1"></a>viral_taxa <span class="ot">&lt;-</span> <span class="fu">read_tsv</span>(viral_taxa_path, <span class="at">show_col_types =</span> <span class="cn">FALSE</span>)</span>
+<span id="cb43-404"><a href="#cb43-404" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-405"><a href="#cb43-405" aria-hidden="true" tabindex="-1"></a><span class="co"># Filter to viral taxa</span></span>
+<span id="cb43-406"><a href="#cb43-406" aria-hidden="true" tabindex="-1"></a>kraken_reports_viral <span class="ot">&lt;-</span> <span class="fu">filter</span>(reports, taxid <span class="sc">%in%</span> viral_taxa<span class="sc">$</span>taxid) <span class="sc">%&gt;%</span></span>
+<span id="cb43-407"><a href="#cb43-407" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample) <span class="sc">%&gt;%</span></span>
+<span id="cb43-408"><a href="#cb43-408" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">p_reads_viral =</span> n_reads_clade<span class="sc">/</span>n_reads_clade[<span class="dv">1</span>])</span>
+<span id="cb43-409"><a href="#cb43-409" aria-hidden="true" tabindex="-1"></a>kraken_reports_viral_cleaned <span class="ot">&lt;-</span> kraken_reports_viral <span class="sc">%&gt;%</span></span>
+<span id="cb43-410"><a href="#cb43-410" aria-hidden="true" tabindex="-1"></a>  <span class="fu">inner_join</span>(libraries, <span class="at">by=</span><span class="st">"sample"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-411"><a href="#cb43-411" aria-hidden="true" tabindex="-1"></a>  <span class="fu">select</span>(<span class="sc">-</span>pc_reads_total, <span class="sc">-</span>n_reads_direct, <span class="sc">-</span><span class="fu">contains</span>(<span class="st">"minimizers"</span>)) <span class="sc">%&gt;%</span></span>
+<span id="cb43-412"><a href="#cb43-412" aria-hidden="true" tabindex="-1"></a>  <span class="fu">select</span>(name, taxid, p_reads_viral, n_reads_clade, <span class="fu">everything</span>())</span>
+<span id="cb43-413"><a href="#cb43-413" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-414"><a href="#cb43-414" aria-hidden="true" tabindex="-1"></a>viral_classes <span class="ot">&lt;-</span> kraken_reports_viral_cleaned <span class="sc">%&gt;%</span> <span class="fu">filter</span>(rank <span class="sc">==</span> <span class="st">"C"</span>)</span>
+<span id="cb43-415"><a href="#cb43-415" aria-hidden="true" tabindex="-1"></a>viral_families <span class="ot">&lt;-</span> kraken_reports_viral_cleaned <span class="sc">%&gt;%</span> <span class="fu">filter</span>(rank <span class="sc">==</span> <span class="st">"F"</span>)</span>
+<span id="cb43-416"><a href="#cb43-416" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-417"><a href="#cb43-417" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-418"><a href="#cb43-418" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-421"><a href="#cb43-421" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-422"><a href="#cb43-422" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: viral-class-composition</span></span>
+<span id="cb43-423"><a href="#cb43-423" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-424"><a href="#cb43-424" aria-hidden="true" tabindex="-1"></a>major_threshold <span class="ot">&lt;-</span> <span class="fl">0.02</span></span>
+<span id="cb43-425"><a href="#cb43-425" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-426"><a href="#cb43-426" aria-hidden="true" tabindex="-1"></a><span class="co"># Identify major viral classes</span></span>
+<span id="cb43-427"><a href="#cb43-427" aria-hidden="true" tabindex="-1"></a>viral_classes_major_tab <span class="ot">&lt;-</span> viral_classes <span class="sc">%&gt;%</span> </span>
+<span id="cb43-428"><a href="#cb43-428" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(name, taxid) <span class="sc">%&gt;%</span></span>
+<span id="cb43-429"><a href="#cb43-429" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">p_reads_viral_max =</span> <span class="fu">max</span>(p_reads_viral), <span class="at">.groups=</span><span class="st">"drop"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-430"><a href="#cb43-430" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(p_reads_viral_max <span class="sc">&gt;=</span> major_threshold)</span>
+<span id="cb43-431"><a href="#cb43-431" aria-hidden="true" tabindex="-1"></a>viral_classes_major_list <span class="ot">&lt;-</span> viral_classes_major_tab <span class="sc">%&gt;%</span> <span class="fu">pull</span>(name)</span>
+<span id="cb43-432"><a href="#cb43-432" aria-hidden="true" tabindex="-1"></a>viral_classes_major <span class="ot">&lt;-</span> viral_classes <span class="sc">%&gt;%</span> </span>
+<span id="cb43-433"><a href="#cb43-433" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(name <span class="sc">%in%</span> viral_classes_major_list) <span class="sc">%&gt;%</span></span>
+<span id="cb43-434"><a href="#cb43-434" aria-hidden="true" tabindex="-1"></a>  <span class="fu">select</span>(name, taxid, sample, p_reads_viral)</span>
+<span id="cb43-435"><a href="#cb43-435" aria-hidden="true" tabindex="-1"></a>viral_classes_minor <span class="ot">&lt;-</span> viral_classes_major <span class="sc">%&gt;%</span> </span>
+<span id="cb43-436"><a href="#cb43-436" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample) <span class="sc">%&gt;%</span></span>
+<span id="cb43-437"><a href="#cb43-437" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">p_reads_viral_major =</span> <span class="fu">sum</span>(p_reads_viral), <span class="at">.groups =</span> <span class="st">"drop"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-438"><a href="#cb43-438" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">name =</span> <span class="st">"Other"</span>, <span class="at">taxid=</span><span class="cn">NA</span>, <span class="at">p_reads_viral =</span> <span class="dv">1</span><span class="sc">-</span>p_reads_viral_major) <span class="sc">%&gt;%</span></span>
+<span id="cb43-439"><a href="#cb43-439" aria-hidden="true" tabindex="-1"></a>  <span class="fu">select</span>(name, taxid, sample, p_reads_viral)</span>
+<span id="cb43-440"><a href="#cb43-440" aria-hidden="true" tabindex="-1"></a>viral_classes_display <span class="ot">&lt;-</span> <span class="fu">bind_rows</span>(viral_classes_major, viral_classes_minor) <span class="sc">%&gt;%</span></span>
+<span id="cb43-441"><a href="#cb43-441" aria-hidden="true" tabindex="-1"></a>  <span class="fu">arrange</span>(<span class="fu">desc</span>(p_reads_viral)) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-442"><a href="#cb43-442" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">name =</span> <span class="fu">factor</span>(name, <span class="at">levels=</span><span class="fu">c</span>(viral_classes_major_list, <span class="st">"Other"</span>)),</span>
+<span id="cb43-443"><a href="#cb43-443" aria-hidden="true" tabindex="-1"></a>         <span class="at">p_reads_viral =</span> <span class="fu">pmax</span>(p_reads_viral, <span class="dv">0</span>)) <span class="sc">%&gt;%</span></span>
+<span id="cb43-444"><a href="#cb43-444" aria-hidden="true" tabindex="-1"></a>  <span class="fu">rename</span>(<span class="at">p_reads =</span> p_reads_viral, <span class="at">classification=</span>name)</span>
+<span id="cb43-445"><a href="#cb43-445" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-446"><a href="#cb43-446" aria-hidden="true" tabindex="-1"></a>palette_viral <span class="ot">&lt;-</span> <span class="fu">c</span>(<span class="fu">brewer.pal</span>(<span class="dv">12</span>, <span class="st">"Set3"</span>), <span class="fu">brewer.pal</span>(<span class="dv">8</span>, <span class="st">"Dark2"</span>))</span>
+<span id="cb43-447"><a href="#cb43-447" aria-hidden="true" tabindex="-1"></a>g_classes <span class="ot">&lt;-</span> g_comp_base <span class="sc">+</span> </span>
+<span id="cb43-448"><a href="#cb43-448" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_col</span>(<span class="at">data=</span>viral_classes_display, <span class="at">position =</span> <span class="st">"stack"</span>, <span class="at">width=</span><span class="dv">1</span>) <span class="sc">+</span></span>
+<span id="cb43-449"><a href="#cb43-449" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="at">name=</span><span class="st">"% Viral Reads"</span>, <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="fl">1.01</span>), <span class="at">breaks =</span> <span class="fu">seq</span>(<span class="dv">0</span>,<span class="dv">1</span>,<span class="fl">0.2</span>),</span>
+<span id="cb43-450"><a href="#cb43-450" aria-hidden="true" tabindex="-1"></a>                     <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>), <span class="at">labels =</span> <span class="cf">function</span>(y) y<span class="sc">*</span><span class="dv">100</span>) <span class="sc">+</span></span>
+<span id="cb43-451"><a href="#cb43-451" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_fill_manual</span>(<span class="at">values=</span>palette_viral, <span class="at">name =</span> <span class="st">"Viral class"</span>)</span>
+<span id="cb43-452"><a href="#cb43-452" aria-hidden="true" tabindex="-1"></a>  </span>
+<span id="cb43-453"><a href="#cb43-453" aria-hidden="true" tabindex="-1"></a>g_classes</span>
+<span id="cb43-454"><a href="#cb43-454" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-455"><a href="#cb43-455" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-456"><a href="#cb43-456" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-457"><a href="#cb43-457" aria-hidden="true" tabindex="-1"></a><span class="fu"># Human-infecting virus reads: validation</span></span>
+<span id="cb43-458"><a href="#cb43-458" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-459"><a href="#cb43-459" aria-hidden="true" tabindex="-1"></a>Next, I investigated the human-infecting virus read content of these unenriched samples. A grand total of 199 reads were identified as putatively human-viral:</span>
+<span id="cb43-460"><a href="#cb43-460" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-463"><a href="#cb43-463" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-464"><a href="#cb43-464" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: hv-read-counts</span></span>
+<span id="cb43-465"><a href="#cb43-465" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-466"><a href="#cb43-466" aria-hidden="true" tabindex="-1"></a><span class="co"># Import HV read data</span></span>
+<span id="cb43-467"><a href="#cb43-467" aria-hidden="true" tabindex="-1"></a>hv_reads_filtered_path <span class="ot">&lt;-</span> <span class="fu">file.path</span>(data_dir, <span class="st">"hv_hits_putative_filtered.tsv.gz"</span>)</span>
+<span id="cb43-468"><a href="#cb43-468" aria-hidden="true" tabindex="-1"></a>hv_reads_filtered <span class="ot">&lt;-</span> <span class="fu">lapply</span>(hv_reads_filtered_path, read_tsv,</span>
+<span id="cb43-469"><a href="#cb43-469" aria-hidden="true" tabindex="-1"></a>                            <span class="at">show_col_types =</span> <span class="cn">FALSE</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-470"><a href="#cb43-470" aria-hidden="true" tabindex="-1"></a>  <span class="fu">bind_rows</span>() <span class="sc">%&gt;%</span></span>
+<span id="cb43-471"><a href="#cb43-471" aria-hidden="true" tabindex="-1"></a>  <span class="fu">left_join</span>(libraries, <span class="at">by=</span><span class="st">"sample"</span>)</span>
+<span id="cb43-472"><a href="#cb43-472" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-473"><a href="#cb43-473" aria-hidden="true" tabindex="-1"></a><span class="co"># Count reads</span></span>
+<span id="cb43-474"><a href="#cb43-474" aria-hidden="true" tabindex="-1"></a>n_hv_filtered <span class="ot">&lt;-</span> hv_reads_filtered <span class="sc">%&gt;%</span></span>
+<span id="cb43-475"><a href="#cb43-475" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample, seq_id) <span class="sc">%&gt;%</span> count <span class="sc">%&gt;%</span></span>
+<span id="cb43-476"><a href="#cb43-476" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample) <span class="sc">%&gt;%</span> count <span class="sc">%&gt;%</span> </span>
+<span id="cb43-477"><a href="#cb43-477" aria-hidden="true" tabindex="-1"></a>  <span class="fu">inner_join</span>(basic_stats <span class="sc">%&gt;%</span> <span class="fu">filter</span>(stage <span class="sc">==</span> <span class="st">"ribo_initial"</span>) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-478"><a href="#cb43-478" aria-hidden="true" tabindex="-1"></a>               <span class="fu">select</span>(sample, n_read_pairs), <span class="at">by=</span><span class="st">"sample"</span>) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-479"><a href="#cb43-479" aria-hidden="true" tabindex="-1"></a>  <span class="fu">rename</span>(<span class="at">n_putative =</span> n, <span class="at">n_total =</span> n_read_pairs) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-480"><a href="#cb43-480" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">p_reads =</span> n_putative<span class="sc">/</span>n_total, <span class="at">pc_reads =</span> p_reads <span class="sc">*</span> <span class="dv">100</span>)</span>
+<span id="cb43-481"><a href="#cb43-481" aria-hidden="true" tabindex="-1"></a>n_hv_filtered_summ <span class="ot">&lt;-</span> n_hv_filtered <span class="sc">%&gt;%</span> ungroup <span class="sc">%&gt;%</span></span>
+<span id="cb43-482"><a href="#cb43-482" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">n_putative =</span> <span class="fu">sum</span>(n_putative), <span class="at">n_total =</span> <span class="fu">sum</span>(n_total), </span>
+<span id="cb43-483"><a href="#cb43-483" aria-hidden="true" tabindex="-1"></a>            <span class="at">.groups=</span><span class="st">"drop"</span>) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-484"><a href="#cb43-484" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">p_reads =</span> n_putative<span class="sc">/</span>n_total, <span class="at">pc_reads =</span> p_reads<span class="sc">*</span><span class="dv">100</span>)</span>
+<span id="cb43-485"><a href="#cb43-485" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-486"><a href="#cb43-486" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-489"><a href="#cb43-489" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-490"><a href="#cb43-490" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: plot-hv-scores</span></span>
+<span id="cb43-491"><a href="#cb43-491" aria-hidden="true" tabindex="-1"></a><span class="co">#| warning: false</span></span>
+<span id="cb43-492"><a href="#cb43-492" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-width: 8</span></span>
+<span id="cb43-493"><a href="#cb43-493" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-494"><a href="#cb43-494" aria-hidden="true" tabindex="-1"></a><span class="co"># Collapse multi-entry sequences</span></span>
+<span id="cb43-495"><a href="#cb43-495" aria-hidden="true" tabindex="-1"></a>rmax <span class="ot">&lt;-</span> purrr<span class="sc">::</span><span class="fu">partial</span>(max, <span class="at">na.rm =</span> <span class="cn">TRUE</span>)</span>
+<span id="cb43-496"><a href="#cb43-496" aria-hidden="true" tabindex="-1"></a>collapse <span class="ot">&lt;-</span> <span class="cf">function</span>(x) <span class="fu">ifelse</span>(<span class="fu">all</span>(x <span class="sc">==</span> x[<span class="dv">1</span>]), x[<span class="dv">1</span>], <span class="fu">paste</span>(x, <span class="at">collapse=</span><span class="st">"/"</span>))</span>
+<span id="cb43-497"><a href="#cb43-497" aria-hidden="true" tabindex="-1"></a>mrg <span class="ot">&lt;-</span> hv_reads_filtered <span class="sc">%&gt;%</span> </span>
+<span id="cb43-498"><a href="#cb43-498" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">adj_score_max =</span> <span class="fu">pmax</span>(adj_score_fwd, adj_score_rev, <span class="at">na.rm =</span> <span class="cn">TRUE</span>)) <span class="sc">%&gt;%</span></span>
+<span id="cb43-499"><a href="#cb43-499" aria-hidden="true" tabindex="-1"></a>  <span class="fu">arrange</span>(<span class="fu">desc</span>(adj_score_max)) <span class="sc">%&gt;%</span></span>
+<span id="cb43-500"><a href="#cb43-500" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(seq_id) <span class="sc">%&gt;%</span></span>
+<span id="cb43-501"><a href="#cb43-501" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">sample =</span> <span class="fu">collapse</span>(sample),</span>
+<span id="cb43-502"><a href="#cb43-502" aria-hidden="true" tabindex="-1"></a>            <span class="at">genome_id =</span> <span class="fu">collapse</span>(genome_id),</span>
+<span id="cb43-503"><a href="#cb43-503" aria-hidden="true" tabindex="-1"></a>            <span class="at">taxid_best =</span> taxid[<span class="dv">1</span>],</span>
+<span id="cb43-504"><a href="#cb43-504" aria-hidden="true" tabindex="-1"></a>            <span class="at">taxid =</span> <span class="fu">collapse</span>(<span class="fu">as.character</span>(taxid)),</span>
+<span id="cb43-505"><a href="#cb43-505" aria-hidden="true" tabindex="-1"></a>            <span class="at">best_alignment_score_fwd =</span> <span class="fu">rmax</span>(best_alignment_score_fwd),</span>
+<span id="cb43-506"><a href="#cb43-506" aria-hidden="true" tabindex="-1"></a>            <span class="at">best_alignment_score_rev =</span> <span class="fu">rmax</span>(best_alignment_score_rev),</span>
+<span id="cb43-507"><a href="#cb43-507" aria-hidden="true" tabindex="-1"></a>            <span class="at">query_len_fwd =</span> <span class="fu">rmax</span>(query_len_fwd),</span>
+<span id="cb43-508"><a href="#cb43-508" aria-hidden="true" tabindex="-1"></a>            <span class="at">query_len_rev =</span> <span class="fu">rmax</span>(query_len_rev),</span>
+<span id="cb43-509"><a href="#cb43-509" aria-hidden="true" tabindex="-1"></a>            <span class="at">query_seq_fwd =</span> query_seq_fwd[<span class="sc">!</span><span class="fu">is.na</span>(query_seq_fwd)][<span class="dv">1</span>],</span>
+<span id="cb43-510"><a href="#cb43-510" aria-hidden="true" tabindex="-1"></a>            <span class="at">query_seq_rev =</span> query_seq_rev[<span class="sc">!</span><span class="fu">is.na</span>(query_seq_rev)][<span class="dv">1</span>],</span>
+<span id="cb43-511"><a href="#cb43-511" aria-hidden="true" tabindex="-1"></a>            <span class="at">classified =</span> <span class="fu">rmax</span>(classified),</span>
+<span id="cb43-512"><a href="#cb43-512" aria-hidden="true" tabindex="-1"></a>            <span class="at">assigned_name =</span> <span class="fu">collapse</span>(assigned_name),</span>
+<span id="cb43-513"><a href="#cb43-513" aria-hidden="true" tabindex="-1"></a>            <span class="at">assigned_taxid_best =</span> assigned_taxid[<span class="dv">1</span>],</span>
+<span id="cb43-514"><a href="#cb43-514" aria-hidden="true" tabindex="-1"></a>            <span class="at">assigned_taxid =</span> <span class="fu">collapse</span>(<span class="fu">as.character</span>(assigned_taxid)),</span>
+<span id="cb43-515"><a href="#cb43-515" aria-hidden="true" tabindex="-1"></a>            <span class="at">assigned_hv =</span> <span class="fu">rmax</span>(assigned_hv),</span>
+<span id="cb43-516"><a href="#cb43-516" aria-hidden="true" tabindex="-1"></a>            <span class="at">hit_hv =</span> <span class="fu">rmax</span>(hit_hv),</span>
+<span id="cb43-517"><a href="#cb43-517" aria-hidden="true" tabindex="-1"></a>            <span class="at">encoded_hits =</span> <span class="fu">collapse</span>(encoded_hits),</span>
+<span id="cb43-518"><a href="#cb43-518" aria-hidden="true" tabindex="-1"></a>            <span class="at">adj_score_fwd =</span> <span class="fu">rmax</span>(adj_score_fwd),</span>
+<span id="cb43-519"><a href="#cb43-519" aria-hidden="true" tabindex="-1"></a>            <span class="at">adj_score_rev =</span> <span class="fu">rmax</span>(adj_score_rev)</span>
+<span id="cb43-520"><a href="#cb43-520" aria-hidden="true" tabindex="-1"></a>            ) <span class="sc">%&gt;%</span></span>
+<span id="cb43-521"><a href="#cb43-521" aria-hidden="true" tabindex="-1"></a>  <span class="fu">inner_join</span>(libraries, <span class="at">by=</span><span class="st">"sample"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-522"><a href="#cb43-522" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">kraken_label =</span> <span class="fu">ifelse</span>(assigned_hv, <span class="st">"Kraken2 HV</span><span class="sc">\n</span><span class="st">assignment"</span>,</span>
+<span id="cb43-523"><a href="#cb43-523" aria-hidden="true" tabindex="-1"></a>                               <span class="fu">ifelse</span>(hit_hv, <span class="st">"Kraken2 HV</span><span class="sc">\n</span><span class="st">hit"</span>,</span>
+<span id="cb43-524"><a href="#cb43-524" aria-hidden="true" tabindex="-1"></a>                                      <span class="st">"No hit or</span><span class="sc">\n</span><span class="st">assignment"</span>))) <span class="sc">%&gt;%</span></span>
+<span id="cb43-525"><a href="#cb43-525" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">adj_score_max =</span> <span class="fu">pmax</span>(adj_score_fwd, adj_score_rev),</span>
+<span id="cb43-526"><a href="#cb43-526" aria-hidden="true" tabindex="-1"></a>         <span class="at">highscore =</span> adj_score_max <span class="sc">&gt;=</span> <span class="dv">20</span>)</span>
+<span id="cb43-527"><a href="#cb43-527" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-528"><a href="#cb43-528" aria-hidden="true" tabindex="-1"></a><span class="co"># Plot results</span></span>
+<span id="cb43-529"><a href="#cb43-529" aria-hidden="true" tabindex="-1"></a>geom_vhist <span class="ot">&lt;-</span> purrr<span class="sc">::</span><span class="fu">partial</span>(geom_histogram, <span class="at">binwidth=</span><span class="dv">5</span>, <span class="at">boundary=</span><span class="dv">0</span>)</span>
+<span id="cb43-530"><a href="#cb43-530" aria-hidden="true" tabindex="-1"></a>g_vhist_base <span class="ot">&lt;-</span> <span class="fu">ggplot</span>(<span class="at">mapping=</span><span class="fu">aes</span>(<span class="at">x=</span>adj_score_max)) <span class="sc">+</span></span>
+<span id="cb43-531"><a href="#cb43-531" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_vline</span>(<span class="at">xintercept=</span><span class="dv">20</span>, <span class="at">linetype=</span><span class="st">"dashed"</span>, <span class="at">color=</span><span class="st">"red"</span>) <span class="sc">+</span></span>
+<span id="cb43-532"><a href="#cb43-532" aria-hidden="true" tabindex="-1"></a>  <span class="fu">facet_wrap</span>(<span class="sc">~</span>kraken_label, <span class="at">labeller =</span> <span class="fu">labeller</span>(<span class="at">kit =</span> <span class="fu">label_wrap_gen</span>(<span class="dv">20</span>)), <span class="at">scales =</span> <span class="st">"free_y"</span>) <span class="sc">+</span></span>
+<span id="cb43-533"><a href="#cb43-533" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_x_continuous</span>(<span class="at">name =</span> <span class="st">"Maximum adjusted alignment score"</span>) <span class="sc">+</span> </span>
+<span id="cb43-534"><a href="#cb43-534" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="at">name=</span><span class="st">"# Read pairs"</span>) <span class="sc">+</span> </span>
+<span id="cb43-535"><a href="#cb43-535" aria-hidden="true" tabindex="-1"></a>  theme_base </span>
+<span id="cb43-536"><a href="#cb43-536" aria-hidden="true" tabindex="-1"></a>g_vhist_0 <span class="ot">&lt;-</span> g_vhist_base <span class="sc">+</span> <span class="fu">geom_vhist</span>(<span class="at">data=</span>mrg)</span>
+<span id="cb43-537"><a href="#cb43-537" aria-hidden="true" tabindex="-1"></a>g_vhist_0</span>
+<span id="cb43-538"><a href="#cb43-538" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-539"><a href="#cb43-539" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-540"><a href="#cb43-540" aria-hidden="true" tabindex="-1"></a>BLASTing these reads against nt, we find that the pipeline performs well, with only a single high-scoring false-positive read:</span>
+<span id="cb43-541"><a href="#cb43-541" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-544"><a href="#cb43-544" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-545"><a href="#cb43-545" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: process-blast-data</span></span>
+<span id="cb43-546"><a href="#cb43-546" aria-hidden="true" tabindex="-1"></a><span class="co">#| warning: false</span></span>
+<span id="cb43-547"><a href="#cb43-547" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-548"><a href="#cb43-548" aria-hidden="true" tabindex="-1"></a><span class="co"># Import paired BLAST results</span></span>
+<span id="cb43-549"><a href="#cb43-549" aria-hidden="true" tabindex="-1"></a>blast_paired_path <span class="ot">&lt;-</span> <span class="fu">file.path</span>(data_dir, <span class="st">"hv_hits_blast_paired.tsv.gz"</span>)</span>
+<span id="cb43-550"><a href="#cb43-550" aria-hidden="true" tabindex="-1"></a>blast_paired <span class="ot">&lt;-</span> <span class="fu">read_tsv</span>(blast_paired_path, <span class="at">show_col_types =</span> <span class="cn">FALSE</span>)</span>
+<span id="cb43-551"><a href="#cb43-551" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-552"><a href="#cb43-552" aria-hidden="true" tabindex="-1"></a><span class="co"># Add viral status</span></span>
+<span id="cb43-553"><a href="#cb43-553" aria-hidden="true" tabindex="-1"></a>blast_viral <span class="ot">&lt;-</span> <span class="fu">mutate</span>(blast_paired, <span class="at">viral =</span> staxid <span class="sc">%in%</span> viral_taxa<span class="sc">$</span>taxid) <span class="sc">%&gt;%</span></span>
+<span id="cb43-554"><a href="#cb43-554" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">viral_full =</span> viral <span class="sc">&amp;</span> n_reads <span class="sc">==</span> <span class="dv">2</span>)</span>
+<span id="cb43-555"><a href="#cb43-555" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-556"><a href="#cb43-556" aria-hidden="true" tabindex="-1"></a><span class="co"># Compare to Kraken &amp; Bowtie assignments</span></span>
+<span id="cb43-557"><a href="#cb43-557" aria-hidden="true" tabindex="-1"></a>match_taxid <span class="ot">&lt;-</span> <span class="cf">function</span>(taxid_1, taxid_2){</span>
+<span id="cb43-558"><a href="#cb43-558" aria-hidden="true" tabindex="-1"></a>  p1 <span class="ot">&lt;-</span> <span class="fu">mapply</span>(grepl, <span class="fu">paste0</span>(<span class="st">"/"</span>, taxid_1, <span class="st">"$"</span>), taxid_2)</span>
+<span id="cb43-559"><a href="#cb43-559" aria-hidden="true" tabindex="-1"></a>  p2 <span class="ot">&lt;-</span> <span class="fu">mapply</span>(grepl, <span class="fu">paste0</span>(<span class="st">"^"</span>, taxid_1, <span class="st">"/"</span>), taxid_2)</span>
+<span id="cb43-560"><a href="#cb43-560" aria-hidden="true" tabindex="-1"></a>  p3 <span class="ot">&lt;-</span> <span class="fu">mapply</span>(grepl, <span class="fu">paste0</span>(<span class="st">"^"</span>, taxid_1, <span class="st">"$"</span>), taxid_2)</span>
+<span id="cb43-561"><a href="#cb43-561" aria-hidden="true" tabindex="-1"></a>  out <span class="ot">&lt;-</span> <span class="fu">setNames</span>(p1<span class="sc">|</span>p2<span class="sc">|</span>p3, <span class="cn">NULL</span>)</span>
+<span id="cb43-562"><a href="#cb43-562" aria-hidden="true" tabindex="-1"></a>  <span class="fu">return</span>(out)</span>
+<span id="cb43-563"><a href="#cb43-563" aria-hidden="true" tabindex="-1"></a>}</span>
+<span id="cb43-564"><a href="#cb43-564" aria-hidden="true" tabindex="-1"></a>mrg_assign <span class="ot">&lt;-</span> mrg <span class="sc">%&gt;%</span> <span class="fu">select</span>(sample, seq_id, taxid, assigned_taxid, adj_score_max)</span>
+<span id="cb43-565"><a href="#cb43-565" aria-hidden="true" tabindex="-1"></a>blast_assign <span class="ot">&lt;-</span> <span class="fu">inner_join</span>(blast_viral, mrg_assign, <span class="at">by=</span><span class="st">"seq_id"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-566"><a href="#cb43-566" aria-hidden="true" tabindex="-1"></a>    <span class="fu">mutate</span>(<span class="at">taxid_match_bowtie =</span> <span class="fu">match_taxid</span>(staxid, taxid),</span>
+<span id="cb43-567"><a href="#cb43-567" aria-hidden="true" tabindex="-1"></a>           <span class="at">taxid_match_kraken =</span> <span class="fu">match_taxid</span>(staxid, assigned_taxid),</span>
+<span id="cb43-568"><a href="#cb43-568" aria-hidden="true" tabindex="-1"></a>           <span class="at">taxid_match_any =</span> taxid_match_bowtie <span class="sc">|</span> taxid_match_kraken)</span>
+<span id="cb43-569"><a href="#cb43-569" aria-hidden="true" tabindex="-1"></a>blast_out <span class="ot">&lt;-</span> blast_assign <span class="sc">%&gt;%</span></span>
+<span id="cb43-570"><a href="#cb43-570" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(seq_id) <span class="sc">%&gt;%</span></span>
+<span id="cb43-571"><a href="#cb43-571" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">viral_status =</span> <span class="fu">ifelse</span>(<span class="fu">any</span>(viral_full), <span class="dv">2</span>,</span>
+<span id="cb43-572"><a href="#cb43-572" aria-hidden="true" tabindex="-1"></a>                                  <span class="fu">ifelse</span>(<span class="fu">any</span>(taxid_match_any), <span class="dv">2</span>,</span>
+<span id="cb43-573"><a href="#cb43-573" aria-hidden="true" tabindex="-1"></a>                                             <span class="fu">ifelse</span>(<span class="fu">any</span>(viral), <span class="dv">1</span>, <span class="dv">0</span>))),</span>
+<span id="cb43-574"><a href="#cb43-574" aria-hidden="true" tabindex="-1"></a>            <span class="at">.groups =</span> <span class="st">"drop"</span>)</span>
+<span id="cb43-575"><a href="#cb43-575" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-576"><a href="#cb43-576" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-579"><a href="#cb43-579" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-580"><a href="#cb43-580" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: plot-blast-results</span></span>
+<span id="cb43-581"><a href="#cb43-581" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-height: 6</span></span>
+<span id="cb43-582"><a href="#cb43-582" aria-hidden="true" tabindex="-1"></a><span class="co">#| warning: false</span></span>
+<span id="cb43-583"><a href="#cb43-583" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-584"><a href="#cb43-584" aria-hidden="true" tabindex="-1"></a><span class="co"># Merge BLAST results with unenriched read data</span></span>
+<span id="cb43-585"><a href="#cb43-585" aria-hidden="true" tabindex="-1"></a>mrg_blast <span class="ot">&lt;-</span> <span class="fu">full_join</span>(mrg, blast_out, <span class="at">by=</span><span class="st">"seq_id"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-586"><a href="#cb43-586" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">viral_status =</span> <span class="fu">replace_na</span>(viral_status, <span class="dv">0</span>),</span>
+<span id="cb43-587"><a href="#cb43-587" aria-hidden="true" tabindex="-1"></a>         <span class="at">viral_status_out =</span> <span class="fu">ifelse</span>(viral_status <span class="sc">==</span> <span class="dv">0</span>, <span class="cn">FALSE</span>, <span class="cn">TRUE</span>))</span>
+<span id="cb43-588"><a href="#cb43-588" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-589"><a href="#cb43-589" aria-hidden="true" tabindex="-1"></a><span class="co"># Plot</span></span>
+<span id="cb43-590"><a href="#cb43-590" aria-hidden="true" tabindex="-1"></a>g_vhist_1 <span class="ot">&lt;-</span> g_vhist_base <span class="sc">+</span> <span class="fu">geom_vhist</span>(<span class="at">data=</span>mrg_blast, <span class="at">mapping=</span><span class="fu">aes</span>(<span class="at">fill=</span>viral_status_out)) <span class="sc">+</span></span>
+<span id="cb43-591"><a href="#cb43-591" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_fill_brewer</span>(<span class="at">palette =</span> <span class="st">"Set1"</span>, <span class="at">name =</span> <span class="st">"Viral status"</span>)</span>
+<span id="cb43-592"><a href="#cb43-592" aria-hidden="true" tabindex="-1"></a>g_vhist_1</span>
+<span id="cb43-593"><a href="#cb43-593" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-594"><a href="#cb43-594" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-595"><a href="#cb43-595" aria-hidden="true" tabindex="-1"></a>My usual disjunctive score threshold of 20 gave precision, sensitivity, and F1 scores all <span class="sc">\&gt;</span>96%:</span>
+<span id="cb43-596"><a href="#cb43-596" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-599"><a href="#cb43-599" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-600"><a href="#cb43-600" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: plot-f1</span></span>
+<span id="cb43-601"><a href="#cb43-601" aria-hidden="true" tabindex="-1"></a>test_sens_spec <span class="ot">&lt;-</span> <span class="cf">function</span>(tab, score_threshold){</span>
+<span id="cb43-602"><a href="#cb43-602" aria-hidden="true" tabindex="-1"></a>  tab_retained <span class="ot">&lt;-</span> tab <span class="sc">%&gt;%</span> </span>
+<span id="cb43-603"><a href="#cb43-603" aria-hidden="true" tabindex="-1"></a>    <span class="fu">mutate</span>(<span class="at">retain_score =</span> (adj_score_fwd <span class="sc">&gt;</span> score_threshold <span class="sc">|</span> adj_score_rev <span class="sc">&gt;</span> score_threshold),</span>
+<span id="cb43-604"><a href="#cb43-604" aria-hidden="true" tabindex="-1"></a>           <span class="at">retain =</span> assigned_hv <span class="sc">|</span> retain_score) <span class="sc">%&gt;%</span></span>
+<span id="cb43-605"><a href="#cb43-605" aria-hidden="true" tabindex="-1"></a>    <span class="fu">group_by</span>(viral_status_out, retain) <span class="sc">%&gt;%</span> count</span>
+<span id="cb43-606"><a href="#cb43-606" aria-hidden="true" tabindex="-1"></a>  pos_tru <span class="ot">&lt;-</span> tab_retained <span class="sc">%&gt;%</span> <span class="fu">filter</span>(viral_status_out <span class="sc">==</span> <span class="st">"TRUE"</span>, retain) <span class="sc">%&gt;%</span> <span class="fu">pull</span>(n) <span class="sc">%&gt;%</span> sum</span>
+<span id="cb43-607"><a href="#cb43-607" aria-hidden="true" tabindex="-1"></a>  pos_fls <span class="ot">&lt;-</span> tab_retained <span class="sc">%&gt;%</span> <span class="fu">filter</span>(viral_status_out <span class="sc">!=</span> <span class="st">"TRUE"</span>, retain) <span class="sc">%&gt;%</span> <span class="fu">pull</span>(n) <span class="sc">%&gt;%</span> sum</span>
+<span id="cb43-608"><a href="#cb43-608" aria-hidden="true" tabindex="-1"></a>  neg_tru <span class="ot">&lt;-</span> tab_retained <span class="sc">%&gt;%</span> <span class="fu">filter</span>(viral_status_out <span class="sc">!=</span> <span class="st">"TRUE"</span>, <span class="sc">!</span>retain) <span class="sc">%&gt;%</span> <span class="fu">pull</span>(n) <span class="sc">%&gt;%</span> sum</span>
+<span id="cb43-609"><a href="#cb43-609" aria-hidden="true" tabindex="-1"></a>  neg_fls <span class="ot">&lt;-</span> tab_retained <span class="sc">%&gt;%</span> <span class="fu">filter</span>(viral_status_out <span class="sc">==</span> <span class="st">"TRUE"</span>, <span class="sc">!</span>retain) <span class="sc">%&gt;%</span> <span class="fu">pull</span>(n) <span class="sc">%&gt;%</span> sum</span>
+<span id="cb43-610"><a href="#cb43-610" aria-hidden="true" tabindex="-1"></a>  sensitivity <span class="ot">&lt;-</span> pos_tru <span class="sc">/</span> (pos_tru <span class="sc">+</span> neg_fls)</span>
+<span id="cb43-611"><a href="#cb43-611" aria-hidden="true" tabindex="-1"></a>  specificity <span class="ot">&lt;-</span> neg_tru <span class="sc">/</span> (neg_tru <span class="sc">+</span> pos_fls)</span>
+<span id="cb43-612"><a href="#cb43-612" aria-hidden="true" tabindex="-1"></a>  precision   <span class="ot">&lt;-</span> pos_tru <span class="sc">/</span> (pos_tru <span class="sc">+</span> pos_fls)</span>
+<span id="cb43-613"><a href="#cb43-613" aria-hidden="true" tabindex="-1"></a>  f1 <span class="ot">&lt;-</span> <span class="dv">2</span> <span class="sc">*</span> precision <span class="sc">*</span> sensitivity <span class="sc">/</span> (precision <span class="sc">+</span> sensitivity)</span>
+<span id="cb43-614"><a href="#cb43-614" aria-hidden="true" tabindex="-1"></a>  out <span class="ot">&lt;-</span> <span class="fu">tibble</span>(<span class="at">threshold=</span>score_threshold, <span class="at">sensitivity=</span>sensitivity, </span>
+<span id="cb43-615"><a href="#cb43-615" aria-hidden="true" tabindex="-1"></a>                <span class="at">specificity=</span>specificity, <span class="at">precision=</span>precision, <span class="at">f1=</span>f1)</span>
+<span id="cb43-616"><a href="#cb43-616" aria-hidden="true" tabindex="-1"></a>  <span class="fu">return</span>(out)</span>
+<span id="cb43-617"><a href="#cb43-617" aria-hidden="true" tabindex="-1"></a>}</span>
+<span id="cb43-618"><a href="#cb43-618" aria-hidden="true" tabindex="-1"></a>range_f1 <span class="ot">&lt;-</span> <span class="cf">function</span>(intab, <span class="at">inrange=</span><span class="dv">15</span><span class="sc">:</span><span class="dv">45</span>){</span>
+<span id="cb43-619"><a href="#cb43-619" aria-hidden="true" tabindex="-1"></a>  tss <span class="ot">&lt;-</span> purrr<span class="sc">::</span><span class="fu">partial</span>(test_sens_spec, <span class="at">tab=</span>intab)</span>
+<span id="cb43-620"><a href="#cb43-620" aria-hidden="true" tabindex="-1"></a>  stats <span class="ot">&lt;-</span> <span class="fu">lapply</span>(inrange, tss) <span class="sc">%&gt;%</span> bind_rows <span class="sc">%&gt;%</span></span>
+<span id="cb43-621"><a href="#cb43-621" aria-hidden="true" tabindex="-1"></a>    <span class="fu">pivot_longer</span>(<span class="sc">!</span>threshold, <span class="at">names_to=</span><span class="st">"metric"</span>, <span class="at">values_to=</span><span class="st">"value"</span>)</span>
+<span id="cb43-622"><a href="#cb43-622" aria-hidden="true" tabindex="-1"></a>  <span class="fu">return</span>(stats)</span>
+<span id="cb43-623"><a href="#cb43-623" aria-hidden="true" tabindex="-1"></a>}</span>
+<span id="cb43-624"><a href="#cb43-624" aria-hidden="true" tabindex="-1"></a>stats_0 <span class="ot">&lt;-</span> <span class="fu">range_f1</span>(mrg_blast)</span>
+<span id="cb43-625"><a href="#cb43-625" aria-hidden="true" tabindex="-1"></a>g_stats_0 <span class="ot">&lt;-</span> <span class="fu">ggplot</span>(stats_0, <span class="fu">aes</span>(<span class="at">x=</span>threshold, <span class="at">y=</span>value, <span class="at">color=</span>metric)) <span class="sc">+</span></span>
+<span id="cb43-626"><a href="#cb43-626" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_vline</span>(<span class="at">xintercept=</span><span class="dv">20</span>, <span class="at">color =</span> <span class="st">"red"</span>, <span class="at">linetype =</span> <span class="st">"dashed"</span>) <span class="sc">+</span></span>
+<span id="cb43-627"><a href="#cb43-627" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_line</span>() <span class="sc">+</span></span>
+<span id="cb43-628"><a href="#cb43-628" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="at">name =</span> <span class="st">"Value"</span>, <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">1</span>), <span class="at">breaks =</span> <span class="fu">seq</span>(<span class="dv">0</span>,<span class="dv">1</span>,<span class="fl">0.2</span>), <span class="at">expand =</span> <span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>)) <span class="sc">+</span></span>
+<span id="cb43-629"><a href="#cb43-629" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_x_continuous</span>(<span class="at">name =</span> <span class="st">"Adjusted Score Threshold"</span>, <span class="at">expand =</span> <span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>)) <span class="sc">+</span></span>
+<span id="cb43-630"><a href="#cb43-630" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_color_brewer</span>(<span class="at">palette=</span><span class="st">"Dark2"</span>) <span class="sc">+</span></span>
+<span id="cb43-631"><a href="#cb43-631" aria-hidden="true" tabindex="-1"></a>  theme_base</span>
+<span id="cb43-632"><a href="#cb43-632" aria-hidden="true" tabindex="-1"></a>g_stats_0</span>
+<span id="cb43-633"><a href="#cb43-633" aria-hidden="true" tabindex="-1"></a>stats_0 <span class="sc">%&gt;%</span> <span class="fu">filter</span>(threshold <span class="sc">==</span> <span class="dv">20</span>) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-634"><a href="#cb43-634" aria-hidden="true" tabindex="-1"></a>  <span class="fu">select</span>(<span class="at">Threshold=</span>threshold, <span class="at">Metric=</span>metric, <span class="at">Value=</span>value)</span>
+<span id="cb43-635"><a href="#cb43-635" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-636"><a href="#cb43-636" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-637"><a href="#cb43-637" aria-hidden="true" tabindex="-1"></a><span class="fu"># Human-infecting viruses: overall relative abundance</span></span>
+<span id="cb43-638"><a href="#cb43-638" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-641"><a href="#cb43-641" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-642"><a href="#cb43-642" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: count-hv-reads</span></span>
+<span id="cb43-643"><a href="#cb43-643" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-644"><a href="#cb43-644" aria-hidden="true" tabindex="-1"></a><span class="co"># Get raw read counts</span></span>
+<span id="cb43-645"><a href="#cb43-645" aria-hidden="true" tabindex="-1"></a>read_counts_raw <span class="ot">&lt;-</span> basic_stats_raw <span class="sc">%&gt;%</span></span>
+<span id="cb43-646"><a href="#cb43-646" aria-hidden="true" tabindex="-1"></a>  <span class="fu">select</span>(sample, <span class="at">n_reads_raw =</span> n_read_pairs)</span>
+<span id="cb43-647"><a href="#cb43-647" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-648"><a href="#cb43-648" aria-hidden="true" tabindex="-1"></a><span class="co"># Get HV read counts</span></span>
+<span id="cb43-649"><a href="#cb43-649" aria-hidden="true" tabindex="-1"></a>mrg_hv <span class="ot">&lt;-</span> mrg <span class="sc">%&gt;%</span> <span class="fu">mutate</span>(<span class="at">hv_status =</span> assigned_hv <span class="sc">|</span> highscore) <span class="sc">%&gt;%</span></span>
+<span id="cb43-650"><a href="#cb43-650" aria-hidden="true" tabindex="-1"></a>  <span class="fu">rename</span>(<span class="at">taxid_all =</span> taxid, <span class="at">taxid =</span> taxid_best)</span>
+<span id="cb43-651"><a href="#cb43-651" aria-hidden="true" tabindex="-1"></a>read_counts_hv <span class="ot">&lt;-</span> mrg_hv <span class="sc">%&gt;%</span> <span class="fu">filter</span>(hv_status) <span class="sc">%&gt;%</span> <span class="fu">group_by</span>(sample) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-652"><a href="#cb43-652" aria-hidden="true" tabindex="-1"></a>  <span class="fu">count</span>(<span class="at">name=</span><span class="st">"n_reads_hv"</span>)</span>
+<span id="cb43-653"><a href="#cb43-653" aria-hidden="true" tabindex="-1"></a>read_counts <span class="ot">&lt;-</span> read_counts_raw <span class="sc">%&gt;%</span> <span class="fu">left_join</span>(read_counts_hv, <span class="at">by=</span><span class="st">"sample"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-654"><a href="#cb43-654" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">n_reads_hv =</span> <span class="fu">replace_na</span>(n_reads_hv, <span class="dv">0</span>))</span>
+<span id="cb43-655"><a href="#cb43-655" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-656"><a href="#cb43-656" aria-hidden="true" tabindex="-1"></a><span class="co"># Aggregate</span></span>
+<span id="cb43-657"><a href="#cb43-657" aria-hidden="true" tabindex="-1"></a>read_counts_grp <span class="ot">&lt;-</span> read_counts <span class="sc">%&gt;%</span></span>
+<span id="cb43-658"><a href="#cb43-658" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">n_reads_raw =</span> <span class="fu">sum</span>(n_reads_raw),</span>
+<span id="cb43-659"><a href="#cb43-659" aria-hidden="true" tabindex="-1"></a>            <span class="at">n_reads_hv =</span> <span class="fu">sum</span>(n_reads_hv), <span class="at">.groups=</span><span class="st">"drop"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-660"><a href="#cb43-660" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">sample=</span> <span class="st">"All samples"</span>)</span>
+<span id="cb43-661"><a href="#cb43-661" aria-hidden="true" tabindex="-1"></a>read_counts_agg <span class="ot">&lt;-</span> <span class="fu">bind_rows</span>(read_counts, read_counts_grp) <span class="sc">%&gt;%</span></span>
+<span id="cb43-662"><a href="#cb43-662" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">p_reads_hv =</span> n_reads_hv<span class="sc">/</span>n_reads_raw,</span>
+<span id="cb43-663"><a href="#cb43-663" aria-hidden="true" tabindex="-1"></a>         <span class="at">sample =</span> <span class="fu">factor</span>(sample, <span class="at">levels=</span><span class="fu">c</span>(<span class="fu">levels</span>(libraries<span class="sc">$</span>sample), <span class="st">"All samples"</span>)))</span>
+<span id="cb43-664"><a href="#cb43-664" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-665"><a href="#cb43-665" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-666"><a href="#cb43-666" aria-hidden="true" tabindex="-1"></a>Applying a disjunctive cutoff at S=20 identifies 162 read pairs as human-viral. This gives an overall relative HV abundance of $9.42 \times 10^{-7}$; higher than <span class="co">[</span><span class="ot">Ng</span><span class="co">](https://data.securebio.org/wills-public-notebook/notebooks/2024-05-01_ng.html)</span> and <span class="co">[</span><span class="ot">Bengtsson-Palme</span><span class="co">](https://data.securebio.org/wills-public-notebook/notebooks/2024-05-01_bengtsson-palme.html)</span> but lower than most other datasets I've analyzed with this pipeline:</span>
+<span id="cb43-667"><a href="#cb43-667" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-670"><a href="#cb43-670" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-671"><a href="#cb43-671" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: plot-hv-ra</span></span>
+<span id="cb43-672"><a href="#cb43-672" aria-hidden="true" tabindex="-1"></a><span class="co">#| warning: false</span></span>
+<span id="cb43-673"><a href="#cb43-673" aria-hidden="true" tabindex="-1"></a><span class="co"># Visualize</span></span>
+<span id="cb43-674"><a href="#cb43-674" aria-hidden="true" tabindex="-1"></a>g_phv_agg <span class="ot">&lt;-</span> <span class="fu">ggplot</span>(read_counts_agg, <span class="fu">aes</span>(<span class="at">x=</span>sample)) <span class="sc">+</span></span>
+<span id="cb43-675"><a href="#cb43-675" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_point</span>(<span class="fu">aes</span>(<span class="at">y=</span>p_reads_hv)) <span class="sc">+</span></span>
+<span id="cb43-676"><a href="#cb43-676" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_log10</span>(<span class="st">"Relative abundance of human virus reads"</span>) <span class="sc">+</span></span>
+<span id="cb43-677"><a href="#cb43-677" aria-hidden="true" tabindex="-1"></a>  theme_kit</span>
+<span id="cb43-678"><a href="#cb43-678" aria-hidden="true" tabindex="-1"></a>g_phv_agg</span>
+<span id="cb43-679"><a href="#cb43-679" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-680"><a href="#cb43-680" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-683"><a href="#cb43-683" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-684"><a href="#cb43-684" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: ra-hv-past</span></span>
+<span id="cb43-685"><a href="#cb43-685" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-686"><a href="#cb43-686" aria-hidden="true" tabindex="-1"></a><span class="co"># Collate past RA values</span></span>
+<span id="cb43-687"><a href="#cb43-687" aria-hidden="true" tabindex="-1"></a>ra_past <span class="ot">&lt;-</span> <span class="fu">tribble</span>(<span class="sc">~</span>dataset, <span class="sc">~</span>ra, <span class="sc">~</span>na_type, <span class="sc">~</span>panel_enriched,</span>
+<span id="cb43-688"><a href="#cb43-688" aria-hidden="true" tabindex="-1"></a>                   <span class="st">"Brumfield"</span>, <span class="fl">5e-5</span>, <span class="st">"RNA"</span>, <span class="cn">FALSE</span>,</span>
+<span id="cb43-689"><a href="#cb43-689" aria-hidden="true" tabindex="-1"></a>                   <span class="st">"Brumfield"</span>, <span class="fl">3.66e-7</span>, <span class="st">"DNA"</span>, <span class="cn">FALSE</span>,</span>
+<span id="cb43-690"><a href="#cb43-690" aria-hidden="true" tabindex="-1"></a>                   <span class="st">"Spurbeck"</span>, <span class="fl">5.44e-6</span>, <span class="st">"RNA"</span>, <span class="cn">FALSE</span>,</span>
+<span id="cb43-691"><a href="#cb43-691" aria-hidden="true" tabindex="-1"></a>                   <span class="st">"Yang"</span>, <span class="fl">3.62e-4</span>, <span class="st">"RNA"</span>, <span class="cn">FALSE</span>,</span>
+<span id="cb43-692"><a href="#cb43-692" aria-hidden="true" tabindex="-1"></a>                   <span class="st">"Rothman (unenriched)"</span>, <span class="fl">1.87e-5</span>, <span class="st">"RNA"</span>, <span class="cn">FALSE</span>,</span>
+<span id="cb43-693"><a href="#cb43-693" aria-hidden="true" tabindex="-1"></a>                   <span class="st">"Rothman (panel-enriched)"</span>, <span class="fl">3.3e-5</span>, <span class="st">"RNA"</span>, <span class="cn">TRUE</span>,</span>
+<span id="cb43-694"><a href="#cb43-694" aria-hidden="true" tabindex="-1"></a>                   <span class="st">"Crits-Christoph (unenriched)"</span>, <span class="fl">1.37e-5</span>, <span class="st">"RNA"</span>, <span class="cn">FALSE</span>,</span>
+<span id="cb43-695"><a href="#cb43-695" aria-hidden="true" tabindex="-1"></a>                   <span class="st">"Crits-Christoph (panel-enriched)"</span>, <span class="fl">1.26e-2</span>, <span class="st">"RNA"</span>, <span class="cn">TRUE</span>,</span>
+<span id="cb43-696"><a href="#cb43-696" aria-hidden="true" tabindex="-1"></a>                   <span class="st">"Prussin (non-control)"</span>, <span class="fl">1.63e-5</span>, <span class="st">"RNA"</span>, <span class="cn">FALSE</span>,</span>
+<span id="cb43-697"><a href="#cb43-697" aria-hidden="true" tabindex="-1"></a>                   <span class="st">"Prussin (non-control)"</span>, <span class="fl">4.16e-5</span>, <span class="st">"DNA"</span>, <span class="cn">FALSE</span>,</span>
+<span id="cb43-698"><a href="#cb43-698" aria-hidden="true" tabindex="-1"></a>                   <span class="st">"Rosario (non-control)"</span>, <span class="fl">1.21e-5</span>, <span class="st">"RNA"</span>, <span class="cn">FALSE</span>,</span>
+<span id="cb43-699"><a href="#cb43-699" aria-hidden="true" tabindex="-1"></a>                   <span class="st">"Rosario (non-control)"</span>, <span class="fl">1.50e-4</span>, <span class="st">"DNA"</span>, <span class="cn">FALSE</span>,</span>
+<span id="cb43-700"><a href="#cb43-700" aria-hidden="true" tabindex="-1"></a>                   <span class="st">"Leung"</span>, <span class="fl">1.73e-5</span>, <span class="st">"DNA"</span>, <span class="cn">FALSE</span>,</span>
+<span id="cb43-701"><a href="#cb43-701" aria-hidden="true" tabindex="-1"></a>                   <span class="st">"Brinch"</span>, <span class="fl">3.88e-6</span>, <span class="st">"DNA"</span>, <span class="cn">FALSE</span>,</span>
+<span id="cb43-702"><a href="#cb43-702" aria-hidden="true" tabindex="-1"></a>                   <span class="st">"Bengtsson-Palme"</span>, <span class="fl">8.86e-8</span>, <span class="st">"DNA"</span>, <span class="cn">FALSE</span>,</span>
+<span id="cb43-703"><a href="#cb43-703" aria-hidden="true" tabindex="-1"></a>                   <span class="st">"Ng"</span>, <span class="fl">2.90e-7</span>, <span class="st">"DNA"</span>, <span class="cn">FALSE</span></span>
+<span id="cb43-704"><a href="#cb43-704" aria-hidden="true" tabindex="-1"></a>)</span>
+<span id="cb43-705"><a href="#cb43-705" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-706"><a href="#cb43-706" aria-hidden="true" tabindex="-1"></a><span class="co"># Collate new RA values</span></span>
+<span id="cb43-707"><a href="#cb43-707" aria-hidden="true" tabindex="-1"></a>ra_new <span class="ot">&lt;-</span> <span class="fu">tribble</span>(<span class="sc">~</span>dataset, <span class="sc">~</span>ra, <span class="sc">~</span>na_type, <span class="sc">~</span>panel_enriched,</span>
+<span id="cb43-708"><a href="#cb43-708" aria-hidden="true" tabindex="-1"></a>                  <span class="st">"Maritz"</span>, <span class="fl">9.42e-7</span>, <span class="st">"DNA"</span>, <span class="cn">FALSE</span>)</span>
+<span id="cb43-709"><a href="#cb43-709" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-710"><a href="#cb43-710" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-711"><a href="#cb43-711" aria-hidden="true" tabindex="-1"></a><span class="co"># Plot</span></span>
+<span id="cb43-712"><a href="#cb43-712" aria-hidden="true" tabindex="-1"></a>scale_color_na <span class="ot">&lt;-</span> purrr<span class="sc">::</span><span class="fu">partial</span>(scale_color_brewer, <span class="at">palette=</span><span class="st">"Set1"</span>,</span>
+<span id="cb43-713"><a href="#cb43-713" aria-hidden="true" tabindex="-1"></a>                                 <span class="at">name=</span><span class="st">"Nucleic acid type"</span>)</span>
+<span id="cb43-714"><a href="#cb43-714" aria-hidden="true" tabindex="-1"></a>ra_comp <span class="ot">&lt;-</span> <span class="fu">bind_rows</span>(ra_past, ra_new) <span class="sc">%&gt;%</span> <span class="fu">mutate</span>(<span class="at">dataset =</span> <span class="fu">fct_inorder</span>(dataset))</span>
+<span id="cb43-715"><a href="#cb43-715" aria-hidden="true" tabindex="-1"></a>g_ra_comp <span class="ot">&lt;-</span> <span class="fu">ggplot</span>(ra_comp, <span class="fu">aes</span>(<span class="at">y=</span>dataset, <span class="at">x=</span>ra, <span class="at">color=</span>na_type)) <span class="sc">+</span></span>
+<span id="cb43-716"><a href="#cb43-716" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_point</span>() <span class="sc">+</span></span>
+<span id="cb43-717"><a href="#cb43-717" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_color_na</span>() <span class="sc">+</span></span>
+<span id="cb43-718"><a href="#cb43-718" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_x_log10</span>(<span class="at">name=</span><span class="st">"Relative abundance of human virus reads"</span>) <span class="sc">+</span></span>
+<span id="cb43-719"><a href="#cb43-719" aria-hidden="true" tabindex="-1"></a>  theme_base <span class="sc">+</span> <span class="fu">theme</span>(<span class="at">axis.title.y =</span> <span class="fu">element_blank</span>())</span>
+<span id="cb43-720"><a href="#cb43-720" aria-hidden="true" tabindex="-1"></a>g_ra_comp</span>
+<span id="cb43-721"><a href="#cb43-721" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-722"><a href="#cb43-722" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-723"><a href="#cb43-723" aria-hidden="true" tabindex="-1"></a><span class="fu"># Human-infecting viruses: taxonomy and composition</span></span>
+<span id="cb43-724"><a href="#cb43-724" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-725"><a href="#cb43-725" aria-hidden="true" tabindex="-1"></a>In investigating the taxonomy of human-infecting virus reads, I restricted my analysis to samples with more than 5 HV read pairs total across all viruses, to reduce noise arising from extremely low HV read counts in some samples. 10 samples met this criterion.</span>
+<span id="cb43-726"><a href="#cb43-726" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-727"><a href="#cb43-727" aria-hidden="true" tabindex="-1"></a>At the family level, most samples were dominated by *Adenoviridae*, *Polyomaviridae* and *Papillomaviridae.* However, one sample, NYC-03, was overwhelmingly dominated by *Herpesviridae*:</span>
+<span id="cb43-728"><a href="#cb43-728" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-731"><a href="#cb43-731" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-732"><a href="#cb43-732" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: raise-hv-taxa</span></span>
+<span id="cb43-733"><a href="#cb43-733" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-734"><a href="#cb43-734" aria-hidden="true" tabindex="-1"></a><span class="co"># Get viral taxon names for putative HV reads</span></span>
+<span id="cb43-735"><a href="#cb43-735" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">249588</span>] <span class="ot">&lt;-</span> <span class="st">"Mamastrovirus"</span></span>
+<span id="cb43-736"><a href="#cb43-736" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">194960</span>] <span class="ot">&lt;-</span> <span class="st">"Kobuvirus"</span></span>
+<span id="cb43-737"><a href="#cb43-737" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">688449</span>] <span class="ot">&lt;-</span> <span class="st">"Salivirus"</span></span>
+<span id="cb43-738"><a href="#cb43-738" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">585893</span>] <span class="ot">&lt;-</span> <span class="st">"Picobirnaviridae"</span></span>
+<span id="cb43-739"><a href="#cb43-739" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">333922</span>] <span class="ot">&lt;-</span> <span class="st">"Betapapillomavirus"</span></span>
+<span id="cb43-740"><a href="#cb43-740" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">334207</span>] <span class="ot">&lt;-</span> <span class="st">"Betapapillomavirus 3"</span></span>
+<span id="cb43-741"><a href="#cb43-741" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">369960</span>] <span class="ot">&lt;-</span> <span class="st">"Porcine type-C oncovirus"</span></span>
+<span id="cb43-742"><a href="#cb43-742" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">333924</span>] <span class="ot">&lt;-</span> <span class="st">"Betapapillomavirus 2"</span></span>
+<span id="cb43-743"><a href="#cb43-743" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">687329</span>] <span class="ot">&lt;-</span> <span class="st">"Anelloviridae"</span></span>
+<span id="cb43-744"><a href="#cb43-744" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">325455</span>] <span class="ot">&lt;-</span> <span class="st">"Gammapapillomavirus"</span></span>
+<span id="cb43-745"><a href="#cb43-745" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">333750</span>] <span class="ot">&lt;-</span> <span class="st">"Alphapapillomavirus"</span></span>
+<span id="cb43-746"><a href="#cb43-746" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">694002</span>] <span class="ot">&lt;-</span> <span class="st">"Betacoronavirus"</span></span>
+<span id="cb43-747"><a href="#cb43-747" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">334202</span>] <span class="ot">&lt;-</span> <span class="st">"Mupapillomavirus"</span></span>
+<span id="cb43-748"><a href="#cb43-748" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">197911</span>] <span class="ot">&lt;-</span> <span class="st">"Alphainfluenzavirus"</span></span>
+<span id="cb43-749"><a href="#cb43-749" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">186938</span>] <span class="ot">&lt;-</span> <span class="st">"Respirovirus"</span></span>
+<span id="cb43-750"><a href="#cb43-750" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">333926</span>] <span class="ot">&lt;-</span> <span class="st">"Gammapapillomavirus 1"</span></span>
+<span id="cb43-751"><a href="#cb43-751" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">337051</span>] <span class="ot">&lt;-</span> <span class="st">"Betapapillomavirus 1"</span></span>
+<span id="cb43-752"><a href="#cb43-752" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">337043</span>] <span class="ot">&lt;-</span> <span class="st">"Alphapapillomavirus 4"</span></span>
+<span id="cb43-753"><a href="#cb43-753" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">694003</span>] <span class="ot">&lt;-</span> <span class="st">"Betacoronavirus 1"</span></span>
+<span id="cb43-754"><a href="#cb43-754" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">334204</span>] <span class="ot">&lt;-</span> <span class="st">"Mupapillomavirus 2"</span></span>
+<span id="cb43-755"><a href="#cb43-755" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">334208</span>] <span class="ot">&lt;-</span> <span class="st">"Betapapillomavirus 4"</span></span>
+<span id="cb43-756"><a href="#cb43-756" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">333928</span>] <span class="ot">&lt;-</span> <span class="st">"Gammapapillomavirus 2"</span></span>
+<span id="cb43-757"><a href="#cb43-757" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">337039</span>] <span class="ot">&lt;-</span> <span class="st">"Alphapapillomavirus 2"</span></span>
+<span id="cb43-758"><a href="#cb43-758" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">333929</span>] <span class="ot">&lt;-</span> <span class="st">"Gammapapillomavirus 3"</span></span>
+<span id="cb43-759"><a href="#cb43-759" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">337042</span>] <span class="ot">&lt;-</span> <span class="st">"Alphapapillomavirus 7"</span></span>
+<span id="cb43-760"><a href="#cb43-760" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">334203</span>] <span class="ot">&lt;-</span> <span class="st">"Mupapillomavirus 1"</span></span>
+<span id="cb43-761"><a href="#cb43-761" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">333757</span>] <span class="ot">&lt;-</span> <span class="st">"Alphapapillomavirus 8"</span></span>
+<span id="cb43-762"><a href="#cb43-762" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">337050</span>] <span class="ot">&lt;-</span> <span class="st">"Alphapapillomavirus 6"</span></span>
+<span id="cb43-763"><a href="#cb43-763" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">333767</span>] <span class="ot">&lt;-</span> <span class="st">"Alphapapillomavirus 3"</span></span>
+<span id="cb43-764"><a href="#cb43-764" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">333754</span>] <span class="ot">&lt;-</span> <span class="st">"Alphapapillomavirus 10"</span></span>
+<span id="cb43-765"><a href="#cb43-765" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">687363</span>] <span class="ot">&lt;-</span> <span class="st">"Torque teno virus 24"</span></span>
+<span id="cb43-766"><a href="#cb43-766" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">687342</span>] <span class="ot">&lt;-</span> <span class="st">"Torque teno virus 3"</span></span>
+<span id="cb43-767"><a href="#cb43-767" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">687359</span>] <span class="ot">&lt;-</span> <span class="st">"Torque teno virus 20"</span></span>
+<span id="cb43-768"><a href="#cb43-768" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">194441</span>] <span class="ot">&lt;-</span> <span class="st">"Primate T-lymphotropic virus 2"</span></span>
+<span id="cb43-769"><a href="#cb43-769" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">334209</span>] <span class="ot">&lt;-</span> <span class="st">"Betapapillomavirus 5"</span></span>
+<span id="cb43-770"><a href="#cb43-770" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">194965</span>] <span class="ot">&lt;-</span> <span class="st">"Aichivirus B"</span></span>
+<span id="cb43-771"><a href="#cb43-771" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">333930</span>] <span class="ot">&lt;-</span> <span class="st">"Gammapapillomavirus 4"</span></span>
+<span id="cb43-772"><a href="#cb43-772" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">337048</span>] <span class="ot">&lt;-</span> <span class="st">"Alphapapillomavirus 1"</span></span>
+<span id="cb43-773"><a href="#cb43-773" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">337041</span>] <span class="ot">&lt;-</span> <span class="st">"Alphapapillomavirus 9"</span></span>
+<span id="cb43-774"><a href="#cb43-774" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">337049</span>] <span class="ot">&lt;-</span> <span class="st">"Alphapapillomavirus 11"</span></span>
+<span id="cb43-775"><a href="#cb43-775" aria-hidden="true" tabindex="-1"></a>viral_taxa<span class="sc">$</span>name[viral_taxa<span class="sc">$</span>taxid <span class="sc">==</span> <span class="dv">337044</span>] <span class="ot">&lt;-</span> <span class="st">"Alphapapillomavirus 5"</span></span>
+<span id="cb43-776"><a href="#cb43-776" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-777"><a href="#cb43-777" aria-hidden="true" tabindex="-1"></a><span class="co"># Filter samples and add viral taxa information</span></span>
+<span id="cb43-778"><a href="#cb43-778" aria-hidden="true" tabindex="-1"></a>samples_keep <span class="ot">&lt;-</span> read_counts <span class="sc">%&gt;%</span> <span class="fu">filter</span>(n_reads_hv <span class="sc">&gt;</span> <span class="dv">5</span>) <span class="sc">%&gt;%</span> <span class="fu">pull</span>(sample)</span>
+<span id="cb43-779"><a href="#cb43-779" aria-hidden="true" tabindex="-1"></a>mrg_hv_named <span class="ot">&lt;-</span> mrg_hv <span class="sc">%&gt;%</span> <span class="fu">filter</span>(sample <span class="sc">%in%</span> samples_keep, hv_status) <span class="sc">%&gt;%</span> <span class="fu">left_join</span>(viral_taxa, <span class="at">by=</span><span class="st">"taxid"</span>) </span>
+<span id="cb43-780"><a href="#cb43-780" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-781"><a href="#cb43-781" aria-hidden="true" tabindex="-1"></a><span class="co"># Discover viral species &amp; genera for HV reads</span></span>
+<span id="cb43-782"><a href="#cb43-782" aria-hidden="true" tabindex="-1"></a>raise_rank <span class="ot">&lt;-</span> <span class="cf">function</span>(read_db, taxid_db, <span class="at">out_rank =</span> <span class="st">"species"</span>, <span class="at">verbose =</span> <span class="cn">FALSE</span>){</span>
+<span id="cb43-783"><a href="#cb43-783" aria-hidden="true" tabindex="-1"></a>  <span class="co"># Get higher ranks than search rank</span></span>
+<span id="cb43-784"><a href="#cb43-784" aria-hidden="true" tabindex="-1"></a>  ranks <span class="ot">&lt;-</span> <span class="fu">c</span>(<span class="st">"subspecies"</span>, <span class="st">"species"</span>, <span class="st">"subgenus"</span>, <span class="st">"genus"</span>, <span class="st">"subfamily"</span>, <span class="st">"family"</span>, <span class="st">"suborder"</span>, <span class="st">"order"</span>, <span class="st">"class"</span>, <span class="st">"subphylum"</span>, <span class="st">"phylum"</span>, <span class="st">"kingdom"</span>, <span class="st">"superkingdom"</span>)</span>
+<span id="cb43-785"><a href="#cb43-785" aria-hidden="true" tabindex="-1"></a>  rank_match <span class="ot">&lt;-</span> <span class="fu">which.max</span>(ranks <span class="sc">==</span> out_rank)</span>
+<span id="cb43-786"><a href="#cb43-786" aria-hidden="true" tabindex="-1"></a>  high_ranks <span class="ot">&lt;-</span> ranks[rank_match<span class="sc">:</span><span class="fu">length</span>(ranks)]</span>
+<span id="cb43-787"><a href="#cb43-787" aria-hidden="true" tabindex="-1"></a>  <span class="co"># Merge read DB and taxid DB</span></span>
+<span id="cb43-788"><a href="#cb43-788" aria-hidden="true" tabindex="-1"></a>  reads <span class="ot">&lt;-</span> read_db <span class="sc">%&gt;%</span> <span class="fu">select</span>(<span class="sc">-</span>parent_taxid, <span class="sc">-</span>rank, <span class="sc">-</span>name) <span class="sc">%&gt;%</span></span>
+<span id="cb43-789"><a href="#cb43-789" aria-hidden="true" tabindex="-1"></a>    <span class="fu">left_join</span>(taxid_db, <span class="at">by=</span><span class="st">"taxid"</span>)</span>
+<span id="cb43-790"><a href="#cb43-790" aria-hidden="true" tabindex="-1"></a>  <span class="co"># Extract sequences that are already at appropriate rank</span></span>
+<span id="cb43-791"><a href="#cb43-791" aria-hidden="true" tabindex="-1"></a>  reads_rank <span class="ot">&lt;-</span> <span class="fu">filter</span>(reads, rank <span class="sc">==</span> out_rank)</span>
+<span id="cb43-792"><a href="#cb43-792" aria-hidden="true" tabindex="-1"></a>  <span class="co"># Drop sequences at a higher rank and return unclassified sequences</span></span>
+<span id="cb43-793"><a href="#cb43-793" aria-hidden="true" tabindex="-1"></a>  reads_norank <span class="ot">&lt;-</span> reads <span class="sc">%&gt;%</span> <span class="fu">filter</span>(rank <span class="sc">!=</span> out_rank, <span class="sc">!</span>rank <span class="sc">%in%</span> high_ranks, <span class="sc">!</span><span class="fu">is.na</span>(taxid))</span>
+<span id="cb43-794"><a href="#cb43-794" aria-hidden="true" tabindex="-1"></a>  <span class="cf">while</span>(<span class="fu">nrow</span>(reads_norank) <span class="sc">&gt;</span> <span class="dv">0</span>){ <span class="co"># As long as there are unclassified sequences...</span></span>
+<span id="cb43-795"><a href="#cb43-795" aria-hidden="true" tabindex="-1"></a>    <span class="co"># Promote read taxids and re-merge with taxid DB, then re-classify and filter</span></span>
+<span id="cb43-796"><a href="#cb43-796" aria-hidden="true" tabindex="-1"></a>    reads_remaining <span class="ot">&lt;-</span> reads_norank <span class="sc">%&gt;%</span> <span class="fu">mutate</span>(<span class="at">taxid =</span> parent_taxid) <span class="sc">%&gt;%</span></span>
+<span id="cb43-797"><a href="#cb43-797" aria-hidden="true" tabindex="-1"></a>      <span class="fu">select</span>(<span class="sc">-</span>parent_taxid, <span class="sc">-</span>rank, <span class="sc">-</span>name) <span class="sc">%&gt;%</span></span>
+<span id="cb43-798"><a href="#cb43-798" aria-hidden="true" tabindex="-1"></a>      <span class="fu">left_join</span>(taxid_db, <span class="at">by=</span><span class="st">"taxid"</span>)</span>
+<span id="cb43-799"><a href="#cb43-799" aria-hidden="true" tabindex="-1"></a>    reads_rank <span class="ot">&lt;-</span> reads_remaining <span class="sc">%&gt;%</span> <span class="fu">filter</span>(rank <span class="sc">==</span> out_rank) <span class="sc">%&gt;%</span></span>
+<span id="cb43-800"><a href="#cb43-800" aria-hidden="true" tabindex="-1"></a>      <span class="fu">bind_rows</span>(reads_rank)</span>
+<span id="cb43-801"><a href="#cb43-801" aria-hidden="true" tabindex="-1"></a>    reads_norank <span class="ot">&lt;-</span> reads_remaining <span class="sc">%&gt;%</span></span>
+<span id="cb43-802"><a href="#cb43-802" aria-hidden="true" tabindex="-1"></a>      <span class="fu">filter</span>(rank <span class="sc">!=</span> out_rank, <span class="sc">!</span>rank <span class="sc">%in%</span> high_ranks, <span class="sc">!</span><span class="fu">is.na</span>(taxid))</span>
+<span id="cb43-803"><a href="#cb43-803" aria-hidden="true" tabindex="-1"></a>  }</span>
+<span id="cb43-804"><a href="#cb43-804" aria-hidden="true" tabindex="-1"></a>  <span class="co"># Finally, extract and append reads that were excluded during the process</span></span>
+<span id="cb43-805"><a href="#cb43-805" aria-hidden="true" tabindex="-1"></a>  reads_dropped <span class="ot">&lt;-</span> reads <span class="sc">%&gt;%</span> <span class="fu">filter</span>(<span class="sc">!</span>seq_id <span class="sc">%in%</span> reads_rank<span class="sc">$</span>seq_id)</span>
+<span id="cb43-806"><a href="#cb43-806" aria-hidden="true" tabindex="-1"></a>  reads_out <span class="ot">&lt;-</span> reads_rank <span class="sc">%&gt;%</span> <span class="fu">bind_rows</span>(reads_dropped) <span class="sc">%&gt;%</span></span>
+<span id="cb43-807"><a href="#cb43-807" aria-hidden="true" tabindex="-1"></a>    <span class="fu">select</span>(<span class="sc">-</span>parent_taxid, <span class="sc">-</span>rank, <span class="sc">-</span>name) <span class="sc">%&gt;%</span></span>
+<span id="cb43-808"><a href="#cb43-808" aria-hidden="true" tabindex="-1"></a>    <span class="fu">left_join</span>(taxid_db, <span class="at">by=</span><span class="st">"taxid"</span>)</span>
+<span id="cb43-809"><a href="#cb43-809" aria-hidden="true" tabindex="-1"></a>  <span class="fu">return</span>(reads_out)</span>
+<span id="cb43-810"><a href="#cb43-810" aria-hidden="true" tabindex="-1"></a>}</span>
+<span id="cb43-811"><a href="#cb43-811" aria-hidden="true" tabindex="-1"></a>hv_reads_species <span class="ot">&lt;-</span> <span class="fu">raise_rank</span>(mrg_hv_named, viral_taxa, <span class="st">"species"</span>)</span>
+<span id="cb43-812"><a href="#cb43-812" aria-hidden="true" tabindex="-1"></a>hv_reads_genus <span class="ot">&lt;-</span> <span class="fu">raise_rank</span>(mrg_hv_named, viral_taxa, <span class="st">"genus"</span>)</span>
+<span id="cb43-813"><a href="#cb43-813" aria-hidden="true" tabindex="-1"></a>hv_reads_family <span class="ot">&lt;-</span> <span class="fu">raise_rank</span>(mrg_hv_named, viral_taxa, <span class="st">"family"</span>)</span>
+<span id="cb43-814"><a href="#cb43-814" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-815"><a href="#cb43-815" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-818"><a href="#cb43-818" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-819"><a href="#cb43-819" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: hv-family</span></span>
+<span id="cb43-820"><a href="#cb43-820" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-height: 5</span></span>
+<span id="cb43-821"><a href="#cb43-821" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-width: 7</span></span>
+<span id="cb43-822"><a href="#cb43-822" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-823"><a href="#cb43-823" aria-hidden="true" tabindex="-1"></a>threshold_major_family <span class="ot">&lt;-</span> <span class="fl">0.02</span></span>
+<span id="cb43-824"><a href="#cb43-824" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-825"><a href="#cb43-825" aria-hidden="true" tabindex="-1"></a><span class="co"># Count reads for each human-viral family</span></span>
+<span id="cb43-826"><a href="#cb43-826" aria-hidden="true" tabindex="-1"></a>hv_family_counts <span class="ot">&lt;-</span> hv_reads_family <span class="sc">%&gt;%</span> </span>
+<span id="cb43-827"><a href="#cb43-827" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample, name, taxid) <span class="sc">%&gt;%</span></span>
+<span id="cb43-828"><a href="#cb43-828" aria-hidden="true" tabindex="-1"></a>  <span class="fu">count</span>(<span class="at">name =</span> <span class="st">"n_reads_hv"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-829"><a href="#cb43-829" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample) <span class="sc">%&gt;%</span></span>
+<span id="cb43-830"><a href="#cb43-830" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">p_reads_hv =</span> n_reads_hv<span class="sc">/</span><span class="fu">sum</span>(n_reads_hv))</span>
+<span id="cb43-831"><a href="#cb43-831" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-832"><a href="#cb43-832" aria-hidden="true" tabindex="-1"></a><span class="co"># Identify high-ranking families and group others</span></span>
+<span id="cb43-833"><a href="#cb43-833" aria-hidden="true" tabindex="-1"></a>hv_family_major_tab <span class="ot">&lt;-</span> hv_family_counts <span class="sc">%&gt;%</span> <span class="fu">group_by</span>(name) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-834"><a href="#cb43-834" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(p_reads_hv <span class="sc">==</span> <span class="fu">max</span>(p_reads_hv)) <span class="sc">%&gt;%</span> <span class="fu">filter</span>(<span class="fu">row_number</span>() <span class="sc">==</span> <span class="dv">1</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-835"><a href="#cb43-835" aria-hidden="true" tabindex="-1"></a>  <span class="fu">arrange</span>(<span class="fu">desc</span>(p_reads_hv)) <span class="sc">%&gt;%</span> <span class="fu">filter</span>(p_reads_hv <span class="sc">&gt;</span> threshold_major_family)</span>
+<span id="cb43-836"><a href="#cb43-836" aria-hidden="true" tabindex="-1"></a>hv_family_counts_major <span class="ot">&lt;-</span> hv_family_counts <span class="sc">%&gt;%</span></span>
+<span id="cb43-837"><a href="#cb43-837" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">name_display =</span> <span class="fu">ifelse</span>(name <span class="sc">%in%</span> hv_family_major_tab<span class="sc">$</span>name, name, <span class="st">"Other"</span>)) <span class="sc">%&gt;%</span></span>
+<span id="cb43-838"><a href="#cb43-838" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample, name_display) <span class="sc">%&gt;%</span></span>
+<span id="cb43-839"><a href="#cb43-839" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">n_reads_hv =</span> <span class="fu">sum</span>(n_reads_hv), <span class="at">p_reads_hv =</span> <span class="fu">sum</span>(p_reads_hv), </span>
+<span id="cb43-840"><a href="#cb43-840" aria-hidden="true" tabindex="-1"></a>            <span class="at">.groups=</span><span class="st">"drop"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-841"><a href="#cb43-841" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">name_display =</span> <span class="fu">factor</span>(name_display, </span>
+<span id="cb43-842"><a href="#cb43-842" aria-hidden="true" tabindex="-1"></a>                               <span class="at">levels =</span> <span class="fu">c</span>(hv_family_major_tab<span class="sc">$</span>name, <span class="st">"Other"</span>)))</span>
+<span id="cb43-843"><a href="#cb43-843" aria-hidden="true" tabindex="-1"></a>hv_family_counts_display <span class="ot">&lt;-</span> hv_family_counts_major <span class="sc">%&gt;%</span></span>
+<span id="cb43-844"><a href="#cb43-844" aria-hidden="true" tabindex="-1"></a>  <span class="fu">rename</span>(<span class="at">p_reads =</span> p_reads_hv, <span class="at">classification =</span> name_display)</span>
+<span id="cb43-845"><a href="#cb43-845" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-846"><a href="#cb43-846" aria-hidden="true" tabindex="-1"></a><span class="co"># Plot</span></span>
+<span id="cb43-847"><a href="#cb43-847" aria-hidden="true" tabindex="-1"></a>g_hv_family <span class="ot">&lt;-</span> g_comp_base <span class="sc">+</span> </span>
+<span id="cb43-848"><a href="#cb43-848" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_col</span>(<span class="at">data=</span>hv_family_counts_display, <span class="at">position =</span> <span class="st">"stack"</span>, <span class="at">width=</span><span class="dv">1</span>) <span class="sc">+</span></span>
+<span id="cb43-849"><a href="#cb43-849" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="at">name=</span><span class="st">"% HV Reads"</span>, <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="fl">1.01</span>), </span>
+<span id="cb43-850"><a href="#cb43-850" aria-hidden="true" tabindex="-1"></a>                     <span class="at">breaks =</span> <span class="fu">seq</span>(<span class="dv">0</span>,<span class="dv">1</span>,<span class="fl">0.2</span>),</span>
+<span id="cb43-851"><a href="#cb43-851" aria-hidden="true" tabindex="-1"></a>                     <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>), <span class="at">labels =</span> <span class="cf">function</span>(y) y<span class="sc">*</span><span class="dv">100</span>) <span class="sc">+</span></span>
+<span id="cb43-852"><a href="#cb43-852" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_fill_manual</span>(<span class="at">values=</span>palette_viral, <span class="at">name =</span> <span class="st">"Viral family"</span>) <span class="sc">+</span></span>
+<span id="cb43-853"><a href="#cb43-853" aria-hidden="true" tabindex="-1"></a>  <span class="fu">labs</span>(<span class="at">title=</span><span class="st">"Family composition of human-viral reads"</span>) <span class="sc">+</span></span>
+<span id="cb43-854"><a href="#cb43-854" aria-hidden="true" tabindex="-1"></a>  <span class="fu">guides</span>(<span class="at">fill=</span><span class="fu">guide_legend</span>(<span class="at">ncol=</span><span class="dv">4</span>)) <span class="sc">+</span></span>
+<span id="cb43-855"><a href="#cb43-855" aria-hidden="true" tabindex="-1"></a>  <span class="fu">theme</span>(<span class="at">plot.title =</span> <span class="fu">element_text</span>(<span class="at">size=</span><span class="fu">rel</span>(<span class="fl">1.4</span>), <span class="at">hjust=</span><span class="dv">0</span>, <span class="at">face=</span><span class="st">"plain"</span>))</span>
+<span id="cb43-856"><a href="#cb43-856" aria-hidden="true" tabindex="-1"></a>g_hv_family</span>
+<span id="cb43-857"><a href="#cb43-857" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-858"><a href="#cb43-858" aria-hidden="true" tabindex="-1"></a><span class="co"># Get most prominent families for text</span></span>
+<span id="cb43-859"><a href="#cb43-859" aria-hidden="true" tabindex="-1"></a>hv_family_collate <span class="ot">&lt;-</span> hv_family_counts <span class="sc">%&gt;%</span> <span class="fu">group_by</span>(name, taxid) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-860"><a href="#cb43-860" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">n_reads_tot =</span> <span class="fu">sum</span>(n_reads_hv),</span>
+<span id="cb43-861"><a href="#cb43-861" aria-hidden="true" tabindex="-1"></a>            <span class="at">p_reads_max =</span> <span class="fu">max</span>(p_reads_hv), <span class="at">.groups=</span><span class="st">"drop"</span>) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-862"><a href="#cb43-862" aria-hidden="true" tabindex="-1"></a>  <span class="fu">arrange</span>(<span class="fu">desc</span>(n_reads_tot))</span>
+<span id="cb43-863"><a href="#cb43-863" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-864"><a href="#cb43-864" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-865"><a href="#cb43-865" aria-hidden="true" tabindex="-1"></a>In investigating individual viral families, to avoid distortions from a few rare reads, I restricted myself to samples where that family made up at least 10% of human-viral reads:</span>
+<span id="cb43-866"><a href="#cb43-866" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-869"><a href="#cb43-869" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-870"><a href="#cb43-870" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: hv-species-adeno</span></span>
+<span id="cb43-871"><a href="#cb43-871" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-height: 5</span></span>
+<span id="cb43-872"><a href="#cb43-872" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-width: 7</span></span>
+<span id="cb43-873"><a href="#cb43-873" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-874"><a href="#cb43-874" aria-hidden="true" tabindex="-1"></a>threshold_major_species <span class="ot">&lt;-</span> <span class="fl">0.05</span></span>
+<span id="cb43-875"><a href="#cb43-875" aria-hidden="true" tabindex="-1"></a>taxid_adeno <span class="ot">&lt;-</span> <span class="dv">10508</span></span>
+<span id="cb43-876"><a href="#cb43-876" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-877"><a href="#cb43-877" aria-hidden="true" tabindex="-1"></a><span class="co"># Get set of adenoviridae reads</span></span>
+<span id="cb43-878"><a href="#cb43-878" aria-hidden="true" tabindex="-1"></a>adeno_samples <span class="ot">&lt;-</span> hv_family_counts <span class="sc">%&gt;%</span> <span class="fu">filter</span>(taxid <span class="sc">==</span> taxid_adeno) <span class="sc">%&gt;%</span></span>
+<span id="cb43-879"><a href="#cb43-879" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(p_reads_hv <span class="sc">&gt;=</span> <span class="fl">0.1</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-880"><a href="#cb43-880" aria-hidden="true" tabindex="-1"></a>  <span class="fu">pull</span>(sample)</span>
+<span id="cb43-881"><a href="#cb43-881" aria-hidden="true" tabindex="-1"></a>adeno_ids <span class="ot">&lt;-</span> hv_reads_family <span class="sc">%&gt;%</span> </span>
+<span id="cb43-882"><a href="#cb43-882" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(taxid <span class="sc">==</span> taxid_adeno, sample <span class="sc">%in%</span> adeno_samples) <span class="sc">%&gt;%</span></span>
+<span id="cb43-883"><a href="#cb43-883" aria-hidden="true" tabindex="-1"></a>  <span class="fu">pull</span>(seq_id)</span>
+<span id="cb43-884"><a href="#cb43-884" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-885"><a href="#cb43-885" aria-hidden="true" tabindex="-1"></a><span class="co"># Count reads for each adenoviridae species</span></span>
+<span id="cb43-886"><a href="#cb43-886" aria-hidden="true" tabindex="-1"></a>adeno_species_counts <span class="ot">&lt;-</span> hv_reads_species <span class="sc">%&gt;%</span></span>
+<span id="cb43-887"><a href="#cb43-887" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(seq_id <span class="sc">%in%</span> adeno_ids) <span class="sc">%&gt;%</span></span>
+<span id="cb43-888"><a href="#cb43-888" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample, name, taxid) <span class="sc">%&gt;%</span></span>
+<span id="cb43-889"><a href="#cb43-889" aria-hidden="true" tabindex="-1"></a>  <span class="fu">count</span>(<span class="at">name =</span> <span class="st">"n_reads_hv"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-890"><a href="#cb43-890" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample) <span class="sc">%&gt;%</span></span>
+<span id="cb43-891"><a href="#cb43-891" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">p_reads_adeno =</span> n_reads_hv<span class="sc">/</span><span class="fu">sum</span>(n_reads_hv))</span>
+<span id="cb43-892"><a href="#cb43-892" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-893"><a href="#cb43-893" aria-hidden="true" tabindex="-1"></a><span class="co"># Identify high-ranking families and group others</span></span>
+<span id="cb43-894"><a href="#cb43-894" aria-hidden="true" tabindex="-1"></a>adeno_species_major_tab <span class="ot">&lt;-</span> adeno_species_counts <span class="sc">%&gt;%</span> <span class="fu">group_by</span>(name) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-895"><a href="#cb43-895" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(p_reads_adeno <span class="sc">==</span> <span class="fu">max</span>(p_reads_adeno)) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-896"><a href="#cb43-896" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(<span class="fu">row_number</span>() <span class="sc">==</span> <span class="dv">1</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-897"><a href="#cb43-897" aria-hidden="true" tabindex="-1"></a>  <span class="fu">arrange</span>(<span class="fu">desc</span>(p_reads_adeno)) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-898"><a href="#cb43-898" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(p_reads_adeno <span class="sc">&gt;</span> threshold_major_species)</span>
+<span id="cb43-899"><a href="#cb43-899" aria-hidden="true" tabindex="-1"></a>adeno_species_counts_major <span class="ot">&lt;-</span> adeno_species_counts <span class="sc">%&gt;%</span></span>
+<span id="cb43-900"><a href="#cb43-900" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">name_display =</span> <span class="fu">ifelse</span>(name <span class="sc">%in%</span> adeno_species_major_tab<span class="sc">$</span>name, </span>
+<span id="cb43-901"><a href="#cb43-901" aria-hidden="true" tabindex="-1"></a>                               name, <span class="st">"Other"</span>)) <span class="sc">%&gt;%</span></span>
+<span id="cb43-902"><a href="#cb43-902" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample, name_display) <span class="sc">%&gt;%</span></span>
+<span id="cb43-903"><a href="#cb43-903" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">n_reads_adeno =</span> <span class="fu">sum</span>(n_reads_hv),</span>
+<span id="cb43-904"><a href="#cb43-904" aria-hidden="true" tabindex="-1"></a>            <span class="at">p_reads_adeno =</span> <span class="fu">sum</span>(p_reads_adeno), </span>
+<span id="cb43-905"><a href="#cb43-905" aria-hidden="true" tabindex="-1"></a>            <span class="at">.groups=</span><span class="st">"drop"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-906"><a href="#cb43-906" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">name_display =</span> <span class="fu">factor</span>(name_display, </span>
+<span id="cb43-907"><a href="#cb43-907" aria-hidden="true" tabindex="-1"></a>                               <span class="at">levels =</span> <span class="fu">c</span>(adeno_species_major_tab<span class="sc">$</span>name, <span class="st">"Other"</span>)))</span>
+<span id="cb43-908"><a href="#cb43-908" aria-hidden="true" tabindex="-1"></a>adeno_species_counts_display <span class="ot">&lt;-</span> adeno_species_counts_major <span class="sc">%&gt;%</span></span>
+<span id="cb43-909"><a href="#cb43-909" aria-hidden="true" tabindex="-1"></a>  <span class="fu">rename</span>(<span class="at">p_reads =</span> p_reads_adeno, <span class="at">classification =</span> name_display)</span>
+<span id="cb43-910"><a href="#cb43-910" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-911"><a href="#cb43-911" aria-hidden="true" tabindex="-1"></a><span class="co"># Plot</span></span>
+<span id="cb43-912"><a href="#cb43-912" aria-hidden="true" tabindex="-1"></a>g_adeno_species <span class="ot">&lt;-</span> g_comp_base <span class="sc">+</span> </span>
+<span id="cb43-913"><a href="#cb43-913" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_col</span>(<span class="at">data=</span>adeno_species_counts_display, <span class="at">position =</span> <span class="st">"stack"</span>, <span class="at">width=</span><span class="dv">1</span>) <span class="sc">+</span></span>
+<span id="cb43-914"><a href="#cb43-914" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="at">name=</span><span class="st">"% Adenoviridae Reads"</span>, <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="fl">1.01</span>), </span>
+<span id="cb43-915"><a href="#cb43-915" aria-hidden="true" tabindex="-1"></a>                     <span class="at">breaks =</span> <span class="fu">seq</span>(<span class="dv">0</span>,<span class="dv">1</span>,<span class="fl">0.2</span>),</span>
+<span id="cb43-916"><a href="#cb43-916" aria-hidden="true" tabindex="-1"></a>                     <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>), <span class="at">labels =</span> <span class="cf">function</span>(y) y<span class="sc">*</span><span class="dv">100</span>) <span class="sc">+</span></span>
+<span id="cb43-917"><a href="#cb43-917" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_fill_manual</span>(<span class="at">values=</span>palette_viral, <span class="at">name =</span> <span class="st">"Viral species"</span>) <span class="sc">+</span></span>
+<span id="cb43-918"><a href="#cb43-918" aria-hidden="true" tabindex="-1"></a>  <span class="fu">labs</span>(<span class="at">title=</span><span class="st">"Species composition of Adenoviridae reads"</span>) <span class="sc">+</span></span>
+<span id="cb43-919"><a href="#cb43-919" aria-hidden="true" tabindex="-1"></a>  <span class="fu">guides</span>(<span class="at">fill=</span><span class="fu">guide_legend</span>(<span class="at">ncol=</span><span class="dv">3</span>)) <span class="sc">+</span></span>
+<span id="cb43-920"><a href="#cb43-920" aria-hidden="true" tabindex="-1"></a>  <span class="fu">theme</span>(<span class="at">plot.title =</span> <span class="fu">element_text</span>(<span class="at">size=</span><span class="fu">rel</span>(<span class="fl">1.4</span>), <span class="at">hjust=</span><span class="dv">0</span>, <span class="at">face=</span><span class="st">"plain"</span>))</span>
+<span id="cb43-921"><a href="#cb43-921" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-922"><a href="#cb43-922" aria-hidden="true" tabindex="-1"></a>g_adeno_species</span>
+<span id="cb43-923"><a href="#cb43-923" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-924"><a href="#cb43-924" aria-hidden="true" tabindex="-1"></a><span class="co"># Get most prominent species for text</span></span>
+<span id="cb43-925"><a href="#cb43-925" aria-hidden="true" tabindex="-1"></a>adeno_species_collate <span class="ot">&lt;-</span> adeno_species_counts <span class="sc">%&gt;%</span> <span class="fu">group_by</span>(name, taxid) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-926"><a href="#cb43-926" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">n_reads_tot =</span> <span class="fu">sum</span>(n_reads_hv), <span class="at">p_reads_mean =</span> <span class="fu">mean</span>(p_reads_adeno), <span class="at">.groups=</span><span class="st">"drop"</span>) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-927"><a href="#cb43-927" aria-hidden="true" tabindex="-1"></a>  <span class="fu">arrange</span>(<span class="fu">desc</span>(n_reads_tot))</span>
+<span id="cb43-928"><a href="#cb43-928" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-929"><a href="#cb43-929" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-932"><a href="#cb43-932" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-933"><a href="#cb43-933" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: hv-species-polyoma</span></span>
+<span id="cb43-934"><a href="#cb43-934" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-height: 5</span></span>
+<span id="cb43-935"><a href="#cb43-935" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-width: 7</span></span>
+<span id="cb43-936"><a href="#cb43-936" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-937"><a href="#cb43-937" aria-hidden="true" tabindex="-1"></a>threshold_major_species <span class="ot">&lt;-</span> <span class="fl">0.1</span></span>
+<span id="cb43-938"><a href="#cb43-938" aria-hidden="true" tabindex="-1"></a>taxid_polyoma <span class="ot">&lt;-</span> <span class="dv">151341</span></span>
+<span id="cb43-939"><a href="#cb43-939" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-940"><a href="#cb43-940" aria-hidden="true" tabindex="-1"></a><span class="co"># Get set of polyomaviridae reads</span></span>
+<span id="cb43-941"><a href="#cb43-941" aria-hidden="true" tabindex="-1"></a>polyoma_samples <span class="ot">&lt;-</span> hv_family_counts <span class="sc">%&gt;%</span> <span class="fu">filter</span>(taxid <span class="sc">==</span> taxid_polyoma) <span class="sc">%&gt;%</span></span>
+<span id="cb43-942"><a href="#cb43-942" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(p_reads_hv <span class="sc">&gt;=</span> <span class="fl">0.1</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-943"><a href="#cb43-943" aria-hidden="true" tabindex="-1"></a>  <span class="fu">pull</span>(sample)</span>
+<span id="cb43-944"><a href="#cb43-944" aria-hidden="true" tabindex="-1"></a>polyoma_ids <span class="ot">&lt;-</span> hv_reads_family <span class="sc">%&gt;%</span> </span>
+<span id="cb43-945"><a href="#cb43-945" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(taxid <span class="sc">==</span> taxid_polyoma, sample <span class="sc">%in%</span> polyoma_samples) <span class="sc">%&gt;%</span></span>
+<span id="cb43-946"><a href="#cb43-946" aria-hidden="true" tabindex="-1"></a>  <span class="fu">pull</span>(seq_id)</span>
+<span id="cb43-947"><a href="#cb43-947" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-948"><a href="#cb43-948" aria-hidden="true" tabindex="-1"></a><span class="co"># Count reads for each polyomaviridae species</span></span>
+<span id="cb43-949"><a href="#cb43-949" aria-hidden="true" tabindex="-1"></a>polyoma_species_counts <span class="ot">&lt;-</span> hv_reads_species <span class="sc">%&gt;%</span></span>
+<span id="cb43-950"><a href="#cb43-950" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(seq_id <span class="sc">%in%</span> polyoma_ids) <span class="sc">%&gt;%</span></span>
+<span id="cb43-951"><a href="#cb43-951" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample, name, taxid) <span class="sc">%&gt;%</span></span>
+<span id="cb43-952"><a href="#cb43-952" aria-hidden="true" tabindex="-1"></a>  <span class="fu">count</span>(<span class="at">name =</span> <span class="st">"n_reads_hv"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-953"><a href="#cb43-953" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample) <span class="sc">%&gt;%</span></span>
+<span id="cb43-954"><a href="#cb43-954" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">p_reads_polyoma =</span> n_reads_hv<span class="sc">/</span><span class="fu">sum</span>(n_reads_hv))</span>
+<span id="cb43-955"><a href="#cb43-955" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-956"><a href="#cb43-956" aria-hidden="true" tabindex="-1"></a><span class="co"># Identify high-ranking families and group others</span></span>
+<span id="cb43-957"><a href="#cb43-957" aria-hidden="true" tabindex="-1"></a>polyoma_species_major_tab <span class="ot">&lt;-</span> polyoma_species_counts <span class="sc">%&gt;%</span> <span class="fu">group_by</span>(name) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-958"><a href="#cb43-958" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(p_reads_polyoma <span class="sc">==</span> <span class="fu">max</span>(p_reads_polyoma)) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-959"><a href="#cb43-959" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(<span class="fu">row_number</span>() <span class="sc">==</span> <span class="dv">1</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-960"><a href="#cb43-960" aria-hidden="true" tabindex="-1"></a>  <span class="fu">arrange</span>(<span class="fu">desc</span>(p_reads_polyoma)) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-961"><a href="#cb43-961" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(p_reads_polyoma <span class="sc">&gt;</span> threshold_major_species)</span>
+<span id="cb43-962"><a href="#cb43-962" aria-hidden="true" tabindex="-1"></a>polyoma_species_counts_major <span class="ot">&lt;-</span> polyoma_species_counts <span class="sc">%&gt;%</span></span>
+<span id="cb43-963"><a href="#cb43-963" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">name_display =</span> <span class="fu">ifelse</span>(name <span class="sc">%in%</span> polyoma_species_major_tab<span class="sc">$</span>name, </span>
+<span id="cb43-964"><a href="#cb43-964" aria-hidden="true" tabindex="-1"></a>                               name, <span class="st">"Other"</span>)) <span class="sc">%&gt;%</span></span>
+<span id="cb43-965"><a href="#cb43-965" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample, name_display) <span class="sc">%&gt;%</span></span>
+<span id="cb43-966"><a href="#cb43-966" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">n_reads_polyoma =</span> <span class="fu">sum</span>(n_reads_hv),</span>
+<span id="cb43-967"><a href="#cb43-967" aria-hidden="true" tabindex="-1"></a>            <span class="at">p_reads_polyoma =</span> <span class="fu">sum</span>(p_reads_polyoma), </span>
+<span id="cb43-968"><a href="#cb43-968" aria-hidden="true" tabindex="-1"></a>            <span class="at">.groups=</span><span class="st">"drop"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-969"><a href="#cb43-969" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">name_display =</span> <span class="fu">factor</span>(name_display, </span>
+<span id="cb43-970"><a href="#cb43-970" aria-hidden="true" tabindex="-1"></a>                               <span class="at">levels =</span> <span class="fu">c</span>(polyoma_species_major_tab<span class="sc">$</span>name, <span class="st">"Other"</span>)))</span>
+<span id="cb43-971"><a href="#cb43-971" aria-hidden="true" tabindex="-1"></a>polyoma_species_counts_display <span class="ot">&lt;-</span> polyoma_species_counts_major <span class="sc">%&gt;%</span></span>
+<span id="cb43-972"><a href="#cb43-972" aria-hidden="true" tabindex="-1"></a>  <span class="fu">rename</span>(<span class="at">p_reads =</span> p_reads_polyoma, <span class="at">classification =</span> name_display)</span>
+<span id="cb43-973"><a href="#cb43-973" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-974"><a href="#cb43-974" aria-hidden="true" tabindex="-1"></a><span class="co"># Plot</span></span>
+<span id="cb43-975"><a href="#cb43-975" aria-hidden="true" tabindex="-1"></a>g_polyoma_species <span class="ot">&lt;-</span> g_comp_base <span class="sc">+</span> </span>
+<span id="cb43-976"><a href="#cb43-976" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_col</span>(<span class="at">data=</span>polyoma_species_counts_display, <span class="at">position =</span> <span class="st">"stack"</span>, <span class="at">width=</span><span class="dv">1</span>) <span class="sc">+</span></span>
+<span id="cb43-977"><a href="#cb43-977" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="at">name=</span><span class="st">"% Polyomaviridae Reads"</span>, <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="fl">1.01</span>), </span>
+<span id="cb43-978"><a href="#cb43-978" aria-hidden="true" tabindex="-1"></a>                     <span class="at">breaks =</span> <span class="fu">seq</span>(<span class="dv">0</span>,<span class="dv">1</span>,<span class="fl">0.2</span>),</span>
+<span id="cb43-979"><a href="#cb43-979" aria-hidden="true" tabindex="-1"></a>                     <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>), <span class="at">labels =</span> <span class="cf">function</span>(y) y<span class="sc">*</span><span class="dv">100</span>) <span class="sc">+</span></span>
+<span id="cb43-980"><a href="#cb43-980" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_fill_manual</span>(<span class="at">values=</span>palette_viral, <span class="at">name =</span> <span class="st">"Viral species"</span>) <span class="sc">+</span></span>
+<span id="cb43-981"><a href="#cb43-981" aria-hidden="true" tabindex="-1"></a>  <span class="fu">labs</span>(<span class="at">title=</span><span class="st">"Species composition of Polyomaviridae reads"</span>) <span class="sc">+</span></span>
+<span id="cb43-982"><a href="#cb43-982" aria-hidden="true" tabindex="-1"></a>  <span class="fu">guides</span>(<span class="at">fill=</span><span class="fu">guide_legend</span>(<span class="at">ncol=</span><span class="dv">3</span>)) <span class="sc">+</span></span>
+<span id="cb43-983"><a href="#cb43-983" aria-hidden="true" tabindex="-1"></a>  <span class="fu">theme</span>(<span class="at">plot.title =</span> <span class="fu">element_text</span>(<span class="at">size=</span><span class="fu">rel</span>(<span class="fl">1.4</span>), <span class="at">hjust=</span><span class="dv">0</span>, <span class="at">face=</span><span class="st">"plain"</span>))</span>
+<span id="cb43-984"><a href="#cb43-984" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-985"><a href="#cb43-985" aria-hidden="true" tabindex="-1"></a>g_polyoma_species</span>
+<span id="cb43-986"><a href="#cb43-986" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-987"><a href="#cb43-987" aria-hidden="true" tabindex="-1"></a><span class="co"># Get most prominent species for text</span></span>
+<span id="cb43-988"><a href="#cb43-988" aria-hidden="true" tabindex="-1"></a>polyoma_species_collate <span class="ot">&lt;-</span> polyoma_species_counts <span class="sc">%&gt;%</span> <span class="fu">group_by</span>(name, taxid) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-989"><a href="#cb43-989" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">n_reads_tot =</span> <span class="fu">sum</span>(n_reads_hv), <span class="at">p_reads_mean =</span> <span class="fu">mean</span>(p_reads_polyoma), <span class="at">.groups=</span><span class="st">"drop"</span>) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-990"><a href="#cb43-990" aria-hidden="true" tabindex="-1"></a>  <span class="fu">arrange</span>(<span class="fu">desc</span>(n_reads_tot))</span>
+<span id="cb43-991"><a href="#cb43-991" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-992"><a href="#cb43-992" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-995"><a href="#cb43-995" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-996"><a href="#cb43-996" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: hv-species-papilloma</span></span>
+<span id="cb43-997"><a href="#cb43-997" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-height: 5</span></span>
+<span id="cb43-998"><a href="#cb43-998" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-width: 7</span></span>
+<span id="cb43-999"><a href="#cb43-999" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1000"><a href="#cb43-1000" aria-hidden="true" tabindex="-1"></a>threshold_major_species <span class="ot">&lt;-</span> <span class="fl">0.1</span></span>
+<span id="cb43-1001"><a href="#cb43-1001" aria-hidden="true" tabindex="-1"></a>taxid_papilloma <span class="ot">&lt;-</span> <span class="dv">151340</span></span>
+<span id="cb43-1002"><a href="#cb43-1002" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1003"><a href="#cb43-1003" aria-hidden="true" tabindex="-1"></a><span class="co"># Get set of papillomaviridae reads</span></span>
+<span id="cb43-1004"><a href="#cb43-1004" aria-hidden="true" tabindex="-1"></a>papilloma_samples <span class="ot">&lt;-</span> hv_family_counts <span class="sc">%&gt;%</span> <span class="fu">filter</span>(taxid <span class="sc">==</span> taxid_papilloma) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1005"><a href="#cb43-1005" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(p_reads_hv <span class="sc">&gt;=</span> <span class="fl">0.1</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1006"><a href="#cb43-1006" aria-hidden="true" tabindex="-1"></a>  <span class="fu">pull</span>(sample)</span>
+<span id="cb43-1007"><a href="#cb43-1007" aria-hidden="true" tabindex="-1"></a>papilloma_ids <span class="ot">&lt;-</span> hv_reads_family <span class="sc">%&gt;%</span> </span>
+<span id="cb43-1008"><a href="#cb43-1008" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(taxid <span class="sc">==</span> taxid_papilloma, sample <span class="sc">%in%</span> papilloma_samples) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1009"><a href="#cb43-1009" aria-hidden="true" tabindex="-1"></a>  <span class="fu">pull</span>(seq_id)</span>
+<span id="cb43-1010"><a href="#cb43-1010" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1011"><a href="#cb43-1011" aria-hidden="true" tabindex="-1"></a><span class="co"># Count reads for each papillomaviridae species</span></span>
+<span id="cb43-1012"><a href="#cb43-1012" aria-hidden="true" tabindex="-1"></a>papilloma_species_counts <span class="ot">&lt;-</span> hv_reads_species <span class="sc">%&gt;%</span></span>
+<span id="cb43-1013"><a href="#cb43-1013" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(seq_id <span class="sc">%in%</span> papilloma_ids) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1014"><a href="#cb43-1014" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample, name, taxid) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1015"><a href="#cb43-1015" aria-hidden="true" tabindex="-1"></a>  <span class="fu">count</span>(<span class="at">name =</span> <span class="st">"n_reads_hv"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1016"><a href="#cb43-1016" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1017"><a href="#cb43-1017" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">p_reads_papilloma =</span> n_reads_hv<span class="sc">/</span><span class="fu">sum</span>(n_reads_hv))</span>
+<span id="cb43-1018"><a href="#cb43-1018" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1019"><a href="#cb43-1019" aria-hidden="true" tabindex="-1"></a><span class="co"># Identify high-ranking families and group others</span></span>
+<span id="cb43-1020"><a href="#cb43-1020" aria-hidden="true" tabindex="-1"></a>papilloma_species_major_tab <span class="ot">&lt;-</span> papilloma_species_counts <span class="sc">%&gt;%</span> <span class="fu">group_by</span>(name) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-1021"><a href="#cb43-1021" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(p_reads_papilloma <span class="sc">==</span> <span class="fu">max</span>(p_reads_papilloma)) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-1022"><a href="#cb43-1022" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(<span class="fu">row_number</span>() <span class="sc">==</span> <span class="dv">1</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1023"><a href="#cb43-1023" aria-hidden="true" tabindex="-1"></a>  <span class="fu">arrange</span>(<span class="fu">desc</span>(p_reads_papilloma)) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-1024"><a href="#cb43-1024" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(p_reads_papilloma <span class="sc">&gt;</span> threshold_major_species)</span>
+<span id="cb43-1025"><a href="#cb43-1025" aria-hidden="true" tabindex="-1"></a>papilloma_species_counts_major <span class="ot">&lt;-</span> papilloma_species_counts <span class="sc">%&gt;%</span></span>
+<span id="cb43-1026"><a href="#cb43-1026" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">name_display =</span> <span class="fu">ifelse</span>(name <span class="sc">%in%</span> papilloma_species_major_tab<span class="sc">$</span>name, </span>
+<span id="cb43-1027"><a href="#cb43-1027" aria-hidden="true" tabindex="-1"></a>                               name, <span class="st">"Other"</span>)) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1028"><a href="#cb43-1028" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample, name_display) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1029"><a href="#cb43-1029" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">n_reads_papilloma =</span> <span class="fu">sum</span>(n_reads_hv),</span>
+<span id="cb43-1030"><a href="#cb43-1030" aria-hidden="true" tabindex="-1"></a>            <span class="at">p_reads_papilloma =</span> <span class="fu">sum</span>(p_reads_papilloma), </span>
+<span id="cb43-1031"><a href="#cb43-1031" aria-hidden="true" tabindex="-1"></a>            <span class="at">.groups=</span><span class="st">"drop"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1032"><a href="#cb43-1032" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">name_display =</span> <span class="fu">factor</span>(name_display, </span>
+<span id="cb43-1033"><a href="#cb43-1033" aria-hidden="true" tabindex="-1"></a>                               <span class="at">levels =</span> <span class="fu">c</span>(papilloma_species_major_tab<span class="sc">$</span>name, <span class="st">"Other"</span>)))</span>
+<span id="cb43-1034"><a href="#cb43-1034" aria-hidden="true" tabindex="-1"></a>papilloma_species_counts_display <span class="ot">&lt;-</span> papilloma_species_counts_major <span class="sc">%&gt;%</span></span>
+<span id="cb43-1035"><a href="#cb43-1035" aria-hidden="true" tabindex="-1"></a>  <span class="fu">rename</span>(<span class="at">p_reads =</span> p_reads_papilloma, <span class="at">classification =</span> name_display)</span>
+<span id="cb43-1036"><a href="#cb43-1036" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1037"><a href="#cb43-1037" aria-hidden="true" tabindex="-1"></a><span class="co"># Plot</span></span>
+<span id="cb43-1038"><a href="#cb43-1038" aria-hidden="true" tabindex="-1"></a>g_papilloma_species <span class="ot">&lt;-</span> g_comp_base <span class="sc">+</span> </span>
+<span id="cb43-1039"><a href="#cb43-1039" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_col</span>(<span class="at">data=</span>papilloma_species_counts_display, <span class="at">position =</span> <span class="st">"stack"</span>, <span class="at">width=</span><span class="dv">1</span>) <span class="sc">+</span></span>
+<span id="cb43-1040"><a href="#cb43-1040" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="at">name=</span><span class="st">"% Papillomaviridae Reads"</span>, <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="fl">1.01</span>), </span>
+<span id="cb43-1041"><a href="#cb43-1041" aria-hidden="true" tabindex="-1"></a>                     <span class="at">breaks =</span> <span class="fu">seq</span>(<span class="dv">0</span>,<span class="dv">1</span>,<span class="fl">0.2</span>),</span>
+<span id="cb43-1042"><a href="#cb43-1042" aria-hidden="true" tabindex="-1"></a>                     <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>), <span class="at">labels =</span> <span class="cf">function</span>(y) y<span class="sc">*</span><span class="dv">100</span>) <span class="sc">+</span></span>
+<span id="cb43-1043"><a href="#cb43-1043" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_fill_manual</span>(<span class="at">values=</span>palette_viral, <span class="at">name =</span> <span class="st">"Viral species"</span>) <span class="sc">+</span></span>
+<span id="cb43-1044"><a href="#cb43-1044" aria-hidden="true" tabindex="-1"></a>  <span class="fu">labs</span>(<span class="at">title=</span><span class="st">"Species composition of Papillomaviridae reads"</span>) <span class="sc">+</span></span>
+<span id="cb43-1045"><a href="#cb43-1045" aria-hidden="true" tabindex="-1"></a>  <span class="fu">guides</span>(<span class="at">fill=</span><span class="fu">guide_legend</span>(<span class="at">ncol=</span><span class="dv">3</span>)) <span class="sc">+</span></span>
+<span id="cb43-1046"><a href="#cb43-1046" aria-hidden="true" tabindex="-1"></a>  <span class="fu">theme</span>(<span class="at">plot.title =</span> <span class="fu">element_text</span>(<span class="at">size=</span><span class="fu">rel</span>(<span class="fl">1.4</span>), <span class="at">hjust=</span><span class="dv">0</span>, <span class="at">face=</span><span class="st">"plain"</span>))</span>
+<span id="cb43-1047"><a href="#cb43-1047" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1048"><a href="#cb43-1048" aria-hidden="true" tabindex="-1"></a>g_papilloma_species</span>
+<span id="cb43-1049"><a href="#cb43-1049" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1050"><a href="#cb43-1050" aria-hidden="true" tabindex="-1"></a><span class="co"># Get most prominent species for text</span></span>
+<span id="cb43-1051"><a href="#cb43-1051" aria-hidden="true" tabindex="-1"></a>papilloma_species_collate <span class="ot">&lt;-</span> papilloma_species_counts <span class="sc">%&gt;%</span> <span class="fu">group_by</span>(name, taxid) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-1052"><a href="#cb43-1052" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">n_reads_tot =</span> <span class="fu">sum</span>(n_reads_hv), <span class="at">p_reads_mean =</span> <span class="fu">mean</span>(p_reads_papilloma), <span class="at">.groups=</span><span class="st">"drop"</span>) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-1053"><a href="#cb43-1053" aria-hidden="true" tabindex="-1"></a>  <span class="fu">arrange</span>(<span class="fu">desc</span>(n_reads_tot))</span>
+<span id="cb43-1054"><a href="#cb43-1054" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-1055"><a href="#cb43-1055" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1058"><a href="#cb43-1058" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-1059"><a href="#cb43-1059" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: hv-species-herpes</span></span>
+<span id="cb43-1060"><a href="#cb43-1060" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-height: 5</span></span>
+<span id="cb43-1061"><a href="#cb43-1061" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-width: 7</span></span>
+<span id="cb43-1062"><a href="#cb43-1062" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1063"><a href="#cb43-1063" aria-hidden="true" tabindex="-1"></a>threshold_major_species <span class="ot">&lt;-</span> <span class="fl">0.1</span></span>
+<span id="cb43-1064"><a href="#cb43-1064" aria-hidden="true" tabindex="-1"></a>taxid_herpes <span class="ot">&lt;-</span> <span class="dv">10292</span></span>
+<span id="cb43-1065"><a href="#cb43-1065" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1066"><a href="#cb43-1066" aria-hidden="true" tabindex="-1"></a><span class="co"># Get set of herpesviridae reads</span></span>
+<span id="cb43-1067"><a href="#cb43-1067" aria-hidden="true" tabindex="-1"></a>herpes_samples <span class="ot">&lt;-</span> hv_family_counts <span class="sc">%&gt;%</span> <span class="fu">filter</span>(taxid <span class="sc">==</span> taxid_herpes) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1068"><a href="#cb43-1068" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(p_reads_hv <span class="sc">&gt;=</span> <span class="fl">0.1</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1069"><a href="#cb43-1069" aria-hidden="true" tabindex="-1"></a>  <span class="fu">pull</span>(sample)</span>
+<span id="cb43-1070"><a href="#cb43-1070" aria-hidden="true" tabindex="-1"></a>herpes_ids <span class="ot">&lt;-</span> hv_reads_family <span class="sc">%&gt;%</span> </span>
+<span id="cb43-1071"><a href="#cb43-1071" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(taxid <span class="sc">==</span> taxid_herpes, sample <span class="sc">%in%</span> herpes_samples) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1072"><a href="#cb43-1072" aria-hidden="true" tabindex="-1"></a>  <span class="fu">pull</span>(seq_id)</span>
+<span id="cb43-1073"><a href="#cb43-1073" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1074"><a href="#cb43-1074" aria-hidden="true" tabindex="-1"></a><span class="co"># Count reads for each herpesviridae species</span></span>
+<span id="cb43-1075"><a href="#cb43-1075" aria-hidden="true" tabindex="-1"></a>herpes_species_counts <span class="ot">&lt;-</span> hv_reads_species <span class="sc">%&gt;%</span></span>
+<span id="cb43-1076"><a href="#cb43-1076" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(seq_id <span class="sc">%in%</span> herpes_ids) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1077"><a href="#cb43-1077" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample, name, taxid) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1078"><a href="#cb43-1078" aria-hidden="true" tabindex="-1"></a>  <span class="fu">count</span>(<span class="at">name =</span> <span class="st">"n_reads_hv"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1079"><a href="#cb43-1079" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1080"><a href="#cb43-1080" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">p_reads_herpes =</span> n_reads_hv<span class="sc">/</span><span class="fu">sum</span>(n_reads_hv))</span>
+<span id="cb43-1081"><a href="#cb43-1081" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1082"><a href="#cb43-1082" aria-hidden="true" tabindex="-1"></a><span class="co"># Identify high-ranking families and group others</span></span>
+<span id="cb43-1083"><a href="#cb43-1083" aria-hidden="true" tabindex="-1"></a>herpes_species_major_tab <span class="ot">&lt;-</span> herpes_species_counts <span class="sc">%&gt;%</span> <span class="fu">group_by</span>(name) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-1084"><a href="#cb43-1084" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(p_reads_herpes <span class="sc">==</span> <span class="fu">max</span>(p_reads_herpes)) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-1085"><a href="#cb43-1085" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(<span class="fu">row_number</span>() <span class="sc">==</span> <span class="dv">1</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1086"><a href="#cb43-1086" aria-hidden="true" tabindex="-1"></a>  <span class="fu">arrange</span>(<span class="fu">desc</span>(p_reads_herpes)) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-1087"><a href="#cb43-1087" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(p_reads_herpes <span class="sc">&gt;</span> threshold_major_species)</span>
+<span id="cb43-1088"><a href="#cb43-1088" aria-hidden="true" tabindex="-1"></a>herpes_species_counts_major <span class="ot">&lt;-</span> herpes_species_counts <span class="sc">%&gt;%</span></span>
+<span id="cb43-1089"><a href="#cb43-1089" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">name_display =</span> <span class="fu">ifelse</span>(name <span class="sc">%in%</span> herpes_species_major_tab<span class="sc">$</span>name, </span>
+<span id="cb43-1090"><a href="#cb43-1090" aria-hidden="true" tabindex="-1"></a>                               name, <span class="st">"Other"</span>)) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1091"><a href="#cb43-1091" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample, name_display) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1092"><a href="#cb43-1092" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">n_reads_herpes =</span> <span class="fu">sum</span>(n_reads_hv),</span>
+<span id="cb43-1093"><a href="#cb43-1093" aria-hidden="true" tabindex="-1"></a>            <span class="at">p_reads_herpes =</span> <span class="fu">sum</span>(p_reads_herpes), </span>
+<span id="cb43-1094"><a href="#cb43-1094" aria-hidden="true" tabindex="-1"></a>            <span class="at">.groups=</span><span class="st">"drop"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1095"><a href="#cb43-1095" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">name_display =</span> <span class="fu">factor</span>(name_display, </span>
+<span id="cb43-1096"><a href="#cb43-1096" aria-hidden="true" tabindex="-1"></a>                               <span class="at">levels =</span> <span class="fu">c</span>(herpes_species_major_tab<span class="sc">$</span>name, <span class="st">"Other"</span>)))</span>
+<span id="cb43-1097"><a href="#cb43-1097" aria-hidden="true" tabindex="-1"></a>herpes_species_counts_display <span class="ot">&lt;-</span> herpes_species_counts_major <span class="sc">%&gt;%</span></span>
+<span id="cb43-1098"><a href="#cb43-1098" aria-hidden="true" tabindex="-1"></a>  <span class="fu">rename</span>(<span class="at">p_reads =</span> p_reads_herpes, <span class="at">classification =</span> name_display)</span>
+<span id="cb43-1099"><a href="#cb43-1099" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1100"><a href="#cb43-1100" aria-hidden="true" tabindex="-1"></a><span class="co"># Plot</span></span>
+<span id="cb43-1101"><a href="#cb43-1101" aria-hidden="true" tabindex="-1"></a>g_herpes_species <span class="ot">&lt;-</span> g_comp_base <span class="sc">+</span> </span>
+<span id="cb43-1102"><a href="#cb43-1102" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_col</span>(<span class="at">data=</span>herpes_species_counts_display, <span class="at">position =</span> <span class="st">"stack"</span>, <span class="at">width=</span><span class="dv">1</span>) <span class="sc">+</span></span>
+<span id="cb43-1103"><a href="#cb43-1103" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_y_continuous</span>(<span class="at">name=</span><span class="st">"% Herpesviridae Reads"</span>, <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="fl">1.01</span>), </span>
+<span id="cb43-1104"><a href="#cb43-1104" aria-hidden="true" tabindex="-1"></a>                     <span class="at">breaks =</span> <span class="fu">seq</span>(<span class="dv">0</span>,<span class="dv">1</span>,<span class="fl">0.2</span>),</span>
+<span id="cb43-1105"><a href="#cb43-1105" aria-hidden="true" tabindex="-1"></a>                     <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>), <span class="at">labels =</span> <span class="cf">function</span>(y) y<span class="sc">*</span><span class="dv">100</span>) <span class="sc">+</span></span>
+<span id="cb43-1106"><a href="#cb43-1106" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_fill_manual</span>(<span class="at">values=</span>palette_viral, <span class="at">name =</span> <span class="st">"Viral species"</span>) <span class="sc">+</span></span>
+<span id="cb43-1107"><a href="#cb43-1107" aria-hidden="true" tabindex="-1"></a>  <span class="fu">labs</span>(<span class="at">title=</span><span class="st">"Species composition of Herpesviridae reads"</span>) <span class="sc">+</span></span>
+<span id="cb43-1108"><a href="#cb43-1108" aria-hidden="true" tabindex="-1"></a>  <span class="fu">guides</span>(<span class="at">fill=</span><span class="fu">guide_legend</span>(<span class="at">ncol=</span><span class="dv">3</span>)) <span class="sc">+</span></span>
+<span id="cb43-1109"><a href="#cb43-1109" aria-hidden="true" tabindex="-1"></a>  <span class="fu">theme</span>(<span class="at">plot.title =</span> <span class="fu">element_text</span>(<span class="at">size=</span><span class="fu">rel</span>(<span class="fl">1.4</span>), <span class="at">hjust=</span><span class="dv">0</span>, <span class="at">face=</span><span class="st">"plain"</span>))</span>
+<span id="cb43-1110"><a href="#cb43-1110" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1111"><a href="#cb43-1111" aria-hidden="true" tabindex="-1"></a>g_herpes_species</span>
+<span id="cb43-1112"><a href="#cb43-1112" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1113"><a href="#cb43-1113" aria-hidden="true" tabindex="-1"></a><span class="co"># Get most prominent species for text</span></span>
+<span id="cb43-1114"><a href="#cb43-1114" aria-hidden="true" tabindex="-1"></a>herpes_species_collate <span class="ot">&lt;-</span> herpes_species_counts <span class="sc">%&gt;%</span> <span class="fu">group_by</span>(name, taxid) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-1115"><a href="#cb43-1115" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">n_reads_tot =</span> <span class="fu">sum</span>(n_reads_hv), <span class="at">p_reads_mean =</span> <span class="fu">mean</span>(p_reads_herpes), <span class="at">.groups=</span><span class="st">"drop"</span>) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-1116"><a href="#cb43-1116" aria-hidden="true" tabindex="-1"></a>  <span class="fu">arrange</span>(<span class="fu">desc</span>(n_reads_tot))</span>
+<span id="cb43-1117"><a href="#cb43-1117" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-1118"><a href="#cb43-1118" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1119"><a href="#cb43-1119" aria-hidden="true" tabindex="-1"></a>I was a bit suspicious of this last result, given that it only occurred in one sample, but according to BLASTN, at least, these human gammaherpesvirus 4 (a.k.a. EBV) matches are real:</span>
+<span id="cb43-1120"><a href="#cb43-1120" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1123"><a href="#cb43-1123" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-1124"><a href="#cb43-1124" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: hv-blast-hits</span></span>
+<span id="cb43-1125"><a href="#cb43-1125" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-width: 6</span></span>
+<span id="cb43-1126"><a href="#cb43-1126" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1127"><a href="#cb43-1127" aria-hidden="true" tabindex="-1"></a><span class="co"># Configure</span></span>
+<span id="cb43-1128"><a href="#cb43-1128" aria-hidden="true" tabindex="-1"></a>ref_taxids_hv <span class="ot">&lt;-</span> <span class="fu">c</span>(<span class="dv">10376</span>)</span>
+<span id="cb43-1129"><a href="#cb43-1129" aria-hidden="true" tabindex="-1"></a>ref_names_hv <span class="ot">&lt;-</span> <span class="fu">sapply</span>(ref_taxids_hv, <span class="cf">function</span>(x) viral_taxa <span class="sc">%&gt;%</span> <span class="fu">filter</span>(taxid <span class="sc">==</span> x) <span class="sc">%&gt;%</span> <span class="fu">pull</span>(name) <span class="sc">%&gt;%</span> first)</span>
+<span id="cb43-1130"><a href="#cb43-1130" aria-hidden="true" tabindex="-1"></a>p_threshold <span class="ot">&lt;-</span> <span class="fl">0.1</span></span>
+<span id="cb43-1131"><a href="#cb43-1131" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1132"><a href="#cb43-1132" aria-hidden="true" tabindex="-1"></a><span class="co"># Get taxon names</span></span>
+<span id="cb43-1133"><a href="#cb43-1133" aria-hidden="true" tabindex="-1"></a>tax_names_path <span class="ot">&lt;-</span> <span class="fu">file.path</span>(data_dir, <span class="st">"taxid-names.tsv.gz"</span>)</span>
+<span id="cb43-1134"><a href="#cb43-1134" aria-hidden="true" tabindex="-1"></a>tax_names <span class="ot">&lt;-</span> <span class="fu">read_tsv</span>(tax_names_path, <span class="at">show_col_types =</span> <span class="cn">FALSE</span>)</span>
+<span id="cb43-1135"><a href="#cb43-1135" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1136"><a href="#cb43-1136" aria-hidden="true" tabindex="-1"></a><span class="co"># Add missing names</span></span>
+<span id="cb43-1137"><a href="#cb43-1137" aria-hidden="true" tabindex="-1"></a>tax_names_new <span class="ot">&lt;-</span> <span class="fu">tribble</span>(<span class="sc">~</span>staxid, <span class="sc">~</span>name,</span>
+<span id="cb43-1138"><a href="#cb43-1138" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">3050295</span>, <span class="st">"Cytomegalovirus humanbeta5"</span>,</span>
+<span id="cb43-1139"><a href="#cb43-1139" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">459231</span>, <span class="st">"FLAG-tagging vector pFLAG97-TSR"</span>,</span>
+<span id="cb43-1140"><a href="#cb43-1140" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">257877</span>, <span class="st">"Macaca thibetana thibetana"</span>,</span>
+<span id="cb43-1141"><a href="#cb43-1141" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">256321</span>, <span class="st">"Lentiviral transfer vector pHsCXW"</span>,</span>
+<span id="cb43-1142"><a href="#cb43-1142" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">419242</span>, <span class="st">"Shuttle vector pLvCmvMYOCDHA"</span>,</span>
+<span id="cb43-1143"><a href="#cb43-1143" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">419243</span>, <span class="st">"Shuttle vector pLvCmvLacZ"</span>,</span>
+<span id="cb43-1144"><a href="#cb43-1144" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">421868</span>, <span class="st">"Cloning vector pLvCmvLacZ.Gfp"</span>,</span>
+<span id="cb43-1145"><a href="#cb43-1145" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">421869</span>, <span class="st">"Cloning vector pLvCmvMyocardin.Gfp"</span>,</span>
+<span id="cb43-1146"><a href="#cb43-1146" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">426303</span>, <span class="st">"Lentiviral vector pNL-GFP-RRE(SA)"</span>,</span>
+<span id="cb43-1147"><a href="#cb43-1147" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">436015</span>, <span class="st">"Lentiviral transfer vector pFTMGW"</span>,</span>
+<span id="cb43-1148"><a href="#cb43-1148" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">454257</span>, <span class="st">"Shuttle vector pLvCmvMYOCD2aHA"</span>,</span>
+<span id="cb43-1149"><a href="#cb43-1149" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">476184</span>, <span class="st">"Shuttle vector pLV.mMyoD::ERT2.eGFP"</span>,</span>
+<span id="cb43-1150"><a href="#cb43-1150" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">476185</span>, <span class="st">"Shuttle vector pLV.hMyoD.eGFP"</span>,</span>
+<span id="cb43-1151"><a href="#cb43-1151" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">591936</span>, <span class="st">"Piliocolobus tephrosceles"</span>,</span>
+<span id="cb43-1152"><a href="#cb43-1152" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">627481</span>, <span class="st">"Lentiviral transfer vector pFTM3GW"</span>,</span>
+<span id="cb43-1153"><a href="#cb43-1153" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">680261</span>, <span class="st">"Self-inactivating lentivirus vector pLV.C-EF1a.cyt-bGal.dCpG"</span>,</span>
+<span id="cb43-1154"><a href="#cb43-1154" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">2952778</span>, <span class="st">"Expression vector pLV[Exp]-EGFP:T2A:Puro-EF1A"</span>,</span>
+<span id="cb43-1155"><a href="#cb43-1155" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">3022699</span>, <span class="st">"Vector PAS_122122"</span>,</span>
+<span id="cb43-1156"><a href="#cb43-1156" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">3025913</span>, <span class="st">"Vector pSIN-WP-mPGK-GDNF"</span>,</span>
+<span id="cb43-1157"><a href="#cb43-1157" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">3105863</span>, <span class="st">"Vector pLKO.1-ZsGreen1"</span>,</span>
+<span id="cb43-1158"><a href="#cb43-1158" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">3105864</span>, <span class="st">"Vector pLKO.1-ZsGreen1 mouse Wfs1 shRNA"</span>,</span>
+<span id="cb43-1159"><a href="#cb43-1159" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">3108001</span>, <span class="st">"Cloning vector pLVSIN-CMV_Neo_v4.0"</span>,</span>
+<span id="cb43-1160"><a href="#cb43-1160" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">3109234</span>, <span class="st">"Vector pTwist+Kan+High"</span>,</span>
+<span id="cb43-1161"><a href="#cb43-1161" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">3117662</span>, <span class="st">"Cloning vector pLV[Exp]-CBA&gt;P301L"</span>,</span>
+<span id="cb43-1162"><a href="#cb43-1162" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">3117663</span>, <span class="st">"Cloning vector pLV[Exp]-CBA&gt;P301L:T2A:mRuby3"</span>,</span>
+<span id="cb43-1163"><a href="#cb43-1163" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">3117664</span>, <span class="st">"Cloning vector pLV[Exp]-CBA&gt;hMAPT[NM_005910.6](ns):T2A:mRuby3"</span>,</span>
+<span id="cb43-1164"><a href="#cb43-1164" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">3117665</span>, <span class="st">"Cloning vector pLV[Exp]-CBA&gt;mRuby3"</span>,</span>
+<span id="cb43-1165"><a href="#cb43-1165" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">3117666</span>, <span class="st">"Cloning vector pLV[Exp]-CBA&gt;mRuby3/NFAT3 fusion protein"</span>,</span>
+<span id="cb43-1166"><a href="#cb43-1166" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">3117667</span>, <span class="st">"Cloning vector pLV[Exp]-Neo-mPGK&gt;{EGFP-hSEPT6}"</span>,</span>
+<span id="cb43-1167"><a href="#cb43-1167" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">438045</span>, <span class="st">"Xenotropic MuLV-related virus"</span>,</span>
+<span id="cb43-1168"><a href="#cb43-1168" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">447135</span>, <span class="st">"Myodes glareolus"</span>,</span>
+<span id="cb43-1169"><a href="#cb43-1169" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">590745</span>, <span class="st">"Mus musculus mobilized endogenous polytropic provirus"</span>,</span>
+<span id="cb43-1170"><a href="#cb43-1170" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">181858</span>, <span class="st">"Murine AIDS virus-related provirus"</span>,</span>
+<span id="cb43-1171"><a href="#cb43-1171" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">356663</span>, <span class="st">"Xenotropic MuLV-related virus VP35"</span>,</span>
+<span id="cb43-1172"><a href="#cb43-1172" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">356664</span>, <span class="st">"Xenotropic MuLV-related virus VP42"</span>,</span>
+<span id="cb43-1173"><a href="#cb43-1173" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">373193</span>, <span class="st">"Xenotropic MuLV-related virus VP62"</span>,</span>
+<span id="cb43-1174"><a href="#cb43-1174" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">286419</span>, <span class="st">"Canis lupus dingo"</span>,</span>
+<span id="cb43-1175"><a href="#cb43-1175" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">415978</span>, <span class="st">"Sus scrofa scrofa"</span>,</span>
+<span id="cb43-1176"><a href="#cb43-1176" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">494514</span>, <span class="st">"Vulpes lagopus"</span>,</span>
+<span id="cb43-1177"><a href="#cb43-1177" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">3082113</span>, <span class="st">"Rangifer tarandus platyrhynchus"</span>,</span>
+<span id="cb43-1178"><a href="#cb43-1178" aria-hidden="true" tabindex="-1"></a>                         <span class="dv">3119969</span>, <span class="st">"Bubalus kerabau"</span>)</span>
+<span id="cb43-1179"><a href="#cb43-1179" aria-hidden="true" tabindex="-1"></a>tax_names <span class="ot">&lt;-</span> <span class="fu">bind_rows</span>(tax_names, tax_names_new)</span>
+<span id="cb43-1180"><a href="#cb43-1180" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1181"><a href="#cb43-1181" aria-hidden="true" tabindex="-1"></a><span class="co"># Get matches</span></span>
+<span id="cb43-1182"><a href="#cb43-1182" aria-hidden="true" tabindex="-1"></a>hv_blast_staxids <span class="ot">&lt;-</span> hv_reads_species <span class="sc">%&gt;%</span> <span class="fu">filter</span>(taxid <span class="sc">%in%</span> ref_taxids_hv) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1183"><a href="#cb43-1183" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(taxid) <span class="sc">%&gt;%</span> <span class="fu">mutate</span>(<span class="at">n_seq =</span> <span class="fu">n</span>()) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1184"><a href="#cb43-1184" aria-hidden="true" tabindex="-1"></a>  <span class="fu">left_join</span>(blast_paired, <span class="at">by=</span><span class="st">"seq_id"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1185"><a href="#cb43-1185" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">staxid =</span> <span class="fu">as.integer</span>(staxid)) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1186"><a href="#cb43-1186" aria-hidden="true" tabindex="-1"></a>  <span class="fu">left_join</span>(tax_names <span class="sc">%&gt;%</span> <span class="fu">rename</span>(<span class="at">sname=</span>name), <span class="at">by=</span><span class="st">"staxid"</span>)</span>
+<span id="cb43-1187"><a href="#cb43-1187" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1188"><a href="#cb43-1188" aria-hidden="true" tabindex="-1"></a><span class="co"># Count matches</span></span>
+<span id="cb43-1189"><a href="#cb43-1189" aria-hidden="true" tabindex="-1"></a>hv_blast_counts <span class="ot">&lt;-</span> hv_blast_staxids <span class="sc">%&gt;%</span></span>
+<span id="cb43-1190"><a href="#cb43-1190" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(taxid, name, staxid, sname, n_seq) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1191"><a href="#cb43-1191" aria-hidden="true" tabindex="-1"></a>  count <span class="sc">%&gt;%</span> <span class="fu">mutate</span>(<span class="at">p=</span>n<span class="sc">/</span>n_seq)</span>
+<span id="cb43-1192"><a href="#cb43-1192" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1193"><a href="#cb43-1193" aria-hidden="true" tabindex="-1"></a><span class="co"># Subset to major matches</span></span>
+<span id="cb43-1194"><a href="#cb43-1194" aria-hidden="true" tabindex="-1"></a>hv_blast_counts_major <span class="ot">&lt;-</span> hv_blast_counts <span class="sc">%&gt;%</span> </span>
+<span id="cb43-1195"><a href="#cb43-1195" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(n<span class="sc">&gt;</span><span class="dv">1</span>, p<span class="sc">&gt;</span>p_threshold, <span class="sc">!</span><span class="fu">is.na</span>(staxid)) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1196"><a href="#cb43-1196" aria-hidden="true" tabindex="-1"></a>  <span class="fu">arrange</span>(<span class="fu">desc</span>(p)) <span class="sc">%&gt;%</span> <span class="fu">group_by</span>(taxid) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1197"><a href="#cb43-1197" aria-hidden="true" tabindex="-1"></a>  <span class="fu">filter</span>(<span class="fu">row_number</span>() <span class="sc">&lt;=</span> <span class="dv">25</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1198"><a href="#cb43-1198" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">name_display =</span> <span class="fu">ifelse</span>(name <span class="sc">==</span> ref_names_hv[<span class="dv">1</span>], <span class="st">"EBV"</span>, name))</span>
+<span id="cb43-1199"><a href="#cb43-1199" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1200"><a href="#cb43-1200" aria-hidden="true" tabindex="-1"></a><span class="co"># Plot</span></span>
+<span id="cb43-1201"><a href="#cb43-1201" aria-hidden="true" tabindex="-1"></a>g_hv_blast <span class="ot">&lt;-</span> <span class="fu">ggplot</span>(hv_blast_counts_major, <span class="at">mapping=</span><span class="fu">aes</span>(<span class="at">x=</span>p, <span class="at">y=</span>sname)) <span class="sc">+</span></span>
+<span id="cb43-1202"><a href="#cb43-1202" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_col</span>() <span class="sc">+</span></span>
+<span id="cb43-1203"><a href="#cb43-1203" aria-hidden="true" tabindex="-1"></a>  <span class="fu">facet_grid</span>(name_display<span class="sc">~</span>., <span class="at">scales=</span><span class="st">"free_y"</span>, <span class="at">space=</span><span class="st">"free_y"</span>) <span class="sc">+</span></span>
+<span id="cb43-1204"><a href="#cb43-1204" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_x_continuous</span>(<span class="at">name=</span><span class="st">"% mapped reads"</span>, <span class="at">limits=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">1</span>), </span>
+<span id="cb43-1205"><a href="#cb43-1205" aria-hidden="true" tabindex="-1"></a>                     <span class="at">breaks=</span><span class="fu">seq</span>(<span class="dv">0</span>,<span class="dv">1</span>,<span class="fl">0.2</span>), <span class="at">expand=</span><span class="fu">c</span>(<span class="dv">0</span>,<span class="dv">0</span>)) <span class="sc">+</span></span>
+<span id="cb43-1206"><a href="#cb43-1206" aria-hidden="true" tabindex="-1"></a>  theme_base <span class="sc">+</span> <span class="fu">theme</span>(<span class="at">axis.title.y =</span> <span class="fu">element_blank</span>())</span>
+<span id="cb43-1207"><a href="#cb43-1207" aria-hidden="true" tabindex="-1"></a>g_hv_blast</span>
+<span id="cb43-1208"><a href="#cb43-1208" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-1209"><a href="#cb43-1209" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1210"><a href="#cb43-1210" aria-hidden="true" tabindex="-1"></a>Finally, here again are the overall relative abundances of the specific viral genera I picked out manually in my last entry:</span>
+<span id="cb43-1211"><a href="#cb43-1211" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1214"><a href="#cb43-1214" aria-hidden="true" tabindex="-1"></a><span class="in">```{r}</span></span>
+<span id="cb43-1215"><a href="#cb43-1215" aria-hidden="true" tabindex="-1"></a><span class="co">#| fig-height: 5</span></span>
+<span id="cb43-1216"><a href="#cb43-1216" aria-hidden="true" tabindex="-1"></a><span class="co">#| label: ra-genera</span></span>
+<span id="cb43-1217"><a href="#cb43-1217" aria-hidden="true" tabindex="-1"></a><span class="co">#| warning: false</span></span>
+<span id="cb43-1218"><a href="#cb43-1218" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1219"><a href="#cb43-1219" aria-hidden="true" tabindex="-1"></a><span class="co"># Define reference genera</span></span>
+<span id="cb43-1220"><a href="#cb43-1220" aria-hidden="true" tabindex="-1"></a>path_genera_rna <span class="ot">&lt;-</span> <span class="fu">c</span>(<span class="st">"Mamastrovirus"</span>, <span class="st">"Enterovirus"</span>, <span class="st">"Salivirus"</span>, <span class="st">"Kobuvirus"</span>, <span class="st">"Norovirus"</span>, <span class="st">"Sapovirus"</span>, <span class="st">"Rotavirus"</span>, <span class="st">"Alphacoronavirus"</span>, <span class="st">"Betacoronavirus"</span>, <span class="st">"Alphainfluenzavirus"</span>, <span class="st">"Betainfluenzavirus"</span>, <span class="st">"Lentivirus"</span>)</span>
+<span id="cb43-1221"><a href="#cb43-1221" aria-hidden="true" tabindex="-1"></a>path_genera_dna <span class="ot">&lt;-</span> <span class="fu">c</span>(<span class="st">"Mastadenovirus"</span>, <span class="st">"Alphapolyomavirus"</span>, <span class="st">"Betapolyomavirus"</span>, <span class="st">"Alphapapillomavirus"</span>, <span class="st">"Betapapillomavirus"</span>, <span class="st">"Gammapapillomavirus"</span>, <span class="st">"Orthopoxvirus"</span>, <span class="st">"Simplexvirus"</span>,</span>
+<span id="cb43-1222"><a href="#cb43-1222" aria-hidden="true" tabindex="-1"></a>                     <span class="st">"Lymphocryptovirus"</span>, <span class="st">"Cytomegalovirus"</span>, <span class="st">"Dependoparvovirus"</span>)</span>
+<span id="cb43-1223"><a href="#cb43-1223" aria-hidden="true" tabindex="-1"></a>path_genera <span class="ot">&lt;-</span> <span class="fu">bind_rows</span>(<span class="fu">tibble</span>(<span class="at">name=</span>path_genera_rna, <span class="at">genome_type=</span><span class="st">"RNA genome"</span>),</span>
+<span id="cb43-1224"><a href="#cb43-1224" aria-hidden="true" tabindex="-1"></a>                         <span class="fu">tibble</span>(<span class="at">name=</span>path_genera_dna, <span class="at">genome_type=</span><span class="st">"DNA genome"</span>)) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1225"><a href="#cb43-1225" aria-hidden="true" tabindex="-1"></a>  <span class="fu">left_join</span>(viral_taxa, <span class="at">by=</span><span class="st">"name"</span>)</span>
+<span id="cb43-1226"><a href="#cb43-1226" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1227"><a href="#cb43-1227" aria-hidden="true" tabindex="-1"></a><span class="co"># Count in each sample</span></span>
+<span id="cb43-1228"><a href="#cb43-1228" aria-hidden="true" tabindex="-1"></a>mrg_hv_named_all <span class="ot">&lt;-</span> mrg_hv <span class="sc">%&gt;%</span> <span class="fu">left_join</span>(viral_taxa, <span class="at">by=</span><span class="st">"taxid"</span>)</span>
+<span id="cb43-1229"><a href="#cb43-1229" aria-hidden="true" tabindex="-1"></a>hv_reads_genus_all <span class="ot">&lt;-</span> <span class="fu">raise_rank</span>(mrg_hv_named_all, viral_taxa, <span class="st">"genus"</span>)</span>
+<span id="cb43-1230"><a href="#cb43-1230" aria-hidden="true" tabindex="-1"></a>n_path_genera <span class="ot">&lt;-</span> hv_reads_genus_all <span class="sc">%&gt;%</span> </span>
+<span id="cb43-1231"><a href="#cb43-1231" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(sample, name, taxid) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-1232"><a href="#cb43-1232" aria-hidden="true" tabindex="-1"></a>  <span class="fu">count</span>(<span class="at">name=</span><span class="st">"n_reads_viral"</span>) <span class="sc">%&gt;%</span> </span>
+<span id="cb43-1233"><a href="#cb43-1233" aria-hidden="true" tabindex="-1"></a>  <span class="fu">inner_join</span>(path_genera, <span class="at">by=</span><span class="fu">c</span>(<span class="st">"name"</span>, <span class="st">"taxid"</span>)) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1234"><a href="#cb43-1234" aria-hidden="true" tabindex="-1"></a>  <span class="fu">left_join</span>(read_counts_raw, <span class="at">by=</span><span class="fu">c</span>(<span class="st">"sample"</span>)) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1235"><a href="#cb43-1235" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">p_reads_viral =</span> n_reads_viral<span class="sc">/</span>n_reads_raw)</span>
+<span id="cb43-1236"><a href="#cb43-1236" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1237"><a href="#cb43-1237" aria-hidden="true" tabindex="-1"></a><span class="co"># Pivot out and back to add zero lines</span></span>
+<span id="cb43-1238"><a href="#cb43-1238" aria-hidden="true" tabindex="-1"></a>n_path_genera_out <span class="ot">&lt;-</span> n_path_genera <span class="sc">%&gt;%</span> ungroup <span class="sc">%&gt;%</span> <span class="fu">select</span>(sample, name, n_reads_viral) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1239"><a href="#cb43-1239" aria-hidden="true" tabindex="-1"></a>  <span class="fu">pivot_wider</span>(<span class="at">names_from=</span><span class="st">"name"</span>, <span class="at">values_from=</span><span class="st">"n_reads_viral"</span>, <span class="at">values_fill=</span><span class="dv">0</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1240"><a href="#cb43-1240" aria-hidden="true" tabindex="-1"></a>  <span class="fu">pivot_longer</span>(<span class="sc">-</span>sample, <span class="at">names_to=</span><span class="st">"name"</span>, <span class="at">values_to=</span><span class="st">"n_reads_viral"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1241"><a href="#cb43-1241" aria-hidden="true" tabindex="-1"></a>  <span class="fu">left_join</span>(read_counts_raw, <span class="at">by=</span><span class="st">"sample"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1242"><a href="#cb43-1242" aria-hidden="true" tabindex="-1"></a>  <span class="fu">left_join</span>(path_genera, <span class="at">by=</span><span class="st">"name"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1243"><a href="#cb43-1243" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">p_reads_viral =</span> n_reads_viral<span class="sc">/</span>n_reads_raw)</span>
+<span id="cb43-1244"><a href="#cb43-1244" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1245"><a href="#cb43-1245" aria-hidden="true" tabindex="-1"></a><span class="do">## Aggregate across dates</span></span>
+<span id="cb43-1246"><a href="#cb43-1246" aria-hidden="true" tabindex="-1"></a>n_path_genera_stype <span class="ot">&lt;-</span> n_path_genera_out <span class="sc">%&gt;%</span> </span>
+<span id="cb43-1247"><a href="#cb43-1247" aria-hidden="true" tabindex="-1"></a>  <span class="fu">group_by</span>(name, taxid, genome_type) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1248"><a href="#cb43-1248" aria-hidden="true" tabindex="-1"></a>  <span class="fu">summarize</span>(<span class="at">n_reads_raw =</span> <span class="fu">sum</span>(n_reads_raw),</span>
+<span id="cb43-1249"><a href="#cb43-1249" aria-hidden="true" tabindex="-1"></a>            <span class="at">n_reads_viral =</span> <span class="fu">sum</span>(n_reads_viral), <span class="at">.groups =</span> <span class="st">"drop"</span>) <span class="sc">%&gt;%</span></span>
+<span id="cb43-1250"><a href="#cb43-1250" aria-hidden="true" tabindex="-1"></a>  <span class="fu">mutate</span>(<span class="at">sample=</span><span class="st">"All samples"</span>, <span class="at">location=</span><span class="st">"All locations"</span>,</span>
+<span id="cb43-1251"><a href="#cb43-1251" aria-hidden="true" tabindex="-1"></a>         <span class="at">p_reads_viral =</span> n_reads_viral<span class="sc">/</span>n_reads_raw,</span>
+<span id="cb43-1252"><a href="#cb43-1252" aria-hidden="true" tabindex="-1"></a>         <span class="at">na_type =</span> <span class="st">"DNA"</span>)</span>
+<span id="cb43-1253"><a href="#cb43-1253" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1254"><a href="#cb43-1254" aria-hidden="true" tabindex="-1"></a><span class="co"># Plot</span></span>
+<span id="cb43-1255"><a href="#cb43-1255" aria-hidden="true" tabindex="-1"></a>g_path_genera <span class="ot">&lt;-</span> <span class="fu">ggplot</span>(n_path_genera_stype,</span>
+<span id="cb43-1256"><a href="#cb43-1256" aria-hidden="true" tabindex="-1"></a>                        <span class="fu">aes</span>(<span class="at">y=</span>name, <span class="at">x=</span>p_reads_viral)) <span class="sc">+</span></span>
+<span id="cb43-1257"><a href="#cb43-1257" aria-hidden="true" tabindex="-1"></a>  <span class="fu">geom_point</span>() <span class="sc">+</span></span>
+<span id="cb43-1258"><a href="#cb43-1258" aria-hidden="true" tabindex="-1"></a>  <span class="fu">scale_x_log10</span>(<span class="at">name=</span><span class="st">"Relative abundance"</span>) <span class="sc">+</span></span>
+<span id="cb43-1259"><a href="#cb43-1259" aria-hidden="true" tabindex="-1"></a>  <span class="fu">facet_grid</span>(genome_type<span class="sc">~</span>., <span class="at">scales=</span><span class="st">"free_y"</span>) <span class="sc">+</span></span>
+<span id="cb43-1260"><a href="#cb43-1260" aria-hidden="true" tabindex="-1"></a>  theme_base <span class="sc">+</span> <span class="fu">theme</span>(<span class="at">axis.title.y =</span> <span class="fu">element_blank</span>())</span>
+<span id="cb43-1261"><a href="#cb43-1261" aria-hidden="true" tabindex="-1"></a>g_path_genera</span>
+<span id="cb43-1262"><a href="#cb43-1262" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
+<span id="cb43-1263"><a href="#cb43-1263" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1264"><a href="#cb43-1264" aria-hidden="true" tabindex="-1"></a><span class="fu"># Conclusion</span></span>
+<span id="cb43-1265"><a href="#cb43-1265" aria-hidden="true" tabindex="-1"></a></span>
+<span id="cb43-1266"><a href="#cb43-1266" aria-hidden="true" tabindex="-1"></a>I've had trouble with this dataset previously, so I was surprised at how well this analysis went. It seems the improvements I've made to the pipeline over the last couple of months have really had an effect. Like other DNA wastewater datasets I've looked at recently, this one (a) has very low HV relative abundance overall, and (b) shows a very high preponderance of human mastadenovirus F. I have one more DNA dataset from the P2RA study to analyze with this pipeline, so we'll see if this pattern persists there.</span>
+</code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre></div>
+</div></div></div></div></div>
+</div> <!-- /content -->
+
+
+
+</body></html>
\ No newline at end of file
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/hv-blast-hits-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/hv-blast-hits-1.png
new file mode 100644
index 0000000..4ba60b7
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/hv-blast-hits-1.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/hv-family-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/hv-family-1.png
new file mode 100644
index 0000000..94a5e33
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/hv-family-1.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/hv-species-adeno-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/hv-species-adeno-1.png
new file mode 100644
index 0000000..2218d3d
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/hv-species-adeno-1.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/hv-species-herpes-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/hv-species-herpes-1.png
new file mode 100644
index 0000000..760c92d
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/hv-species-herpes-1.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/hv-species-papilloma-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/hv-species-papilloma-1.png
new file mode 100644
index 0000000..8579a61
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/hv-species-papilloma-1.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/hv-species-polyoma-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/hv-species-polyoma-1.png
new file mode 100644
index 0000000..f8cb8c7
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/hv-species-polyoma-1.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-basic-stats-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-basic-stats-1.png
new file mode 100644
index 0000000..90b6c4d
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-basic-stats-1.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-blast-results-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-blast-results-1.png
new file mode 100644
index 0000000..c597a22
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-blast-results-1.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-composition-all-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-composition-all-1.png
new file mode 100644
index 0000000..3ba0855
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-composition-all-1.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-composition-all-2.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-composition-all-2.png
new file mode 100644
index 0000000..151c409
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-composition-all-2.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-f1-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-f1-1.png
new file mode 100644
index 0000000..aa07682
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-f1-1.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-hv-ra-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-hv-ra-1.png
new file mode 100644
index 0000000..9a5016f
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-hv-ra-1.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-hv-scores-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-hv-scores-1.png
new file mode 100644
index 0000000..7136762
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-hv-scores-1.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-quality-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-quality-1.png
new file mode 100644
index 0000000..bcfd838
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-quality-1.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-quality-2.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-quality-2.png
new file mode 100644
index 0000000..fde7bbd
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-quality-2.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-quality-3.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-quality-3.png
new file mode 100644
index 0000000..0f045f7
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-quality-3.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-raw-quality-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-raw-quality-1.png
new file mode 100644
index 0000000..98a24e7
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-raw-quality-1.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-raw-quality-2.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-raw-quality-2.png
new file mode 100644
index 0000000..b1cd56e
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-raw-quality-2.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-raw-quality-3.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-raw-quality-3.png
new file mode 100644
index 0000000..45a6f63
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/plot-raw-quality-3.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/preproc-dedup-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/preproc-dedup-1.png
new file mode 100644
index 0000000..221ef34
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/preproc-dedup-1.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/preproc-dedup-2.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/preproc-dedup-2.png
new file mode 100644
index 0000000..c2d166d
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/preproc-dedup-2.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/preproc-figures-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/preproc-figures-1.png
new file mode 100644
index 0000000..b6c4bd2
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/preproc-figures-1.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/preproc-figures-2.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/preproc-figures-2.png
new file mode 100644
index 0000000..c1b37fd
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/preproc-figures-2.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/ra-genera-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/ra-genera-1.png
new file mode 100644
index 0000000..9c4f6f3
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/ra-genera-1.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/ra-hv-past-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/ra-hv-past-1.png
new file mode 100644
index 0000000..93b237c
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/ra-hv-past-1.png differ
diff --git a/docs/notebooks/2024-05-01_maritz_files/figure-html/viral-class-composition-1.png b/docs/notebooks/2024-05-01_maritz_files/figure-html/viral-class-composition-1.png
new file mode 100644
index 0000000..71c4320
Binary files /dev/null and b/docs/notebooks/2024-05-01_maritz_files/figure-html/viral-class-composition-1.png differ
diff --git a/docs/notebooks/2024-05-01_ng.html b/docs/notebooks/2024-05-01_ng.html
index 18360a9..e00f724 100644
--- a/docs/notebooks/2024-05-01_ng.html
+++ b/docs/notebooks/2024-05-01_ng.html
@@ -574,7 +574,7 @@
 </div>
 </div>
 </div>
-<p>As in previous DNA datasets, the vast majority of classified reads were bacterial in origin. The fraction of virus reads varied substantially between sample types, averaging &lt;0.01% in influent and final effluent but closer to 0.05% in other sample types. Interestingly (though not particularly relevantly for this analysis), the fraction of archaeal reads was much higher in influent than other sample types, in contrast to <a href="https://data.securebio.org/wills-public-notebook/notebooks/2024-05-01_bengtsson-palme.html">Bengtsson-Palme</a> where it was highest in slidge.</p>
+<p>As in previous DNA datasets, the vast majority of classified reads were bacterial in origin. The fraction of virus reads varied substantially between sample types, averaging &lt;0.01% in influent and final effluent but closer to 0.05% in other sample types. Interestingly (though not particularly relevantly for this analysis), the fraction of archaeal reads was much higher in influent than other sample types, in contrast to <a href="https://data.securebio.org/wills-public-notebook/notebooks/2024-05-01_bengtsson-palme.html">Bengtsson-Palme</a> where it was highest in sludge.</p>
 <p>As is common for DNA data, viral reads were overwhelmingly dominated by <em>Caudoviricetes</em> phages, though one wet-well sample contained a substantial fraction of <em>Alsuviricetes</em> (a class of mainly plant pathogens that includes <em>Virgaviridae</em>):</p>
 <div class="cell">
 <details class="code-fold"><summary>Code</summary><div class="sourceCode" id="cb19"><pre class="downlit sourceCode r code-with-copy"><code class="sourceCode R"><span><span class="co"># Get Kraken reports</span></span>
@@ -2151,7 +2151,7 @@
 <span id="cb40-427"><a href="#cb40-427" aria-hidden="true" tabindex="-1"></a>p_reads_summ</span>
 <span id="cb40-428"><a href="#cb40-428" aria-hidden="true" tabindex="-1"></a><span class="in">```</span></span>
 <span id="cb40-429"><a href="#cb40-429" aria-hidden="true" tabindex="-1"></a></span>
-<span id="cb40-430"><a href="#cb40-430" aria-hidden="true" tabindex="-1"></a>As in previous DNA datasets, the vast majority of classified reads were bacterial in origin. The fraction of virus reads varied substantially between sample types, averaging <span class="sc">\&lt;</span>0.01% in influent and final effluent but closer to 0.05% in other sample types. Interestingly (though not particularly relevantly for this analysis), the fraction of archaeal reads was much higher in influent than other sample types, in contrast to <span class="co">[</span><span class="ot">Bengtsson-Palme</span><span class="co">](https://data.securebio.org/wills-public-notebook/notebooks/2024-05-01_bengtsson-palme.html)</span> where it was highest in slidge.</span>
+<span id="cb40-430"><a href="#cb40-430" aria-hidden="true" tabindex="-1"></a>As in previous DNA datasets, the vast majority of classified reads were bacterial in origin. The fraction of virus reads varied substantially between sample types, averaging <span class="sc">\&lt;</span>0.01% in influent and final effluent but closer to 0.05% in other sample types. Interestingly (though not particularly relevantly for this analysis), the fraction of archaeal reads was much higher in influent than other sample types, in contrast to <span class="co">[</span><span class="ot">Bengtsson-Palme</span><span class="co">](https://data.securebio.org/wills-public-notebook/notebooks/2024-05-01_bengtsson-palme.html)</span> where it was highest in sludge.</span>
 <span id="cb40-431"><a href="#cb40-431" aria-hidden="true" tabindex="-1"></a></span>
 <span id="cb40-432"><a href="#cb40-432" aria-hidden="true" tabindex="-1"></a>As is common for DNA data, viral reads were overwhelmingly dominated by *Caudoviricetes* phages, though one wet-well sample contained a substantial fraction of *Alsuviricetes* (a class of mainly plant pathogens that includes *Virgaviridae*):</span>
 <span id="cb40-433"><a href="#cb40-433" aria-hidden="true" tabindex="-1"></a></span>
diff --git a/docs/search.json b/docs/search.json
index 04cb3d0..0e41c6e 100644
--- a/docs/search.json
+++ b/docs/search.json
@@ -32,7 +32,7 @@
     "href": "index.html",
     "title": "Will's Public NAO Notebook",
     "section": "",
-    "text": "Workflow analysis of Ng et al. (2019)\n\n\nWastewater from Singapore.\n\n\n\n\n\nMay 1, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Bengtsson-Palme et al. (2016)\n\n\nWastewater grab samples from Sweden.\n\n\n\n\n\nMay 1, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Brinch et al. (2020)\n\n\nWastewater from Copenhagen.\n\n\n\n\n\nApr 30, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Leung et al. (2021)\n\n\nAir sampling from urban public transit systems.\n\n\n\n\n\nApr 19, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Rosario et al. (2018)\n\n\nAir sampling from a student dorm in Colorado.\n\n\n\n\n\nApr 12, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Prussin et al. (2019)\n\n\nAir filters from a daycare in Virginia.\n\n\n\n\n\nApr 12, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Brumfield et al. (2022)\n\n\nWastewater from a manhole in Maryland.\n\n\n\n\n\nApr 8, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Spurbeck et al. (2023)\n\n\nCave carpa.\n\n\n\n\n\nApr 1, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nFollowup analysis of Yang et al. (2020)\n\n\nDigging into deduplication.\n\n\n\n\n\nMar 19, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Yang et al. (2020)\n\n\nWastewater from Xinjiang.\n\n\n\n\n\nMar 16, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nImproving read deduplication in the MGS workflow\n\n\nRemoving reverse-complement duplicates of human-viral reads.\n\n\n\n\n\nMar 1, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Rothman et al. (2021), part 2\n\n\nPanel-enriched samples.\n\n\n\n\n\nFeb 29, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Rothman et al. (2021), part 1\n\n\nUnenriched samples.\n\n\n\n\n\nFeb 27, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Crits-Christoph et al. (2021), part 3\n\n\nFixing the virus pipeline.\n\n\n\n\n\nFeb 15, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Crits-Christoph et al. (2021), part 2\n\n\nAbundance and composition of human-infecting viruses.\n\n\n\n\n\nFeb 8, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Crits-Christoph et al. (2021), part 1\n\n\nPreprocessing and composition.\n\n\n\n\n\nFeb 4, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nAutomating BLAST validation of human viral read assignment\n\n\nExperiments with BLASTN remote mode\n\n\n\n\n\nJan 30, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nProject Runway RNA-seq testing data: removing livestock reads\n\n\n\n\n\n\n\n\nDec 22, 2023\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Project Runway RNA-seq testing data\n\n\nApplying a new workflow to some oldish data.\n\n\n\n\n\nDec 19, 2023\n\n\n\n\n\n\n\n\n\n\n\n\nEstimating the effect of read depth on duplication rate for Project Runway DNA data\n\n\nHow deep can we go?\n\n\n\n\n\nNov 8, 2023\n\n\n\n\n\n\n\n\n\n\n\n\nComparing viral read assignments between pipelines on Project Runway data\n\n\n\n\n\n\n\n\nNov 2, 2023\n\n\n\n\n\n\n\n\n\n\n\n\nInitial analysis of Project Runway protocol testing data\n\n\n\n\n\n\n\n\nOct 31, 2023\n\n\n\n\n\n\n\n\n\n\n\n\nComparing options for read deduplication\n\n\nClumpify vs fastp\n\n\n\n\n\nOct 19, 2023\n\n\n\n\n\n\n\n\n\n\n\n\nComparing Ribodetector and bbduk for rRNA detection\n\n\nIn search of quick rRNA filtering.\n\n\n\n\n\nOct 16, 2023\n\n\n\n\n\n\n\n\n\n\n\n\nComparing FASTP and AdapterRemoval for MGS pre-processing\n\n\nTwo tools – how do they perform?\n\n\n\n\n\nOct 12, 2023\n\n\n\n\n\n\n\n\n\n\n\n\nHow does Element AVITI sequencing work?\n\n\nFindings of a shallow investigation\n\n\n\n\n\nOct 11, 2023\n\n\n\n\n\n\n\n\n\n\n\n\nExtraction experiment 2: high-level results & interpretation\n\n\nComparing RNA yields and quality across extraction kits for settled solids\n\n\n\n\n\nSep 21, 2023\n\n\n\n\n\n\nNo matching items"
+    "text": "Workflow analysis of Ng et al. (2019)\n\n\nWastewater from Singapore.\n\n\n\n\n\nMay 1, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Bengtsson-Palme et al. (2016)\n\n\nWastewater grab samples from Sweden.\n\n\n\n\n\nMay 1, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Maritz et al. (2019)\n\n\nWastewater from NYC.\n\n\n\n\n\nMay 1, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Brinch et al. (2020)\n\n\nWastewater from Copenhagen.\n\n\n\n\n\nApr 30, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Leung et al. (2021)\n\n\nAir sampling from urban public transit systems.\n\n\n\n\n\nApr 19, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Rosario et al. (2018)\n\n\nAir sampling from a student dorm in Colorado.\n\n\n\n\n\nApr 12, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Prussin et al. (2019)\n\n\nAir filters from a daycare in Virginia.\n\n\n\n\n\nApr 12, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Brumfield et al. (2022)\n\n\nWastewater from a manhole in Maryland.\n\n\n\n\n\nApr 8, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Spurbeck et al. (2023)\n\n\nCave carpa.\n\n\n\n\n\nApr 1, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nFollowup analysis of Yang et al. (2020)\n\n\nDigging into deduplication.\n\n\n\n\n\nMar 19, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Yang et al. (2020)\n\n\nWastewater from Xinjiang.\n\n\n\n\n\nMar 16, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nImproving read deduplication in the MGS workflow\n\n\nRemoving reverse-complement duplicates of human-viral reads.\n\n\n\n\n\nMar 1, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Rothman et al. (2021), part 2\n\n\nPanel-enriched samples.\n\n\n\n\n\nFeb 29, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Rothman et al. (2021), part 1\n\n\nUnenriched samples.\n\n\n\n\n\nFeb 27, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Crits-Christoph et al. (2021), part 3\n\n\nFixing the virus pipeline.\n\n\n\n\n\nFeb 15, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Crits-Christoph et al. (2021), part 2\n\n\nAbundance and composition of human-infecting viruses.\n\n\n\n\n\nFeb 8, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Crits-Christoph et al. (2021), part 1\n\n\nPreprocessing and composition.\n\n\n\n\n\nFeb 4, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nAutomating BLAST validation of human viral read assignment\n\n\nExperiments with BLASTN remote mode\n\n\n\n\n\nJan 30, 2024\n\n\n\n\n\n\n\n\n\n\n\n\nProject Runway RNA-seq testing data: removing livestock reads\n\n\n\n\n\n\n\n\nDec 22, 2023\n\n\n\n\n\n\n\n\n\n\n\n\nWorkflow analysis of Project Runway RNA-seq testing data\n\n\nApplying a new workflow to some oldish data.\n\n\n\n\n\nDec 19, 2023\n\n\n\n\n\n\n\n\n\n\n\n\nEstimating the effect of read depth on duplication rate for Project Runway DNA data\n\n\nHow deep can we go?\n\n\n\n\n\nNov 8, 2023\n\n\n\n\n\n\n\n\n\n\n\n\nComparing viral read assignments between pipelines on Project Runway data\n\n\n\n\n\n\n\n\nNov 2, 2023\n\n\n\n\n\n\n\n\n\n\n\n\nInitial analysis of Project Runway protocol testing data\n\n\n\n\n\n\n\n\nOct 31, 2023\n\n\n\n\n\n\n\n\n\n\n\n\nComparing options for read deduplication\n\n\nClumpify vs fastp\n\n\n\n\n\nOct 19, 2023\n\n\n\n\n\n\n\n\n\n\n\n\nComparing Ribodetector and bbduk for rRNA detection\n\n\nIn search of quick rRNA filtering.\n\n\n\n\n\nOct 16, 2023\n\n\n\n\n\n\n\n\n\n\n\n\nComparing FASTP and AdapterRemoval for MGS pre-processing\n\n\nTwo tools – how do they perform?\n\n\n\n\n\nOct 12, 2023\n\n\n\n\n\n\n\n\n\n\n\n\nHow does Element AVITI sequencing work?\n\n\nFindings of a shallow investigation\n\n\n\n\n\nOct 11, 2023\n\n\n\n\n\n\n\n\n\n\n\n\nExtraction experiment 2: high-level results & interpretation\n\n\nComparing RNA yields and quality across extraction kits for settled solids\n\n\n\n\n\nSep 21, 2023\n\n\n\n\n\n\nNo matching items"
   },
   {
     "objectID": "notebooks/2023-10-12_fastp-vs-adapterremoval.html",
@@ -326,6 +326,13 @@
     "href": "notebooks/2024-05-01_ng.html",
     "title": "Workflow analysis of Ng et al. (2019)",
     "section": "",
-    "text": "Continuing my analysis of datasets from the P2RA preprint, I analyzed the data from Ng et al. (2019), a study that used DNA sequencing of wastewater samples to characterize the bacterial microbiota and resistome in Singapore. This study used processing methods I haven’t seen before:\n\nAll samples passed through “a filter” on-site at the WWTP prior to further processing in lab.\nSamples concentrated to 400ml using a Hemoflow dialyzer “via standard bloodline tubing”.\nEluted concentrates then further concentrated by passing through a 0.22um filter and retaining the retentate (NB: this is anti-selecting for viruses).\nSludge samples were instead centrifuged and the pellet kept for further analysis.\nAfter concentration, samples underwent DNA extraction with the PowerSoil DNA Isolation Kit, then underwent library prep and Illumina sequencing with an Illumina HiSeq2500 (2x250bp).\n\nSince this was a bacteria-focused study that used processing methods we expect to select against viruses, we wouldn’t expect to see high viral relative abundances here. Nevertheless, it’s worth seeing what we can see.\nThe raw data\nSamples were collected from six different locations in the treatment plant on six different dates (from October 2016 to August 2017) for a total of 36 samples:\n\n\nCode# Importing the data is a bit more complicated this time as the samples are split across three pipeline runs\ndata_dir &lt;- \"../data/2024-05-01_ng\"\n\n# Data input paths\nlibraries_path &lt;- file.path(data_dir, \"sample-metadata.csv\")\nbasic_stats_path &lt;- file.path(data_dir, \"qc_basic_stats.tsv.gz\")\nadapter_stats_path &lt;- file.path(data_dir, \"qc_adapter_stats.tsv.gz\")\nquality_base_stats_path &lt;- file.path(data_dir, \"qc_quality_base_stats.tsv.gz\")\nquality_seq_stats_path &lt;- file.path(data_dir, \"qc_quality_sequence_stats.tsv.gz\")\n\n# Import libraries and extract metadata from sample names\nlocs &lt;- c(\"INF\", \"PST\", \"SLUDGE\", \"SST\", \"MBR\", \"WW\")\nlibraries_raw &lt;- lapply(libraries_path, read_csv, show_col_types = FALSE) %&gt;%\n  bind_rows\nlibraries &lt;- libraries_raw %&gt;%\n  mutate(sample_type_long = gsub(\" \\\\(.*\", \"\", sample_type),\n         sample_type_short = ifelse(sample_type_long == \"Influent\", \"INF\",\n                                    sub(\".*\\\\((.*)\\\\)\", \"\\\\1\", sample_type)),\n         sample_type_short = factor(sample_type_short, levels=locs)) %&gt;%\n  arrange(sample_type_short, date) %&gt;%\n  mutate(sample_type_long = fct_inorder(sample_type_long),\n         sample = fct_inorder(sample)) %&gt;%\n  arrange(date) %&gt;%\n  mutate(date = fct_inorder(date))\n\n# Make table\ncount_samples &lt;- libraries %&gt;% group_by(sample_type_long, sample_type_short) %&gt;%\n  count %&gt;%\n  rename(`Sample Type`=sample_type_long, Abbreviation=sample_type_short)\ncount_samples\n\n\n  \n\n\n\n\nCode# Import QC data\nstages &lt;- c(\"raw_concat\", \"cleaned\", \"dedup\", \"ribo_initial\", \"ribo_secondary\")\nimport_basic &lt;- function(paths){\n  lapply(paths, read_tsv, show_col_types = FALSE) %&gt;% bind_rows %&gt;%\n    inner_join(libraries, by=\"sample\") %&gt;%\n      arrange(sample_type_short, date, sample) %&gt;%\n    mutate(stage = factor(stage, levels = stages),\n           sample = fct_inorder(sample))\n}\nimport_basic_paired &lt;- function(paths){\n  import_basic(paths) %&gt;% arrange(read_pair) %&gt;% \n    mutate(read_pair = fct_inorder(as.character(read_pair)))\n}\nbasic_stats &lt;- import_basic(basic_stats_path)\nadapter_stats &lt;- import_basic_paired(adapter_stats_path)\nquality_base_stats &lt;- import_basic_paired(quality_base_stats_path)\nquality_seq_stats &lt;- import_basic_paired(quality_seq_stats_path)\n\n# Filter to raw data\nbasic_stats_raw &lt;- basic_stats %&gt;% filter(stage == \"raw_concat\")\nadapter_stats_raw &lt;- adapter_stats %&gt;% filter(stage == \"raw_concat\")\nquality_base_stats_raw &lt;- quality_base_stats %&gt;% filter(stage == \"raw_concat\")\nquality_seq_stats_raw &lt;- quality_seq_stats %&gt;% filter(stage == \"raw_concat\")\n\n# Get key values for readout\nraw_read_counts &lt;- basic_stats_raw %&gt;% ungroup %&gt;% \n  summarize(rmin = min(n_read_pairs), rmax=max(n_read_pairs),\n            rmean=mean(n_read_pairs), \n            rtot = sum(n_read_pairs),\n            btot = sum(n_bases_approx),\n            dmin = min(percent_duplicates), dmax=max(percent_duplicates),\n            dmean=mean(percent_duplicates), .groups = \"drop\")\n\n\nThese 36 samples yielded 26.6M-74.1M (mean 46.1M) reads per sample, for a total of 1.7B read pairs (830 gigabases of sequence). Read qualities were mostly high but tailed off towards the 3’ end, requiring some trimming. Adapter levels were fairly low but still in need of some trimming. Inferred duplication levels were variable (1-64%, mean 31%), with libraries with lower read depth showing much lower duplicate levels.\n\nCode# Prepare data\nbasic_stats_raw_metrics &lt;- basic_stats_raw %&gt;%\n  select(sample, sample_type_short, date,\n         `# Read pairs` = n_read_pairs,\n         `Total base pairs\\n(approx)` = n_bases_approx,\n         `% Duplicates\\n(FASTQC)` = percent_duplicates) %&gt;%\n  pivot_longer(-(sample:date), names_to = \"metric\", values_to = \"value\") %&gt;%\n  mutate(metric = fct_inorder(metric))\n\n# Set up plot templates\nscale_fill_st &lt;- purrr::partial(scale_fill_brewer, palette=\"Set1\", name=\"Sample Type\")\ng_basic &lt;- ggplot(basic_stats_raw_metrics, \n                  aes(x=sample, y=value, fill=sample_type_short, \n                      group=interaction(sample_type_short,sample))) +\n  geom_col(position = \"dodge\") +\n  scale_y_continuous(expand=c(0,0)) +\n  expand_limits(y=c(0,100)) +\n  scale_fill_st() + \n  facet_grid(metric~., scales = \"free\", space=\"free_x\", switch=\"y\") +\n  theme_xblank + theme(\n    axis.title.y = element_blank(),\n    strip.text.y = element_text(face=\"plain\")\n  )\ng_basic\n\n\n\n\n\n\n\n\nCode# Set up plotting templates\nscale_color_st &lt;- purrr::partial(scale_color_brewer, palette=\"Set1\",\n                                   name=\"Sample Type\")\ng_qual_raw &lt;- ggplot(mapping=aes(color=sample_type_short, linetype=read_pair, \n                         group=interaction(sample,read_pair))) + \n  scale_color_st() + scale_linetype_discrete(name = \"Read Pair\") +\n  guides(color=guide_legend(nrow=2,byrow=TRUE),\n         linetype = guide_legend(nrow=2,byrow=TRUE)) +\n  theme_base\n\n# Visualize adapters\ng_adapters_raw &lt;- g_qual_raw + \n  geom_line(aes(x=position, y=pc_adapters), data=adapter_stats_raw) +\n  scale_y_continuous(name=\"% Adapters\", limits=c(0,NA),\n                     breaks = seq(0,100,1), expand=c(0,0)) +\n  scale_x_continuous(name=\"Position\", limits=c(0,NA),\n                     breaks=seq(0,500,20), expand=c(0,0)) +\n  facet_grid(.~adapter)\ng_adapters_raw\n\n\n\n\n\n\nCode# Visualize quality\ng_quality_base_raw &lt;- g_qual_raw +\n  geom_hline(yintercept=25, linetype=\"dashed\", color=\"red\") +\n  geom_hline(yintercept=30, linetype=\"dashed\", color=\"red\") +\n  geom_line(aes(x=position, y=mean_phred_score), data=quality_base_stats_raw) +\n  scale_y_continuous(name=\"Mean Phred score\", expand=c(0,0), limits=c(10,45)) +\n  scale_x_continuous(name=\"Position\", limits=c(0,NA),\n                     breaks=seq(0,500,20), expand=c(0,0))\ng_quality_base_raw\n\n\n\n\n\n\nCodeg_quality_seq_raw &lt;- g_qual_raw +\n  geom_vline(xintercept=25, linetype=\"dashed\", color=\"red\") +\n  geom_vline(xintercept=30, linetype=\"dashed\", color=\"red\") +\n  geom_line(aes(x=mean_phred_score, y=n_sequences), data=quality_seq_stats_raw) +\n  scale_x_continuous(name=\"Mean Phred score\", expand=c(0,0)) +\n  scale_y_continuous(name=\"# Sequences\", expand=c(0,0))\ng_quality_seq_raw\n\n\n\n\n\n\n\nPreprocessing\nThe average fraction of reads lost at each stage in the preprocessing pipeline is shown in the following table. As expected given the observed difference in duplication levels, many more reads were lost during deduplication in liquid samples than sludge samples. Conversely, trimming and filtering consistently removed more reads in sludge than in liquid samples, though the effect was less dramatic than for deduplication. Very few reads were lost during ribodepletion, as expected for DNA sequencing libraries.\n\nCoden_reads_rel &lt;- basic_stats %&gt;% \n  select(sample, sample_type_short, date, stage, \n         percent_duplicates, n_read_pairs) %&gt;%\n  group_by(sample) %&gt;% arrange(sample, stage) %&gt;%\n  mutate(p_reads_retained = replace_na(n_read_pairs / lag(n_read_pairs), 0),\n         p_reads_lost = 1 - p_reads_retained,\n         p_reads_retained_abs = n_read_pairs / n_read_pairs[1],\n         p_reads_lost_abs = 1-p_reads_retained_abs,\n         p_reads_lost_abs_marginal = replace_na(p_reads_lost_abs - lag(p_reads_lost_abs), 0))\nn_reads_rel_display &lt;- n_reads_rel %&gt;% \n  group_by(`Sample Type`=sample_type_short, Stage=stage) %&gt;% \n  summarize(`% Total Reads Lost (Cumulative)` = paste0(round(min(p_reads_lost_abs*100),1), \"-\", round(max(p_reads_lost_abs*100),1), \" (mean \", round(mean(p_reads_lost_abs*100),1), \")\"),\n            `% Total Reads Lost (Marginal)` = paste0(round(min(p_reads_lost_abs_marginal*100),1), \"-\", round(max(p_reads_lost_abs_marginal*100),1), \" (mean \", round(mean(p_reads_lost_abs_marginal*100),1), \")\"), .groups=\"drop\") %&gt;% \n  filter(Stage != \"raw_concat\") %&gt;%\n  mutate(Stage = Stage %&gt;% as.numeric %&gt;% factor(labels=c(\"Trimming & filtering\", \"Deduplication\", \"Initial ribodepletion\", \"Secondary ribodepletion\")))\nn_reads_rel_display\n\n\n  \n\n\n\n\nCodeg_stage_base &lt;- ggplot(mapping=aes(x=stage, color=sample_type_short, group=sample)) +\n  scale_color_st() +\n  theme_kit\n\n# Plot reads over preprocessing\ng_reads_stages &lt;- g_stage_base +\n  geom_line(aes(y=n_read_pairs), data=basic_stats) +\n  scale_y_continuous(\"# Read pairs\", expand=c(0,0), limits=c(0,NA))\ng_reads_stages\n\n\n\n\n\n\nCode# Plot relative read losses during preprocessing\ng_reads_rel &lt;- g_stage_base +\n  geom_line(aes(y=p_reads_lost_abs_marginal), data=n_reads_rel) +\n  scale_y_continuous(\"% Total Reads Lost\", expand=c(0,0), \n                     labels = function(x) x*100)\ng_reads_rel\n\n\n\n\n\n\n\nData cleaning was very successful at removing adapters and improving read qualities:\n\nCodeg_qual &lt;- ggplot(mapping=aes(color=sample_type_short, linetype=read_pair, \n                         group=interaction(sample,read_pair))) + \n  scale_color_st() + scale_linetype_discrete(name = \"Read Pair\") +\n  guides(color=guide_legend(nrow=2,byrow=TRUE),\n         linetype = guide_legend(nrow=2,byrow=TRUE)) +\n  theme_base\n\n# Visualize adapters\ng_adapters &lt;- g_qual + \n  geom_line(aes(x=position, y=pc_adapters), data=adapter_stats) +\n  scale_y_continuous(name=\"% Adapters\", limits=c(0,20),\n                     breaks = seq(0,50,10), expand=c(0,0)) +\n  scale_x_continuous(name=\"Position\", limits=c(0,NA),\n                     breaks=seq(0,140,20), expand=c(0,0)) +\n  facet_grid(stage~adapter)\ng_adapters\n\n\n\n\n\n\nCode# Visualize quality\ng_quality_base &lt;- g_qual +\n  geom_hline(yintercept=25, linetype=\"dashed\", color=\"red\") +\n  geom_hline(yintercept=30, linetype=\"dashed\", color=\"red\") +\n  geom_line(aes(x=position, y=mean_phred_score), data=quality_base_stats) +\n  scale_y_continuous(name=\"Mean Phred score\", expand=c(0,0), limits=c(10,45)) +\n  scale_x_continuous(name=\"Position\", limits=c(0,NA),\n                     breaks=seq(0,140,20), expand=c(0,0)) +\n  facet_grid(stage~.)\ng_quality_base\n\n\n\n\n\n\nCodeg_quality_seq &lt;- g_qual +\n  geom_vline(xintercept=25, linetype=\"dashed\", color=\"red\") +\n  geom_vline(xintercept=30, linetype=\"dashed\", color=\"red\") +\n  geom_line(aes(x=mean_phred_score, y=n_sequences), data=quality_seq_stats) +\n  scale_x_continuous(name=\"Mean Phred score\", expand=c(0,0)) +\n  scale_y_continuous(name=\"# Sequences\", expand=c(0,0)) +\n  facet_grid(stage~.)\ng_quality_seq\n\n\n\n\n\n\n\nAccording to FASTQC, cleaning + deduplication was very effective at reducing measured duplicate levels, which fell from an average of 31% to 6.5%:\n\nCodestage_dup &lt;- basic_stats %&gt;% group_by(stage) %&gt;% \n  summarize(dmin = min(percent_duplicates), dmax=max(percent_duplicates),\n            dmean=mean(percent_duplicates), .groups = \"drop\")\n\ng_dup_stages &lt;- g_stage_base +\n  geom_line(aes(y=percent_duplicates), data=basic_stats) +\n  scale_y_continuous(\"% Duplicates\", limits=c(0,NA), expand=c(0,0))\ng_dup_stages\n\n\n\n\n\n\nCodeg_readlen_stages &lt;- g_stage_base + \n  geom_line(aes(y=mean_seq_len), data=basic_stats) +\n  scale_y_continuous(\"Mean read length (nt)\", expand=c(0,0), limits=c(0,NA))\ng_readlen_stages\n\n\n\n\n\n\n\nHigh-level composition\nAs before, to assess the high-level composition of the reads, I ran the ribodepleted files through Kraken (using the Standard 16 database) and summarized the results with Bracken. Combining these results with the read counts above gives us a breakdown of the inferred composition of the samples:\n\nCodeclassifications &lt;- c(\"Filtered\", \"Duplicate\", \"Ribosomal\", \"Unassigned\",\n                     \"Bacterial\", \"Archaeal\", \"Viral\", \"Human\")\n\n# Import composition data\ncomp_path &lt;- file.path(data_dir, \"taxonomic_composition.tsv.gz\")\ncomp &lt;- read_tsv(comp_path, show_col_types = FALSE) %&gt;%\n  left_join(libraries, by=\"sample\") %&gt;%\n  mutate(classification = factor(classification, levels = classifications))\n  \n\n# Summarize composition\nread_comp_summ &lt;- comp %&gt;% \n  group_by(sample_type_short, classification) %&gt;%\n  summarize(n_reads = sum(n_reads), .groups = \"drop_last\") %&gt;%\n  mutate(n_reads = replace_na(n_reads,0),\n    p_reads = n_reads/sum(n_reads),\n    pc_reads = p_reads*100)\n\n\n\nCode# Prepare plotting templates\ng_comp_base &lt;- ggplot(mapping=aes(x=sample, y=p_reads, fill=classification)) +\n  facet_wrap(~sample_type_short, scales = \"free_x\", ncol=3,\n             labeller = label_wrap_gen(multi_line=FALSE, width=20)) +\n  theme_xblank\nscale_y_pc_reads &lt;- purrr::partial(scale_y_continuous, name = \"% Reads\",\n                                   expand = c(0,0), labels = function(y) y*100)\n\n# Plot overall composition\ng_comp &lt;- g_comp_base + geom_col(data = comp, position = \"stack\", width=1) +\n  scale_y_pc_reads(limits = c(0,1.01), breaks = seq(0,1,0.2)) +\n  scale_fill_brewer(palette = \"Set1\", name = \"Classification\")\ng_comp\n\n\n\n\n\n\nCode# Plot composition of minor components\ncomp_minor &lt;- comp %&gt;% \n  filter(classification %in% c(\"Archaeal\", \"Viral\", \"Human\", \"Other\"))\npalette_minor &lt;- brewer.pal(9, \"Set1\")[6:9]\ng_comp_minor &lt;- g_comp_base + \n  geom_col(data=comp_minor, position = \"stack\", width=1) +\n  scale_y_pc_reads() +\n  scale_fill_manual(values=palette_minor, name = \"Classification\")\ng_comp_minor\n\n\n\n\n\n\n\n\nCodep_reads_summ_group &lt;- comp %&gt;%\n  mutate(classification = ifelse(classification %in% c(\"Filtered\", \"Duplicate\", \"Unassigned\"), \"Excluded\", as.character(classification)),\n         classification = fct_inorder(classification)) %&gt;%\n  group_by(classification, sample, sample_type_short) %&gt;%\n  summarize(p_reads = sum(p_reads), .groups = \"drop\") %&gt;%\n  group_by(classification, sample_type_short) %&gt;%\n  summarize(pc_min = min(p_reads)*100, pc_max = max(p_reads)*100, \n            pc_mean = mean(p_reads)*100, .groups = \"drop\")\np_reads_summ_prep &lt;- p_reads_summ_group %&gt;%\n  mutate(classification = fct_inorder(classification),\n         pc_min = pc_min %&gt;% signif(digits=2) %&gt;% sapply(format, scientific=FALSE, trim=TRUE, digits=2),\n         pc_max = pc_max %&gt;% signif(digits=2) %&gt;% sapply(format, scientific=FALSE, trim=TRUE, digits=2),\n         pc_mean = pc_mean %&gt;% signif(digits=2) %&gt;% sapply(format, scientific=FALSE, trim=TRUE, digits=2),\n         display = paste0(pc_min, \"-\", pc_max, \"% (mean \", pc_mean, \"%)\"))\np_reads_summ &lt;- p_reads_summ_prep %&gt;%\n  select(`Sample Type`=sample_type_short, Classification=classification, \n         `Read Fraction`=display) %&gt;%\n  arrange(`Sample Type`, Classification)\np_reads_summ\n\n\n  \n\n\n\nAs in previous DNA datasets, the vast majority of classified reads were bacterial in origin. The fraction of virus reads varied substantially between sample types, averaging &lt;0.01% in influent and final effluent but closer to 0.05% in other sample types. Interestingly (though not particularly relevantly for this analysis), the fraction of archaeal reads was much higher in influent than other sample types, in contrast to Bengtsson-Palme where it was highest in slidge.\nAs is common for DNA data, viral reads were overwhelmingly dominated by Caudoviricetes phages, though one wet-well sample contained a substantial fraction of Alsuviricetes (a class of mainly plant pathogens that includes Virgaviridae):\n\nCode# Get Kraken reports\nreports_path &lt;- file.path(data_dir, \"kraken_reports.tsv.gz\")\nreports &lt;- read_tsv(reports_path, show_col_types = FALSE)\n\n# Get viral taxonomy\nviral_taxa_path &lt;- file.path(data_dir, \"viral-taxids.tsv.gz\")\nviral_taxa &lt;- read_tsv(viral_taxa_path, show_col_types = FALSE)\n\n# Filter to viral taxa\nkraken_reports_viral &lt;- filter(reports, taxid %in% viral_taxa$taxid) %&gt;%\n  group_by(sample) %&gt;%\n  mutate(p_reads_viral = n_reads_clade/n_reads_clade[1])\nkraken_reports_viral_cleaned &lt;- kraken_reports_viral %&gt;%\n  inner_join(libraries, by=\"sample\") %&gt;%\n  select(-pc_reads_total, -n_reads_direct, -contains(\"minimizers\")) %&gt;%\n  select(name, taxid, p_reads_viral, n_reads_clade, everything())\n\nviral_classes &lt;- kraken_reports_viral_cleaned %&gt;% filter(rank == \"C\")\nviral_families &lt;- kraken_reports_viral_cleaned %&gt;% filter(rank == \"F\")\n\n\n\nCodemajor_threshold &lt;- 0.02\n\n# Identify major viral classes\nviral_classes_major_tab &lt;- viral_classes %&gt;% \n  group_by(name, taxid) %&gt;%\n  summarize(p_reads_viral_max = max(p_reads_viral), .groups=\"drop\") %&gt;%\n  filter(p_reads_viral_max &gt;= major_threshold)\nviral_classes_major_list &lt;- viral_classes_major_tab %&gt;% pull(name)\nviral_classes_major &lt;- viral_classes %&gt;% \n  filter(name %in% viral_classes_major_list) %&gt;%\n  select(name, taxid, sample, sample_type_short, date, p_reads_viral)\nviral_classes_minor &lt;- viral_classes_major %&gt;% \n  group_by(sample, sample_type_short, date) %&gt;%\n  summarize(p_reads_viral_major = sum(p_reads_viral), .groups = \"drop\") %&gt;%\n  mutate(name = \"Other\", taxid=NA, p_reads_viral = 1-p_reads_viral_major) %&gt;%\n  select(name, taxid, sample, sample_type_short, date, p_reads_viral)\nviral_classes_display &lt;- bind_rows(viral_classes_major, viral_classes_minor) %&gt;%\n  arrange(desc(p_reads_viral)) %&gt;% \n  mutate(name = factor(name, levels=c(viral_classes_major_list, \"Other\")),\n         p_reads_viral = pmax(p_reads_viral, 0)) %&gt;%\n  rename(p_reads = p_reads_viral, classification=name)\n\npalette_viral &lt;- c(brewer.pal(12, \"Set3\"), brewer.pal(8, \"Dark2\"))\ng_classes &lt;- g_comp_base + \n  geom_col(data=viral_classes_display, position = \"stack\", width=1) +\n  scale_y_continuous(name=\"% Viral Reads\", limits=c(0,1.01), breaks = seq(0,1,0.2),\n                     expand=c(0,0), labels = function(y) y*100) +\n  scale_fill_manual(values=palette_viral, name = \"Viral class\")\n  \ng_classes\n\n\n\n\n\n\n\nHuman-infecting virus reads: validation\nNext, I investigated the human-infecting virus read content of these unenriched samples. A grand total of 527 reads were identified as putatively human-viral, with half of samples showing 5 or fewer total HV read pairs.\n\nCode# Import HV read data\nhv_reads_filtered_path &lt;- file.path(data_dir, \"hv_hits_putative_filtered.tsv.gz\")\nhv_reads_filtered &lt;- lapply(hv_reads_filtered_path, read_tsv,\n                            show_col_types = FALSE) %&gt;%\n  bind_rows() %&gt;%\n  left_join(libraries, by=\"sample\")\n\n# Count reads\nn_hv_filtered &lt;- hv_reads_filtered %&gt;%\n  group_by(sample, date, sample_type_short, seq_id) %&gt;% count %&gt;%\n  group_by(sample, date, sample_type_short) %&gt;% count %&gt;% \n  inner_join(basic_stats %&gt;% filter(stage == \"ribo_initial\") %&gt;% \n               select(sample, n_read_pairs), by=\"sample\") %&gt;% \n  rename(n_putative = n, n_total = n_read_pairs) %&gt;% \n  mutate(p_reads = n_putative/n_total, pc_reads = p_reads * 100)\nn_hv_filtered_summ &lt;- n_hv_filtered %&gt;% ungroup %&gt;%\n  summarize(n_putative = sum(n_putative), n_total = sum(n_total), \n            .groups=\"drop\") %&gt;% \n  mutate(p_reads = n_putative/n_total, pc_reads = p_reads*100)\n\n\n\nCode# Collapse multi-entry sequences\nrmax &lt;- purrr::partial(max, na.rm = TRUE)\ncollapse &lt;- function(x) ifelse(all(x == x[1]), x[1], paste(x, collapse=\"/\"))\nmrg &lt;- hv_reads_filtered %&gt;% \n  mutate(adj_score_max = pmax(adj_score_fwd, adj_score_rev, na.rm = TRUE)) %&gt;%\n  arrange(desc(adj_score_max)) %&gt;%\n  group_by(seq_id) %&gt;%\n  summarize(sample = collapse(sample),\n            genome_id = collapse(genome_id),\n            taxid_best = taxid[1],\n            taxid = collapse(as.character(taxid)),\n            best_alignment_score_fwd = rmax(best_alignment_score_fwd),\n            best_alignment_score_rev = rmax(best_alignment_score_rev),\n            query_len_fwd = rmax(query_len_fwd),\n            query_len_rev = rmax(query_len_rev),\n            query_seq_fwd = query_seq_fwd[!is.na(query_seq_fwd)][1],\n            query_seq_rev = query_seq_rev[!is.na(query_seq_rev)][1],\n            classified = rmax(classified),\n            assigned_name = collapse(assigned_name),\n            assigned_taxid_best = assigned_taxid[1],\n            assigned_taxid = collapse(as.character(assigned_taxid)),\n            assigned_hv = rmax(assigned_hv),\n            hit_hv = rmax(hit_hv),\n            encoded_hits = collapse(encoded_hits),\n            adj_score_fwd = rmax(adj_score_fwd),\n            adj_score_rev = rmax(adj_score_rev)\n            ) %&gt;%\n  inner_join(libraries, by=\"sample\") %&gt;%\n  mutate(kraken_label = ifelse(assigned_hv, \"Kraken2 HV\\nassignment\",\n                               ifelse(hit_hv, \"Kraken2 HV\\nhit\",\n                                      \"No hit or\\nassignment\"))) %&gt;%\n  mutate(adj_score_max = pmax(adj_score_fwd, adj_score_rev),\n         highscore = adj_score_max &gt;= 20)\n\n# Plot results\ngeom_vhist &lt;- purrr::partial(geom_histogram, binwidth=5, boundary=0)\ng_vhist_base &lt;- ggplot(mapping=aes(x=adj_score_max)) +\n  geom_vline(xintercept=20, linetype=\"dashed\", color=\"red\") +\n  facet_wrap(~kraken_label, labeller = labeller(kit = label_wrap_gen(20)), scales = \"free_y\") +\n  scale_x_continuous(name = \"Maximum adjusted alignment score\") + \n  scale_y_continuous(name=\"# Read pairs\") + \n  theme_base \ng_vhist_0 &lt;- g_vhist_base + geom_vhist(data=mrg)\ng_vhist_0\n\n\n\n\n\n\n\nBLASTing these reads against nt, we find that the pipeline performs well, with only a single high-scoring false-positive read:\n\nCode# Import paired BLAST results\nblast_paired_path &lt;- file.path(data_dir, \"hv_hits_blast_paired.tsv.gz\")\nblast_paired &lt;- read_tsv(blast_paired_path, show_col_types = FALSE)\n\n# Add viral status\nblast_viral &lt;- mutate(blast_paired, viral = staxid %in% viral_taxa$taxid) %&gt;%\n  mutate(viral_full = viral & n_reads == 2)\n\n# Compare to Kraken & Bowtie assignments\nmatch_taxid &lt;- function(taxid_1, taxid_2){\n  p1 &lt;- mapply(grepl, paste0(\"/\", taxid_1, \"$\"), taxid_2)\n  p2 &lt;- mapply(grepl, paste0(\"^\", taxid_1, \"/\"), taxid_2)\n  p3 &lt;- mapply(grepl, paste0(\"^\", taxid_1, \"$\"), taxid_2)\n  out &lt;- setNames(p1|p2|p3, NULL)\n  return(out)\n}\nmrg_assign &lt;- mrg %&gt;% select(sample, seq_id, taxid, assigned_taxid, adj_score_max)\nblast_assign &lt;- inner_join(blast_viral, mrg_assign, by=\"seq_id\") %&gt;%\n    mutate(taxid_match_bowtie = match_taxid(staxid, taxid),\n           taxid_match_kraken = match_taxid(staxid, assigned_taxid),\n           taxid_match_any = taxid_match_bowtie | taxid_match_kraken)\nblast_out &lt;- blast_assign %&gt;%\n  group_by(seq_id) %&gt;%\n  summarize(viral_status = ifelse(any(viral_full), 2,\n                                  ifelse(any(taxid_match_any), 2,\n                                             ifelse(any(viral), 1, 0))),\n            .groups = \"drop\")\n\n\n\nCode# Merge BLAST results with unenriched read data\nmrg_blast &lt;- full_join(mrg, blast_out, by=\"seq_id\") %&gt;%\n  mutate(viral_status = replace_na(viral_status, 0),\n         viral_status_out = ifelse(viral_status == 0, FALSE, TRUE))\n\n# Plot\ng_vhist_1 &lt;- g_vhist_base + geom_vhist(data=mrg_blast, mapping=aes(fill=viral_status_out)) +\n  scale_fill_brewer(palette = \"Set1\", name = \"Viral status\")\ng_vhist_1\n\n\n\n\n\n\n\nMy usual disjunctive score threshold of 20 gave precision, sensitivity, and F1 scores all &gt;97%:\n\nCodetest_sens_spec &lt;- function(tab, score_threshold){\n  tab_retained &lt;- tab %&gt;% \n    mutate(retain_score = (adj_score_fwd &gt; score_threshold | adj_score_rev &gt; score_threshold),\n           retain = assigned_hv | retain_score) %&gt;%\n    group_by(viral_status_out, retain) %&gt;% count\n  pos_tru &lt;- tab_retained %&gt;% filter(viral_status_out == \"TRUE\", retain) %&gt;% pull(n) %&gt;% sum\n  pos_fls &lt;- tab_retained %&gt;% filter(viral_status_out != \"TRUE\", retain) %&gt;% pull(n) %&gt;% sum\n  neg_tru &lt;- tab_retained %&gt;% filter(viral_status_out != \"TRUE\", !retain) %&gt;% pull(n) %&gt;% sum\n  neg_fls &lt;- tab_retained %&gt;% filter(viral_status_out == \"TRUE\", !retain) %&gt;% pull(n) %&gt;% sum\n  sensitivity &lt;- pos_tru / (pos_tru + neg_fls)\n  specificity &lt;- neg_tru / (neg_tru + pos_fls)\n  precision   &lt;- pos_tru / (pos_tru + pos_fls)\n  f1 &lt;- 2 * precision * sensitivity / (precision + sensitivity)\n  out &lt;- tibble(threshold=score_threshold, sensitivity=sensitivity, \n                specificity=specificity, precision=precision, f1=f1)\n  return(out)\n}\nrange_f1 &lt;- function(intab, inrange=15:45){\n  tss &lt;- purrr::partial(test_sens_spec, tab=intab)\n  stats &lt;- lapply(inrange, tss) %&gt;% bind_rows %&gt;%\n    pivot_longer(!threshold, names_to=\"metric\", values_to=\"value\")\n  return(stats)\n}\nstats_0 &lt;- range_f1(mrg_blast)\ng_stats_0 &lt;- ggplot(stats_0, aes(x=threshold, y=value, color=metric)) +\n  geom_vline(xintercept=20, color = \"red\", linetype = \"dashed\") +\n  geom_line() +\n  scale_y_continuous(name = \"Value\", limits=c(0,1), breaks = seq(0,1,0.2), expand = c(0,0)) +\n  scale_x_continuous(name = \"Adjusted Score Threshold\", expand = c(0,0)) +\n  scale_color_brewer(palette=\"Dark2\") +\n  theme_base\ng_stats_0\n\n\n\n\n\n\nCodestats_0 %&gt;% filter(threshold == 20) %&gt;% \n  select(Threshold=threshold, Metric=metric, Value=value)\n\n\n  \n\n\n\nHuman-infecting viruses: overall relative abundance\n\nCode# Get raw read counts\nread_counts_raw &lt;- basic_stats_raw %&gt;%\n  select(sample, sample_type_short, date, n_reads_raw = n_read_pairs)\n\n# Get HV read counts\nmrg_hv &lt;- mrg %&gt;% mutate(hv_status = assigned_hv | highscore) %&gt;%\n  rename(taxid_all = taxid, taxid = taxid_best)\nread_counts_hv &lt;- mrg_hv %&gt;% filter(hv_status) %&gt;% group_by(sample) %&gt;% \n  count(name=\"n_reads_hv\")\nread_counts &lt;- read_counts_raw %&gt;% left_join(read_counts_hv, by=\"sample\") %&gt;%\n  mutate(n_reads_hv = replace_na(n_reads_hv, 0))\n\n# Aggregate\nread_counts_grp &lt;- read_counts %&gt;% group_by(date, sample_type_short) %&gt;%\n  summarize(n_reads_raw = sum(n_reads_raw),\n            n_reads_hv = sum(n_reads_hv), .groups=\"drop\") %&gt;%\n  mutate(sample= \"All samples\")\nread_counts_st &lt;- read_counts_grp %&gt;% group_by(sample, sample_type_short) %&gt;%\n  summarize(n_reads_raw = sum(n_reads_raw),\n            n_reads_hv = sum(n_reads_hv), .groups=\"drop\") %&gt;%\n  mutate(date = \"All dates\")\nread_counts_date &lt;- read_counts_grp %&gt;%\n  group_by(sample, date) %&gt;%\n  summarize(n_reads_raw = sum(n_reads_raw),\n            n_reads_hv = sum(n_reads_hv), .groups=\"drop\") %&gt;%\n  mutate(sample_type_short = \"All sample types\")\nread_counts_tot &lt;- read_counts_date %&gt;% group_by(sample, sample_type_short) %&gt;%\n  summarize(n_reads_raw = sum(n_reads_raw),\n            n_reads_hv = sum(n_reads_hv), .groups=\"drop\") %&gt;%\n  mutate(date = \"All dates\")\nread_counts_agg &lt;- bind_rows(read_counts_grp, read_counts_st,\n                             read_counts_date, read_counts_tot) %&gt;%\n  mutate(p_reads_hv = n_reads_hv/n_reads_raw,\n         date = factor(date, levels = c(levels(libraries$date), \"All dates\")),\n         sample_type_short = factor(sample_type_short, levels = c(levels(libraries$sample_type_short), \"All sample types\")))\n\n\nApplying a disjunctive cutoff at S=20 identifies 482 read pairs as human-viral. This gives an overall relative HV abundance of \\(2.90 \\times 10^{-7}\\); on the low end across all datasets I’ve analyzed, though higher than for Bengtsson-Palme:\n\nCode# Visualize\ng_phv_agg &lt;- ggplot(read_counts_agg, aes(x=date, color=sample_type_short)) +\n  geom_point(aes(y=p_reads_hv)) +\n  scale_y_log10(\"Relative abundance of human virus reads\") +\n  scale_color_st() + theme_kit\ng_phv_agg\n\n\n\n\n\n\n\n\nCode# Collate past RA values\nra_past &lt;- tribble(~dataset, ~ra, ~na_type, ~panel_enriched,\n                   \"Brumfield\", 5e-5, \"RNA\", FALSE,\n                   \"Brumfield\", 3.66e-7, \"DNA\", FALSE,\n                   \"Spurbeck\", 5.44e-6, \"RNA\", FALSE,\n                   \"Yang\", 3.62e-4, \"RNA\", FALSE,\n                   \"Rothman (unenriched)\", 1.87e-5, \"RNA\", FALSE,\n                   \"Rothman (panel-enriched)\", 3.3e-5, \"RNA\", TRUE,\n                   \"Crits-Christoph (unenriched)\", 1.37e-5, \"RNA\", FALSE,\n                   \"Crits-Christoph (panel-enriched)\", 1.26e-2, \"RNA\", TRUE,\n                   \"Prussin (non-control)\", 1.63e-5, \"RNA\", FALSE,\n                   \"Prussin (non-control)\", 4.16e-5, \"DNA\", FALSE,\n                   \"Rosario (non-control)\", 1.21e-5, \"RNA\", FALSE,\n                   \"Rosario (non-control)\", 1.50e-4, \"DNA\", FALSE,\n                   \"Leung\", 1.73e-5, \"DNA\", FALSE,\n                   \"Brinch\", 3.88e-6, \"DNA\", FALSE,\n                   \"Bengtsson-Palme\", 8.86e-8, \"DNA\", FALSE\n)\n\n# Collate new RA values\nra_new &lt;- tribble(~dataset, ~ra, ~na_type, ~panel_enriched,\n                  \"Ng\", 2.90e-7, \"DNA\", FALSE)\n\n\n# Plot\nscale_color_na &lt;- purrr::partial(scale_color_brewer, palette=\"Set1\",\n                                 name=\"Nucleic acid type\")\nra_comp &lt;- bind_rows(ra_past, ra_new) %&gt;% mutate(dataset = fct_inorder(dataset))\ng_ra_comp &lt;- ggplot(ra_comp, aes(y=dataset, x=ra, color=na_type)) +\n  geom_point() +\n  scale_color_na() +\n  scale_x_log10(name=\"Relative abundance of human virus reads\") +\n  theme_base + theme(axis.title.y = element_blank())\ng_ra_comp\n\n\n\n\n\n\n\nHuman-infecting viruses: taxonomy and composition\nIn investigating the taxonomy of human-infecting virus reads, I restricted my analysis to samples with more than 5 HV read pairs total across all viruses, to reduce noise arising from extremely low HV read counts in some samples. 13 samples met this criterion.\nAt the family level, most samples were overwhelmingly dominated by Adenoviridae, with Picornaviridae, Polyomaviridae and Papillomaviridae making up most of the rest:\n\nCode# Get viral taxon names for putative HV reads\nviral_taxa$name[viral_taxa$taxid == 249588] &lt;- \"Mamastrovirus\"\nviral_taxa$name[viral_taxa$taxid == 194960] &lt;- \"Kobuvirus\"\nviral_taxa$name[viral_taxa$taxid == 688449] &lt;- \"Salivirus\"\nviral_taxa$name[viral_taxa$taxid == 585893] &lt;- \"Picobirnaviridae\"\nviral_taxa$name[viral_taxa$taxid == 333922] &lt;- \"Betapapillomavirus\"\nviral_taxa$name[viral_taxa$taxid == 334207] &lt;- \"Betapapillomavirus 3\"\nviral_taxa$name[viral_taxa$taxid == 369960] &lt;- \"Porcine type-C oncovirus\"\nviral_taxa$name[viral_taxa$taxid == 333924] &lt;- \"Betapapillomavirus 2\"\nviral_taxa$name[viral_taxa$taxid == 687329] &lt;- \"Anelloviridae\"\nviral_taxa$name[viral_taxa$taxid == 325455] &lt;- \"Gammapapillomavirus\"\nviral_taxa$name[viral_taxa$taxid == 333750] &lt;- \"Alphapapillomavirus\"\nviral_taxa$name[viral_taxa$taxid == 694002] &lt;- \"Betacoronavirus\"\nviral_taxa$name[viral_taxa$taxid == 334202] &lt;- \"Mupapillomavirus\"\nviral_taxa$name[viral_taxa$taxid == 197911] &lt;- \"Alphainfluenzavirus\"\nviral_taxa$name[viral_taxa$taxid == 186938] &lt;- \"Respirovirus\"\nviral_taxa$name[viral_taxa$taxid == 333926] &lt;- \"Gammapapillomavirus 1\"\nviral_taxa$name[viral_taxa$taxid == 337051] &lt;- \"Betapapillomavirus 1\"\nviral_taxa$name[viral_taxa$taxid == 337043] &lt;- \"Alphapapillomavirus 4\"\nviral_taxa$name[viral_taxa$taxid == 694003] &lt;- \"Betacoronavirus 1\"\nviral_taxa$name[viral_taxa$taxid == 334204] &lt;- \"Mupapillomavirus 2\"\nviral_taxa$name[viral_taxa$taxid == 334208] &lt;- \"Betapapillomavirus 4\"\nviral_taxa$name[viral_taxa$taxid == 333928] &lt;- \"Gammapapillomavirus 2\"\nviral_taxa$name[viral_taxa$taxid == 337039] &lt;- \"Alphapapillomavirus 2\"\nviral_taxa$name[viral_taxa$taxid == 333929] &lt;- \"Gammapapillomavirus 3\"\nviral_taxa$name[viral_taxa$taxid == 337042] &lt;- \"Alphapapillomavirus 7\"\nviral_taxa$name[viral_taxa$taxid == 334203] &lt;- \"Mupapillomavirus 1\"\nviral_taxa$name[viral_taxa$taxid == 333757] &lt;- \"Alphapapillomavirus 8\"\nviral_taxa$name[viral_taxa$taxid == 337050] &lt;- \"Alphapapillomavirus 6\"\nviral_taxa$name[viral_taxa$taxid == 333767] &lt;- \"Alphapapillomavirus 3\"\nviral_taxa$name[viral_taxa$taxid == 333754] &lt;- \"Alphapapillomavirus 10\"\nviral_taxa$name[viral_taxa$taxid == 687363] &lt;- \"Torque teno virus 24\"\nviral_taxa$name[viral_taxa$taxid == 687342] &lt;- \"Torque teno virus 3\"\nviral_taxa$name[viral_taxa$taxid == 687359] &lt;- \"Torque teno virus 20\"\nviral_taxa$name[viral_taxa$taxid == 194441] &lt;- \"Primate T-lymphotropic virus 2\"\nviral_taxa$name[viral_taxa$taxid == 334209] &lt;- \"Betapapillomavirus 5\"\nviral_taxa$name[viral_taxa$taxid == 194965] &lt;- \"Aichivirus B\"\nviral_taxa$name[viral_taxa$taxid == 333930] &lt;- \"Gammapapillomavirus 4\"\nviral_taxa$name[viral_taxa$taxid == 337048] &lt;- \"Alphapapillomavirus 1\"\nviral_taxa$name[viral_taxa$taxid == 337041] &lt;- \"Alphapapillomavirus 9\"\nviral_taxa$name[viral_taxa$taxid == 337049] &lt;- \"Alphapapillomavirus 11\"\nviral_taxa$name[viral_taxa$taxid == 337044] &lt;- \"Alphapapillomavirus 5\"\n\n# Filter samples and add viral taxa information\nsamples_keep &lt;- read_counts %&gt;% filter(n_reads_hv &gt; 5) %&gt;% pull(sample)\nmrg_hv_named &lt;- mrg_hv %&gt;% filter(sample %in% samples_keep, hv_status) %&gt;% left_join(viral_taxa, by=\"taxid\") \n\n# Discover viral species & genera for HV reads\nraise_rank &lt;- function(read_db, taxid_db, out_rank = \"species\", verbose = FALSE){\n  # Get higher ranks than search rank\n  ranks &lt;- c(\"subspecies\", \"species\", \"subgenus\", \"genus\", \"subfamily\", \"family\", \"suborder\", \"order\", \"class\", \"subphylum\", \"phylum\", \"kingdom\", \"superkingdom\")\n  rank_match &lt;- which.max(ranks == out_rank)\n  high_ranks &lt;- ranks[rank_match:length(ranks)]\n  # Merge read DB and taxid DB\n  reads &lt;- read_db %&gt;% select(-parent_taxid, -rank, -name) %&gt;%\n    left_join(taxid_db, by=\"taxid\")\n  # Extract sequences that are already at appropriate rank\n  reads_rank &lt;- filter(reads, rank == out_rank)\n  # Drop sequences at a higher rank and return unclassified sequences\n  reads_norank &lt;- reads %&gt;% filter(rank != out_rank, !rank %in% high_ranks, !is.na(taxid))\n  while(nrow(reads_norank) &gt; 0){ # As long as there are unclassified sequences...\n    # Promote read taxids and re-merge with taxid DB, then re-classify and filter\n    reads_remaining &lt;- reads_norank %&gt;% mutate(taxid = parent_taxid) %&gt;%\n      select(-parent_taxid, -rank, -name) %&gt;%\n      left_join(taxid_db, by=\"taxid\")\n    reads_rank &lt;- reads_remaining %&gt;% filter(rank == out_rank) %&gt;%\n      bind_rows(reads_rank)\n    reads_norank &lt;- reads_remaining %&gt;%\n      filter(rank != out_rank, !rank %in% high_ranks, !is.na(taxid))\n  }\n  # Finally, extract and append reads that were excluded during the process\n  reads_dropped &lt;- reads %&gt;% filter(!seq_id %in% reads_rank$seq_id)\n  reads_out &lt;- reads_rank %&gt;% bind_rows(reads_dropped) %&gt;%\n    select(-parent_taxid, -rank, -name) %&gt;%\n    left_join(taxid_db, by=\"taxid\")\n  return(reads_out)\n}\nhv_reads_species &lt;- raise_rank(mrg_hv_named, viral_taxa, \"species\")\nhv_reads_genus &lt;- raise_rank(mrg_hv_named, viral_taxa, \"genus\")\nhv_reads_family &lt;- raise_rank(mrg_hv_named, viral_taxa, \"family\")\n\n\n\nCodethreshold_major_family &lt;- 0.02\n\n# Count reads for each human-viral family\nhv_family_counts &lt;- hv_reads_family %&gt;% \n  group_by(sample, date, sample_type_short, name, taxid) %&gt;%\n  count(name = \"n_reads_hv\") %&gt;%\n  group_by(sample, date, sample_type_short) %&gt;%\n  mutate(p_reads_hv = n_reads_hv/sum(n_reads_hv))\n\n# Identify high-ranking families and group others\nhv_family_major_tab &lt;- hv_family_counts %&gt;% group_by(name) %&gt;% \n  filter(p_reads_hv == max(p_reads_hv)) %&gt;% filter(row_number() == 1) %&gt;%\n  arrange(desc(p_reads_hv)) %&gt;% filter(p_reads_hv &gt; threshold_major_family)\nhv_family_counts_major &lt;- hv_family_counts %&gt;%\n  mutate(name_display = ifelse(name %in% hv_family_major_tab$name, name, \"Other\")) %&gt;%\n  group_by(sample, date, sample_type_short, name_display) %&gt;%\n  summarize(n_reads_hv = sum(n_reads_hv), p_reads_hv = sum(p_reads_hv), \n            .groups=\"drop\") %&gt;%\n  mutate(name_display = factor(name_display, \n                               levels = c(hv_family_major_tab$name, \"Other\")))\nhv_family_counts_display &lt;- hv_family_counts_major %&gt;%\n  rename(p_reads = p_reads_hv, classification = name_display)\n\n# Plot\ng_hv_family &lt;- g_comp_base + \n  geom_col(data=hv_family_counts_display, position = \"stack\") +\n  scale_y_continuous(name=\"% HV Reads\", limits=c(0,1.01), \n                     breaks = seq(0,1,0.2),\n                     expand=c(0,0), labels = function(y) y*100) +\n  scale_fill_manual(values=palette_viral, name = \"Viral family\") +\n  labs(title=\"Family composition of human-viral reads\") +\n  guides(fill=guide_legend(ncol=4)) +\n  theme(plot.title = element_text(size=rel(1.4), hjust=0, face=\"plain\"))\ng_hv_family\n\n\n\n\n\n\nCode# Get most prominent families for text\nhv_family_collate &lt;- hv_family_counts %&gt;% group_by(name, taxid) %&gt;% \n  summarize(n_reads_tot = sum(n_reads_hv),\n            p_reads_max = max(p_reads_hv), .groups=\"drop\") %&gt;% \n  arrange(desc(n_reads_tot))\n\n\nIn investigating individual viral families, to avoid distortions from a few rare reads, I restricted myself to samples where that family made up at least 10% of human-viral reads:\n\nCodethreshold_major_species &lt;- 0.05\ntaxid_adeno &lt;- 10508\n\n# Get set of adenoviridae reads\nadeno_samples &lt;- hv_family_counts %&gt;% filter(taxid == taxid_adeno) %&gt;%\n  filter(p_reads_hv &gt;= 0.1) %&gt;%\n  pull(sample)\nadeno_ids &lt;- hv_reads_family %&gt;% \n  filter(taxid == taxid_adeno, sample %in% adeno_samples) %&gt;%\n  pull(seq_id)\n\n# Count reads for each adenoviridae species\nadeno_species_counts &lt;- hv_reads_species %&gt;%\n  filter(seq_id %in% adeno_ids) %&gt;%\n  group_by(sample, date, sample_type_short, name, taxid) %&gt;%\n  count(name = \"n_reads_hv\") %&gt;%\n  group_by(sample, date, sample_type_short) %&gt;%\n  mutate(p_reads_adeno = n_reads_hv/sum(n_reads_hv))\n\n# Identify high-ranking families and group others\nadeno_species_major_tab &lt;- adeno_species_counts %&gt;% group_by(name) %&gt;% \n  filter(p_reads_adeno == max(p_reads_adeno)) %&gt;% \n  filter(row_number() == 1) %&gt;%\n  arrange(desc(p_reads_adeno)) %&gt;% \n  filter(p_reads_adeno &gt; threshold_major_species)\nadeno_species_counts_major &lt;- adeno_species_counts %&gt;%\n  mutate(name_display = ifelse(name %in% adeno_species_major_tab$name, \n                               name, \"Other\")) %&gt;%\n  group_by(sample, date, sample_type_short, name_display) %&gt;%\n  summarize(n_reads_adeno = sum(n_reads_hv),\n            p_reads_adeno = sum(p_reads_adeno), \n            .groups=\"drop\") %&gt;%\n  mutate(name_display = factor(name_display, \n                               levels = c(adeno_species_major_tab$name, \"Other\")))\nadeno_species_counts_display &lt;- adeno_species_counts_major %&gt;%\n  rename(p_reads = p_reads_adeno, classification = name_display)\n\n# Plot\ng_adeno_species &lt;- g_comp_base + \n  geom_col(data=adeno_species_counts_display, position = \"stack\") +\n  scale_y_continuous(name=\"% Adenoviridae Reads\", limits=c(0,1.01), \n                     breaks = seq(0,1,0.2),\n                     expand=c(0,0), labels = function(y) y*100) +\n  scale_fill_manual(values=palette_viral, name = \"Viral species\") +\n  labs(title=\"Species composition of Adenoviridae reads\") +\n  guides(fill=guide_legend(ncol=3)) +\n  theme(plot.title = element_text(size=rel(1.4), hjust=0, face=\"plain\"))\n\ng_adeno_species\n\n\n\n\n\n\nCode# Get most prominent species for text\nadeno_species_collate &lt;- adeno_species_counts %&gt;% group_by(name, taxid) %&gt;% \n  summarize(n_reads_tot = sum(n_reads_hv), p_reads_mean = mean(p_reads_adeno), .groups=\"drop\") %&gt;% \n  arrange(desc(n_reads_tot))\n\n\n\nCodethreshold_major_species &lt;- 0.1\ntaxid_picorna &lt;- 12058\n\n# Get set of picornaviridae reads\npicorna_samples &lt;- hv_family_counts %&gt;% filter(taxid == taxid_picorna) %&gt;%\n  filter(p_reads_hv &gt;= 0.1) %&gt;%\n  pull(sample)\npicorna_ids &lt;- hv_reads_family %&gt;% \n  filter(taxid == taxid_picorna, sample %in% picorna_samples) %&gt;%\n  pull(seq_id)\n\n# Count reads for each picornaviridae species\npicorna_species_counts &lt;- hv_reads_species %&gt;%\n  filter(seq_id %in% picorna_ids) %&gt;%\n  group_by(sample, date, sample_type_short, name, taxid) %&gt;%\n  count(name = \"n_reads_hv\") %&gt;%\n  group_by(sample, date, sample_type_short) %&gt;%\n  mutate(p_reads_picorna = n_reads_hv/sum(n_reads_hv))\n\n# Identify high-ranking families and group others\npicorna_species_major_tab &lt;- picorna_species_counts %&gt;% group_by(name) %&gt;% \n  filter(p_reads_picorna == max(p_reads_picorna)) %&gt;% \n  filter(row_number() == 1) %&gt;%\n  arrange(desc(p_reads_picorna)) %&gt;% \n  filter(p_reads_picorna &gt; threshold_major_species)\npicorna_species_counts_major &lt;- picorna_species_counts %&gt;%\n  mutate(name_display = ifelse(name %in% picorna_species_major_tab$name, \n                               name, \"Other\")) %&gt;%\n  group_by(sample, date, sample_type_short, name_display) %&gt;%\n  summarize(n_reads_picorna = sum(n_reads_hv),\n            p_reads_picorna = sum(p_reads_picorna), \n            .groups=\"drop\") %&gt;%\n  mutate(name_display = factor(name_display, \n                               levels = c(picorna_species_major_tab$name, \"Other\")))\npicorna_species_counts_display &lt;- picorna_species_counts_major %&gt;%\n  rename(p_reads = p_reads_picorna, classification = name_display)\n\n# Plot\ng_picorna_species &lt;- g_comp_base + \n  geom_col(data=picorna_species_counts_display, position = \"stack\") +\n  scale_y_continuous(name=\"% Picornaviridae Reads\", limits=c(0,1.01), \n                     breaks = seq(0,1,0.2),\n                     expand=c(0,0), labels = function(y) y*100) +\n  scale_fill_manual(values=palette_viral, name = \"Viral species\") +\n  labs(title=\"Species composition of Picornaviridae reads\") +\n  guides(fill=guide_legend(ncol=3)) +\n  theme(plot.title = element_text(size=rel(1.4), hjust=0, face=\"plain\"))\n\ng_picorna_species\n\n\n\n\n\n\nCode# Get most prominent species for text\npicorna_species_collate &lt;- picorna_species_counts %&gt;% group_by(name, taxid) %&gt;% \n  summarize(n_reads_tot = sum(n_reads_hv), p_reads_mean = mean(p_reads_picorna), .groups=\"drop\") %&gt;% \n  arrange(desc(n_reads_tot))\n\n\n\nCodethreshold_major_species &lt;- 0.1\ntaxid_polyoma &lt;- 151341\n\n# Get set of polyomaviridae reads\npolyoma_samples &lt;- hv_family_counts %&gt;% filter(taxid == taxid_polyoma) %&gt;%\n  filter(p_reads_hv &gt;= 0.1) %&gt;%\n  pull(sample)\npolyoma_ids &lt;- hv_reads_family %&gt;% \n  filter(taxid == taxid_polyoma, sample %in% polyoma_samples) %&gt;%\n  pull(seq_id)\n\n# Count reads for each polyomaviridae species\npolyoma_species_counts &lt;- hv_reads_species %&gt;%\n  filter(seq_id %in% polyoma_ids) %&gt;%\n  group_by(sample, date, sample_type_short, name, taxid) %&gt;%\n  count(name = \"n_reads_hv\") %&gt;%\n  group_by(sample, date, sample_type_short) %&gt;%\n  mutate(p_reads_polyoma = n_reads_hv/sum(n_reads_hv))\n\n# Identify high-ranking families and group others\npolyoma_species_major_tab &lt;- polyoma_species_counts %&gt;% group_by(name) %&gt;% \n  filter(p_reads_polyoma == max(p_reads_polyoma)) %&gt;% \n  filter(row_number() == 1) %&gt;%\n  arrange(desc(p_reads_polyoma)) %&gt;% \n  filter(p_reads_polyoma &gt; threshold_major_species)\npolyoma_species_counts_major &lt;- polyoma_species_counts %&gt;%\n  mutate(name_display = ifelse(name %in% polyoma_species_major_tab$name, \n                               name, \"Other\")) %&gt;%\n  group_by(sample, date, sample_type_short, name_display) %&gt;%\n  summarize(n_reads_polyoma = sum(n_reads_hv),\n            p_reads_polyoma = sum(p_reads_polyoma), \n            .groups=\"drop\") %&gt;%\n  mutate(name_display = factor(name_display, \n                               levels = c(polyoma_species_major_tab$name, \"Other\")))\npolyoma_species_counts_display &lt;- polyoma_species_counts_major %&gt;%\n  rename(p_reads = p_reads_polyoma, classification = name_display)\n\n# Plot\ng_polyoma_species &lt;- g_comp_base + \n  geom_col(data=polyoma_species_counts_display, position = \"stack\") +\n  scale_y_continuous(name=\"% Polyomaviridae Reads\", limits=c(0,1.01), \n                     breaks = seq(0,1,0.2),\n                     expand=c(0,0), labels = function(y) y*100) +\n  scale_fill_manual(values=palette_viral, name = \"Viral species\") +\n  labs(title=\"Species composition of Polyomaviridae reads\") +\n  guides(fill=guide_legend(ncol=3)) +\n  theme(plot.title = element_text(size=rel(1.4), hjust=0, face=\"plain\"))\n\ng_polyoma_species\n\n\n\n\n\n\nCode# Get most prominent species for text\npolyoma_species_collate &lt;- polyoma_species_counts %&gt;% group_by(name, taxid) %&gt;% \n  summarize(n_reads_tot = sum(n_reads_hv), p_reads_mean = mean(p_reads_polyoma), .groups=\"drop\") %&gt;% \n  arrange(desc(n_reads_tot))\n\n\nFinally, here again are the overall relative abundances of the specific viral genera I picked out manually in my last entry:\n\nCode# Define reference genera\npath_genera_rna &lt;- c(\"Mamastrovirus\", \"Enterovirus\", \"Salivirus\", \"Kobuvirus\", \"Norovirus\", \"Sapovirus\", \"Rotavirus\", \"Alphacoronavirus\", \"Betacoronavirus\", \"Alphainfluenzavirus\", \"Betainfluenzavirus\", \"Lentivirus\")\npath_genera_dna &lt;- c(\"Mastadenovirus\", \"Alphapolyomavirus\", \"Betapolyomavirus\", \"Alphapapillomavirus\", \"Betapapillomavirus\", \"Gammapapillomavirus\", \"Orthopoxvirus\", \"Simplexvirus\",\n                     \"Lymphocryptovirus\", \"Cytomegalovirus\", \"Dependoparvovirus\")\npath_genera &lt;- bind_rows(tibble(name=path_genera_rna, genome_type=\"RNA genome\"),\n                         tibble(name=path_genera_dna, genome_type=\"DNA genome\")) %&gt;%\n  left_join(viral_taxa, by=\"name\")\n\n# Count in each sample\nmrg_hv_named_all &lt;- mrg_hv %&gt;% left_join(viral_taxa, by=\"taxid\")\nhv_reads_genus_all &lt;- raise_rank(mrg_hv_named_all, viral_taxa, \"genus\")\nn_path_genera &lt;- hv_reads_genus_all %&gt;% \n  group_by(sample, date, sample_type_short, name, taxid) %&gt;% \n  count(name=\"n_reads_viral\") %&gt;% \n  inner_join(path_genera, by=c(\"name\", \"taxid\")) %&gt;%\n  left_join(read_counts_raw, by=c(\"sample\", \"date\", \"sample_type_short\")) %&gt;%\n  mutate(p_reads_viral = n_reads_viral/n_reads_raw)\n\n# Pivot out and back to add zero lines\nn_path_genera_out &lt;- n_path_genera %&gt;% ungroup %&gt;% select(sample, name, n_reads_viral) %&gt;%\n  pivot_wider(names_from=\"name\", values_from=\"n_reads_viral\", values_fill=0) %&gt;%\n  pivot_longer(-sample, names_to=\"name\", values_to=\"n_reads_viral\") %&gt;%\n  left_join(read_counts_raw, by=\"sample\") %&gt;%\n  left_join(path_genera, by=\"name\") %&gt;%\n  mutate(p_reads_viral = n_reads_viral/n_reads_raw)\n\n## Aggregate across dates\nn_path_genera_stype &lt;- n_path_genera_out %&gt;% \n  group_by(name, taxid, genome_type, sample_type_short) %&gt;%\n  summarize(n_reads_raw = sum(n_reads_raw),\n            n_reads_viral = sum(n_reads_viral), .groups = \"drop\") %&gt;%\n  mutate(sample=\"All samples\", location=\"All locations\",\n         p_reads_viral = n_reads_viral/n_reads_raw,\n         na_type = \"DNA\")\n\n# Plot\ng_path_genera &lt;- ggplot(n_path_genera_stype,\n                        aes(y=name, x=p_reads_viral, color=sample_type_short)) +\n  geom_point() +\n  scale_x_log10(name=\"Relative abundance\") +\n  scale_color_st() +\n  facet_grid(genome_type~., scales=\"free_y\") +\n  theme_base + theme(axis.title.y = element_blank())\ng_path_genera\n\n\n\n\n\n\n\nConclusion\nThis is another dataset with very low HV abundance, arising from lab methods intended to maximize bacterial abundance at the expense of other taxa. Nevertheless, this dataset had higher HV relative abundance than the last one. Interestingly, all three wastewater DNA datasets analyzed so far have exhibited a strong predominance of adenoviruses, and especially human mastadenovirus F, among human-infecting viruses. We’ll see if this pattern persists in the other DNA wastewater datasets I have in the queue."
+    "text": "Continuing my analysis of datasets from the P2RA preprint, I analyzed the data from Ng et al. (2019), a study that used DNA sequencing of wastewater samples to characterize the bacterial microbiota and resistome in Singapore. This study used processing methods I haven’t seen before:\n\nAll samples passed through “a filter” on-site at the WWTP prior to further processing in lab.\nSamples concentrated to 400ml using a Hemoflow dialyzer “via standard bloodline tubing”.\nEluted concentrates then further concentrated by passing through a 0.22um filter and retaining the retentate (NB: this is anti-selecting for viruses).\nSludge samples were instead centrifuged and the pellet kept for further analysis.\nAfter concentration, samples underwent DNA extraction with the PowerSoil DNA Isolation Kit, then underwent library prep and Illumina sequencing with an Illumina HiSeq2500 (2x250bp).\n\nSince this was a bacteria-focused study that used processing methods we expect to select against viruses, we wouldn’t expect to see high viral relative abundances here. Nevertheless, it’s worth seeing what we can see.\nThe raw data\nSamples were collected from six different locations in the treatment plant on six different dates (from October 2016 to August 2017) for a total of 36 samples:\n\n\nCode# Importing the data is a bit more complicated this time as the samples are split across three pipeline runs\ndata_dir &lt;- \"../data/2024-05-01_ng\"\n\n# Data input paths\nlibraries_path &lt;- file.path(data_dir, \"sample-metadata.csv\")\nbasic_stats_path &lt;- file.path(data_dir, \"qc_basic_stats.tsv.gz\")\nadapter_stats_path &lt;- file.path(data_dir, \"qc_adapter_stats.tsv.gz\")\nquality_base_stats_path &lt;- file.path(data_dir, \"qc_quality_base_stats.tsv.gz\")\nquality_seq_stats_path &lt;- file.path(data_dir, \"qc_quality_sequence_stats.tsv.gz\")\n\n# Import libraries and extract metadata from sample names\nlocs &lt;- c(\"INF\", \"PST\", \"SLUDGE\", \"SST\", \"MBR\", \"WW\")\nlibraries_raw &lt;- lapply(libraries_path, read_csv, show_col_types = FALSE) %&gt;%\n  bind_rows\nlibraries &lt;- libraries_raw %&gt;%\n  mutate(sample_type_long = gsub(\" \\\\(.*\", \"\", sample_type),\n         sample_type_short = ifelse(sample_type_long == \"Influent\", \"INF\",\n                                    sub(\".*\\\\((.*)\\\\)\", \"\\\\1\", sample_type)),\n         sample_type_short = factor(sample_type_short, levels=locs)) %&gt;%\n  arrange(sample_type_short, date) %&gt;%\n  mutate(sample_type_long = fct_inorder(sample_type_long),\n         sample = fct_inorder(sample)) %&gt;%\n  arrange(date) %&gt;%\n  mutate(date = fct_inorder(date))\n\n# Make table\ncount_samples &lt;- libraries %&gt;% group_by(sample_type_long, sample_type_short) %&gt;%\n  count %&gt;%\n  rename(`Sample Type`=sample_type_long, Abbreviation=sample_type_short)\ncount_samples\n\n\n  \n\n\n\n\nCode# Import QC data\nstages &lt;- c(\"raw_concat\", \"cleaned\", \"dedup\", \"ribo_initial\", \"ribo_secondary\")\nimport_basic &lt;- function(paths){\n  lapply(paths, read_tsv, show_col_types = FALSE) %&gt;% bind_rows %&gt;%\n    inner_join(libraries, by=\"sample\") %&gt;%\n      arrange(sample_type_short, date, sample) %&gt;%\n    mutate(stage = factor(stage, levels = stages),\n           sample = fct_inorder(sample))\n}\nimport_basic_paired &lt;- function(paths){\n  import_basic(paths) %&gt;% arrange(read_pair) %&gt;% \n    mutate(read_pair = fct_inorder(as.character(read_pair)))\n}\nbasic_stats &lt;- import_basic(basic_stats_path)\nadapter_stats &lt;- import_basic_paired(adapter_stats_path)\nquality_base_stats &lt;- import_basic_paired(quality_base_stats_path)\nquality_seq_stats &lt;- import_basic_paired(quality_seq_stats_path)\n\n# Filter to raw data\nbasic_stats_raw &lt;- basic_stats %&gt;% filter(stage == \"raw_concat\")\nadapter_stats_raw &lt;- adapter_stats %&gt;% filter(stage == \"raw_concat\")\nquality_base_stats_raw &lt;- quality_base_stats %&gt;% filter(stage == \"raw_concat\")\nquality_seq_stats_raw &lt;- quality_seq_stats %&gt;% filter(stage == \"raw_concat\")\n\n# Get key values for readout\nraw_read_counts &lt;- basic_stats_raw %&gt;% ungroup %&gt;% \n  summarize(rmin = min(n_read_pairs), rmax=max(n_read_pairs),\n            rmean=mean(n_read_pairs), \n            rtot = sum(n_read_pairs),\n            btot = sum(n_bases_approx),\n            dmin = min(percent_duplicates), dmax=max(percent_duplicates),\n            dmean=mean(percent_duplicates), .groups = \"drop\")\n\n\nThese 36 samples yielded 26.6M-74.1M (mean 46.1M) reads per sample, for a total of 1.7B read pairs (830 gigabases of sequence). Read qualities were mostly high but tailed off towards the 3’ end, requiring some trimming. Adapter levels were fairly low but still in need of some trimming. Inferred duplication levels were variable (1-64%, mean 31%), with libraries with lower read depth showing much lower duplicate levels.\n\nCode# Prepare data\nbasic_stats_raw_metrics &lt;- basic_stats_raw %&gt;%\n  select(sample, sample_type_short, date,\n         `# Read pairs` = n_read_pairs,\n         `Total base pairs\\n(approx)` = n_bases_approx,\n         `% Duplicates\\n(FASTQC)` = percent_duplicates) %&gt;%\n  pivot_longer(-(sample:date), names_to = \"metric\", values_to = \"value\") %&gt;%\n  mutate(metric = fct_inorder(metric))\n\n# Set up plot templates\nscale_fill_st &lt;- purrr::partial(scale_fill_brewer, palette=\"Set1\", name=\"Sample Type\")\ng_basic &lt;- ggplot(basic_stats_raw_metrics, \n                  aes(x=sample, y=value, fill=sample_type_short, \n                      group=interaction(sample_type_short,sample))) +\n  geom_col(position = \"dodge\") +\n  scale_y_continuous(expand=c(0,0)) +\n  expand_limits(y=c(0,100)) +\n  scale_fill_st() + \n  facet_grid(metric~., scales = \"free\", space=\"free_x\", switch=\"y\") +\n  theme_xblank + theme(\n    axis.title.y = element_blank(),\n    strip.text.y = element_text(face=\"plain\")\n  )\ng_basic\n\n\n\n\n\n\n\n\nCode# Set up plotting templates\nscale_color_st &lt;- purrr::partial(scale_color_brewer, palette=\"Set1\",\n                                   name=\"Sample Type\")\ng_qual_raw &lt;- ggplot(mapping=aes(color=sample_type_short, linetype=read_pair, \n                         group=interaction(sample,read_pair))) + \n  scale_color_st() + scale_linetype_discrete(name = \"Read Pair\") +\n  guides(color=guide_legend(nrow=2,byrow=TRUE),\n         linetype = guide_legend(nrow=2,byrow=TRUE)) +\n  theme_base\n\n# Visualize adapters\ng_adapters_raw &lt;- g_qual_raw + \n  geom_line(aes(x=position, y=pc_adapters), data=adapter_stats_raw) +\n  scale_y_continuous(name=\"% Adapters\", limits=c(0,NA),\n                     breaks = seq(0,100,1), expand=c(0,0)) +\n  scale_x_continuous(name=\"Position\", limits=c(0,NA),\n                     breaks=seq(0,500,20), expand=c(0,0)) +\n  facet_grid(.~adapter)\ng_adapters_raw\n\n\n\n\n\n\nCode# Visualize quality\ng_quality_base_raw &lt;- g_qual_raw +\n  geom_hline(yintercept=25, linetype=\"dashed\", color=\"red\") +\n  geom_hline(yintercept=30, linetype=\"dashed\", color=\"red\") +\n  geom_line(aes(x=position, y=mean_phred_score), data=quality_base_stats_raw) +\n  scale_y_continuous(name=\"Mean Phred score\", expand=c(0,0), limits=c(10,45)) +\n  scale_x_continuous(name=\"Position\", limits=c(0,NA),\n                     breaks=seq(0,500,20), expand=c(0,0))\ng_quality_base_raw\n\n\n\n\n\n\nCodeg_quality_seq_raw &lt;- g_qual_raw +\n  geom_vline(xintercept=25, linetype=\"dashed\", color=\"red\") +\n  geom_vline(xintercept=30, linetype=\"dashed\", color=\"red\") +\n  geom_line(aes(x=mean_phred_score, y=n_sequences), data=quality_seq_stats_raw) +\n  scale_x_continuous(name=\"Mean Phred score\", expand=c(0,0)) +\n  scale_y_continuous(name=\"# Sequences\", expand=c(0,0))\ng_quality_seq_raw\n\n\n\n\n\n\n\nPreprocessing\nThe average fraction of reads lost at each stage in the preprocessing pipeline is shown in the following table. As expected given the observed difference in duplication levels, many more reads were lost during deduplication in liquid samples than sludge samples. Conversely, trimming and filtering consistently removed more reads in sludge than in liquid samples, though the effect was less dramatic than for deduplication. Very few reads were lost during ribodepletion, as expected for DNA sequencing libraries.\n\nCoden_reads_rel &lt;- basic_stats %&gt;% \n  select(sample, sample_type_short, date, stage, \n         percent_duplicates, n_read_pairs) %&gt;%\n  group_by(sample) %&gt;% arrange(sample, stage) %&gt;%\n  mutate(p_reads_retained = replace_na(n_read_pairs / lag(n_read_pairs), 0),\n         p_reads_lost = 1 - p_reads_retained,\n         p_reads_retained_abs = n_read_pairs / n_read_pairs[1],\n         p_reads_lost_abs = 1-p_reads_retained_abs,\n         p_reads_lost_abs_marginal = replace_na(p_reads_lost_abs - lag(p_reads_lost_abs), 0))\nn_reads_rel_display &lt;- n_reads_rel %&gt;% \n  group_by(`Sample Type`=sample_type_short, Stage=stage) %&gt;% \n  summarize(`% Total Reads Lost (Cumulative)` = paste0(round(min(p_reads_lost_abs*100),1), \"-\", round(max(p_reads_lost_abs*100),1), \" (mean \", round(mean(p_reads_lost_abs*100),1), \")\"),\n            `% Total Reads Lost (Marginal)` = paste0(round(min(p_reads_lost_abs_marginal*100),1), \"-\", round(max(p_reads_lost_abs_marginal*100),1), \" (mean \", round(mean(p_reads_lost_abs_marginal*100),1), \")\"), .groups=\"drop\") %&gt;% \n  filter(Stage != \"raw_concat\") %&gt;%\n  mutate(Stage = Stage %&gt;% as.numeric %&gt;% factor(labels=c(\"Trimming & filtering\", \"Deduplication\", \"Initial ribodepletion\", \"Secondary ribodepletion\")))\nn_reads_rel_display\n\n\n  \n\n\n\n\nCodeg_stage_base &lt;- ggplot(mapping=aes(x=stage, color=sample_type_short, group=sample)) +\n  scale_color_st() +\n  theme_kit\n\n# Plot reads over preprocessing\ng_reads_stages &lt;- g_stage_base +\n  geom_line(aes(y=n_read_pairs), data=basic_stats) +\n  scale_y_continuous(\"# Read pairs\", expand=c(0,0), limits=c(0,NA))\ng_reads_stages\n\n\n\n\n\n\nCode# Plot relative read losses during preprocessing\ng_reads_rel &lt;- g_stage_base +\n  geom_line(aes(y=p_reads_lost_abs_marginal), data=n_reads_rel) +\n  scale_y_continuous(\"% Total Reads Lost\", expand=c(0,0), \n                     labels = function(x) x*100)\ng_reads_rel\n\n\n\n\n\n\n\nData cleaning was very successful at removing adapters and improving read qualities:\n\nCodeg_qual &lt;- ggplot(mapping=aes(color=sample_type_short, linetype=read_pair, \n                         group=interaction(sample,read_pair))) + \n  scale_color_st() + scale_linetype_discrete(name = \"Read Pair\") +\n  guides(color=guide_legend(nrow=2,byrow=TRUE),\n         linetype = guide_legend(nrow=2,byrow=TRUE)) +\n  theme_base\n\n# Visualize adapters\ng_adapters &lt;- g_qual + \n  geom_line(aes(x=position, y=pc_adapters), data=adapter_stats) +\n  scale_y_continuous(name=\"% Adapters\", limits=c(0,20),\n                     breaks = seq(0,50,10), expand=c(0,0)) +\n  scale_x_continuous(name=\"Position\", limits=c(0,NA),\n                     breaks=seq(0,140,20), expand=c(0,0)) +\n  facet_grid(stage~adapter)\ng_adapters\n\n\n\n\n\n\nCode# Visualize quality\ng_quality_base &lt;- g_qual +\n  geom_hline(yintercept=25, linetype=\"dashed\", color=\"red\") +\n  geom_hline(yintercept=30, linetype=\"dashed\", color=\"red\") +\n  geom_line(aes(x=position, y=mean_phred_score), data=quality_base_stats) +\n  scale_y_continuous(name=\"Mean Phred score\", expand=c(0,0), limits=c(10,45)) +\n  scale_x_continuous(name=\"Position\", limits=c(0,NA),\n                     breaks=seq(0,140,20), expand=c(0,0)) +\n  facet_grid(stage~.)\ng_quality_base\n\n\n\n\n\n\nCodeg_quality_seq &lt;- g_qual +\n  geom_vline(xintercept=25, linetype=\"dashed\", color=\"red\") +\n  geom_vline(xintercept=30, linetype=\"dashed\", color=\"red\") +\n  geom_line(aes(x=mean_phred_score, y=n_sequences), data=quality_seq_stats) +\n  scale_x_continuous(name=\"Mean Phred score\", expand=c(0,0)) +\n  scale_y_continuous(name=\"# Sequences\", expand=c(0,0)) +\n  facet_grid(stage~.)\ng_quality_seq\n\n\n\n\n\n\n\nAccording to FASTQC, cleaning + deduplication was very effective at reducing measured duplicate levels, which fell from an average of 31% to 6.5%:\n\nCodestage_dup &lt;- basic_stats %&gt;% group_by(stage) %&gt;% \n  summarize(dmin = min(percent_duplicates), dmax=max(percent_duplicates),\n            dmean=mean(percent_duplicates), .groups = \"drop\")\n\ng_dup_stages &lt;- g_stage_base +\n  geom_line(aes(y=percent_duplicates), data=basic_stats) +\n  scale_y_continuous(\"% Duplicates\", limits=c(0,NA), expand=c(0,0))\ng_dup_stages\n\n\n\n\n\n\nCodeg_readlen_stages &lt;- g_stage_base + \n  geom_line(aes(y=mean_seq_len), data=basic_stats) +\n  scale_y_continuous(\"Mean read length (nt)\", expand=c(0,0), limits=c(0,NA))\ng_readlen_stages\n\n\n\n\n\n\n\nHigh-level composition\nAs before, to assess the high-level composition of the reads, I ran the ribodepleted files through Kraken (using the Standard 16 database) and summarized the results with Bracken. Combining these results with the read counts above gives us a breakdown of the inferred composition of the samples:\n\nCodeclassifications &lt;- c(\"Filtered\", \"Duplicate\", \"Ribosomal\", \"Unassigned\",\n                     \"Bacterial\", \"Archaeal\", \"Viral\", \"Human\")\n\n# Import composition data\ncomp_path &lt;- file.path(data_dir, \"taxonomic_composition.tsv.gz\")\ncomp &lt;- read_tsv(comp_path, show_col_types = FALSE) %&gt;%\n  left_join(libraries, by=\"sample\") %&gt;%\n  mutate(classification = factor(classification, levels = classifications))\n  \n\n# Summarize composition\nread_comp_summ &lt;- comp %&gt;% \n  group_by(sample_type_short, classification) %&gt;%\n  summarize(n_reads = sum(n_reads), .groups = \"drop_last\") %&gt;%\n  mutate(n_reads = replace_na(n_reads,0),\n    p_reads = n_reads/sum(n_reads),\n    pc_reads = p_reads*100)\n\n\n\nCode# Prepare plotting templates\ng_comp_base &lt;- ggplot(mapping=aes(x=sample, y=p_reads, fill=classification)) +\n  facet_wrap(~sample_type_short, scales = \"free_x\", ncol=3,\n             labeller = label_wrap_gen(multi_line=FALSE, width=20)) +\n  theme_xblank\nscale_y_pc_reads &lt;- purrr::partial(scale_y_continuous, name = \"% Reads\",\n                                   expand = c(0,0), labels = function(y) y*100)\n\n# Plot overall composition\ng_comp &lt;- g_comp_base + geom_col(data = comp, position = \"stack\", width=1) +\n  scale_y_pc_reads(limits = c(0,1.01), breaks = seq(0,1,0.2)) +\n  scale_fill_brewer(palette = \"Set1\", name = \"Classification\")\ng_comp\n\n\n\n\n\n\nCode# Plot composition of minor components\ncomp_minor &lt;- comp %&gt;% \n  filter(classification %in% c(\"Archaeal\", \"Viral\", \"Human\", \"Other\"))\npalette_minor &lt;- brewer.pal(9, \"Set1\")[6:9]\ng_comp_minor &lt;- g_comp_base + \n  geom_col(data=comp_minor, position = \"stack\", width=1) +\n  scale_y_pc_reads() +\n  scale_fill_manual(values=palette_minor, name = \"Classification\")\ng_comp_minor\n\n\n\n\n\n\n\n\nCodep_reads_summ_group &lt;- comp %&gt;%\n  mutate(classification = ifelse(classification %in% c(\"Filtered\", \"Duplicate\", \"Unassigned\"), \"Excluded\", as.character(classification)),\n         classification = fct_inorder(classification)) %&gt;%\n  group_by(classification, sample, sample_type_short) %&gt;%\n  summarize(p_reads = sum(p_reads), .groups = \"drop\") %&gt;%\n  group_by(classification, sample_type_short) %&gt;%\n  summarize(pc_min = min(p_reads)*100, pc_max = max(p_reads)*100, \n            pc_mean = mean(p_reads)*100, .groups = \"drop\")\np_reads_summ_prep &lt;- p_reads_summ_group %&gt;%\n  mutate(classification = fct_inorder(classification),\n         pc_min = pc_min %&gt;% signif(digits=2) %&gt;% sapply(format, scientific=FALSE, trim=TRUE, digits=2),\n         pc_max = pc_max %&gt;% signif(digits=2) %&gt;% sapply(format, scientific=FALSE, trim=TRUE, digits=2),\n         pc_mean = pc_mean %&gt;% signif(digits=2) %&gt;% sapply(format, scientific=FALSE, trim=TRUE, digits=2),\n         display = paste0(pc_min, \"-\", pc_max, \"% (mean \", pc_mean, \"%)\"))\np_reads_summ &lt;- p_reads_summ_prep %&gt;%\n  select(`Sample Type`=sample_type_short, Classification=classification, \n         `Read Fraction`=display) %&gt;%\n  arrange(`Sample Type`, Classification)\np_reads_summ\n\n\n  \n\n\n\nAs in previous DNA datasets, the vast majority of classified reads were bacterial in origin. The fraction of virus reads varied substantially between sample types, averaging &lt;0.01% in influent and final effluent but closer to 0.05% in other sample types. Interestingly (though not particularly relevantly for this analysis), the fraction of archaeal reads was much higher in influent than other sample types, in contrast to Bengtsson-Palme where it was highest in sludge.\nAs is common for DNA data, viral reads were overwhelmingly dominated by Caudoviricetes phages, though one wet-well sample contained a substantial fraction of Alsuviricetes (a class of mainly plant pathogens that includes Virgaviridae):\n\nCode# Get Kraken reports\nreports_path &lt;- file.path(data_dir, \"kraken_reports.tsv.gz\")\nreports &lt;- read_tsv(reports_path, show_col_types = FALSE)\n\n# Get viral taxonomy\nviral_taxa_path &lt;- file.path(data_dir, \"viral-taxids.tsv.gz\")\nviral_taxa &lt;- read_tsv(viral_taxa_path, show_col_types = FALSE)\n\n# Filter to viral taxa\nkraken_reports_viral &lt;- filter(reports, taxid %in% viral_taxa$taxid) %&gt;%\n  group_by(sample) %&gt;%\n  mutate(p_reads_viral = n_reads_clade/n_reads_clade[1])\nkraken_reports_viral_cleaned &lt;- kraken_reports_viral %&gt;%\n  inner_join(libraries, by=\"sample\") %&gt;%\n  select(-pc_reads_total, -n_reads_direct, -contains(\"minimizers\")) %&gt;%\n  select(name, taxid, p_reads_viral, n_reads_clade, everything())\n\nviral_classes &lt;- kraken_reports_viral_cleaned %&gt;% filter(rank == \"C\")\nviral_families &lt;- kraken_reports_viral_cleaned %&gt;% filter(rank == \"F\")\n\n\n\nCodemajor_threshold &lt;- 0.02\n\n# Identify major viral classes\nviral_classes_major_tab &lt;- viral_classes %&gt;% \n  group_by(name, taxid) %&gt;%\n  summarize(p_reads_viral_max = max(p_reads_viral), .groups=\"drop\") %&gt;%\n  filter(p_reads_viral_max &gt;= major_threshold)\nviral_classes_major_list &lt;- viral_classes_major_tab %&gt;% pull(name)\nviral_classes_major &lt;- viral_classes %&gt;% \n  filter(name %in% viral_classes_major_list) %&gt;%\n  select(name, taxid, sample, sample_type_short, date, p_reads_viral)\nviral_classes_minor &lt;- viral_classes_major %&gt;% \n  group_by(sample, sample_type_short, date) %&gt;%\n  summarize(p_reads_viral_major = sum(p_reads_viral), .groups = \"drop\") %&gt;%\n  mutate(name = \"Other\", taxid=NA, p_reads_viral = 1-p_reads_viral_major) %&gt;%\n  select(name, taxid, sample, sample_type_short, date, p_reads_viral)\nviral_classes_display &lt;- bind_rows(viral_classes_major, viral_classes_minor) %&gt;%\n  arrange(desc(p_reads_viral)) %&gt;% \n  mutate(name = factor(name, levels=c(viral_classes_major_list, \"Other\")),\n         p_reads_viral = pmax(p_reads_viral, 0)) %&gt;%\n  rename(p_reads = p_reads_viral, classification=name)\n\npalette_viral &lt;- c(brewer.pal(12, \"Set3\"), brewer.pal(8, \"Dark2\"))\ng_classes &lt;- g_comp_base + \n  geom_col(data=viral_classes_display, position = \"stack\", width=1) +\n  scale_y_continuous(name=\"% Viral Reads\", limits=c(0,1.01), breaks = seq(0,1,0.2),\n                     expand=c(0,0), labels = function(y) y*100) +\n  scale_fill_manual(values=palette_viral, name = \"Viral class\")\n  \ng_classes\n\n\n\n\n\n\n\nHuman-infecting virus reads: validation\nNext, I investigated the human-infecting virus read content of these unenriched samples. A grand total of 527 reads were identified as putatively human-viral, with half of samples showing 5 or fewer total HV read pairs.\n\nCode# Import HV read data\nhv_reads_filtered_path &lt;- file.path(data_dir, \"hv_hits_putative_filtered.tsv.gz\")\nhv_reads_filtered &lt;- lapply(hv_reads_filtered_path, read_tsv,\n                            show_col_types = FALSE) %&gt;%\n  bind_rows() %&gt;%\n  left_join(libraries, by=\"sample\")\n\n# Count reads\nn_hv_filtered &lt;- hv_reads_filtered %&gt;%\n  group_by(sample, date, sample_type_short, seq_id) %&gt;% count %&gt;%\n  group_by(sample, date, sample_type_short) %&gt;% count %&gt;% \n  inner_join(basic_stats %&gt;% filter(stage == \"ribo_initial\") %&gt;% \n               select(sample, n_read_pairs), by=\"sample\") %&gt;% \n  rename(n_putative = n, n_total = n_read_pairs) %&gt;% \n  mutate(p_reads = n_putative/n_total, pc_reads = p_reads * 100)\nn_hv_filtered_summ &lt;- n_hv_filtered %&gt;% ungroup %&gt;%\n  summarize(n_putative = sum(n_putative), n_total = sum(n_total), \n            .groups=\"drop\") %&gt;% \n  mutate(p_reads = n_putative/n_total, pc_reads = p_reads*100)\n\n\n\nCode# Collapse multi-entry sequences\nrmax &lt;- purrr::partial(max, na.rm = TRUE)\ncollapse &lt;- function(x) ifelse(all(x == x[1]), x[1], paste(x, collapse=\"/\"))\nmrg &lt;- hv_reads_filtered %&gt;% \n  mutate(adj_score_max = pmax(adj_score_fwd, adj_score_rev, na.rm = TRUE)) %&gt;%\n  arrange(desc(adj_score_max)) %&gt;%\n  group_by(seq_id) %&gt;%\n  summarize(sample = collapse(sample),\n            genome_id = collapse(genome_id),\n            taxid_best = taxid[1],\n            taxid = collapse(as.character(taxid)),\n            best_alignment_score_fwd = rmax(best_alignment_score_fwd),\n            best_alignment_score_rev = rmax(best_alignment_score_rev),\n            query_len_fwd = rmax(query_len_fwd),\n            query_len_rev = rmax(query_len_rev),\n            query_seq_fwd = query_seq_fwd[!is.na(query_seq_fwd)][1],\n            query_seq_rev = query_seq_rev[!is.na(query_seq_rev)][1],\n            classified = rmax(classified),\n            assigned_name = collapse(assigned_name),\n            assigned_taxid_best = assigned_taxid[1],\n            assigned_taxid = collapse(as.character(assigned_taxid)),\n            assigned_hv = rmax(assigned_hv),\n            hit_hv = rmax(hit_hv),\n            encoded_hits = collapse(encoded_hits),\n            adj_score_fwd = rmax(adj_score_fwd),\n            adj_score_rev = rmax(adj_score_rev)\n            ) %&gt;%\n  inner_join(libraries, by=\"sample\") %&gt;%\n  mutate(kraken_label = ifelse(assigned_hv, \"Kraken2 HV\\nassignment\",\n                               ifelse(hit_hv, \"Kraken2 HV\\nhit\",\n                                      \"No hit or\\nassignment\"))) %&gt;%\n  mutate(adj_score_max = pmax(adj_score_fwd, adj_score_rev),\n         highscore = adj_score_max &gt;= 20)\n\n# Plot results\ngeom_vhist &lt;- purrr::partial(geom_histogram, binwidth=5, boundary=0)\ng_vhist_base &lt;- ggplot(mapping=aes(x=adj_score_max)) +\n  geom_vline(xintercept=20, linetype=\"dashed\", color=\"red\") +\n  facet_wrap(~kraken_label, labeller = labeller(kit = label_wrap_gen(20)), scales = \"free_y\") +\n  scale_x_continuous(name = \"Maximum adjusted alignment score\") + \n  scale_y_continuous(name=\"# Read pairs\") + \n  theme_base \ng_vhist_0 &lt;- g_vhist_base + geom_vhist(data=mrg)\ng_vhist_0\n\n\n\n\n\n\n\nBLASTing these reads against nt, we find that the pipeline performs well, with only a single high-scoring false-positive read:\n\nCode# Import paired BLAST results\nblast_paired_path &lt;- file.path(data_dir, \"hv_hits_blast_paired.tsv.gz\")\nblast_paired &lt;- read_tsv(blast_paired_path, show_col_types = FALSE)\n\n# Add viral status\nblast_viral &lt;- mutate(blast_paired, viral = staxid %in% viral_taxa$taxid) %&gt;%\n  mutate(viral_full = viral & n_reads == 2)\n\n# Compare to Kraken & Bowtie assignments\nmatch_taxid &lt;- function(taxid_1, taxid_2){\n  p1 &lt;- mapply(grepl, paste0(\"/\", taxid_1, \"$\"), taxid_2)\n  p2 &lt;- mapply(grepl, paste0(\"^\", taxid_1, \"/\"), taxid_2)\n  p3 &lt;- mapply(grepl, paste0(\"^\", taxid_1, \"$\"), taxid_2)\n  out &lt;- setNames(p1|p2|p3, NULL)\n  return(out)\n}\nmrg_assign &lt;- mrg %&gt;% select(sample, seq_id, taxid, assigned_taxid, adj_score_max)\nblast_assign &lt;- inner_join(blast_viral, mrg_assign, by=\"seq_id\") %&gt;%\n    mutate(taxid_match_bowtie = match_taxid(staxid, taxid),\n           taxid_match_kraken = match_taxid(staxid, assigned_taxid),\n           taxid_match_any = taxid_match_bowtie | taxid_match_kraken)\nblast_out &lt;- blast_assign %&gt;%\n  group_by(seq_id) %&gt;%\n  summarize(viral_status = ifelse(any(viral_full), 2,\n                                  ifelse(any(taxid_match_any), 2,\n                                             ifelse(any(viral), 1, 0))),\n            .groups = \"drop\")\n\n\n\nCode# Merge BLAST results with unenriched read data\nmrg_blast &lt;- full_join(mrg, blast_out, by=\"seq_id\") %&gt;%\n  mutate(viral_status = replace_na(viral_status, 0),\n         viral_status_out = ifelse(viral_status == 0, FALSE, TRUE))\n\n# Plot\ng_vhist_1 &lt;- g_vhist_base + geom_vhist(data=mrg_blast, mapping=aes(fill=viral_status_out)) +\n  scale_fill_brewer(palette = \"Set1\", name = \"Viral status\")\ng_vhist_1\n\n\n\n\n\n\n\nMy usual disjunctive score threshold of 20 gave precision, sensitivity, and F1 scores all &gt;97%:\n\nCodetest_sens_spec &lt;- function(tab, score_threshold){\n  tab_retained &lt;- tab %&gt;% \n    mutate(retain_score = (adj_score_fwd &gt; score_threshold | adj_score_rev &gt; score_threshold),\n           retain = assigned_hv | retain_score) %&gt;%\n    group_by(viral_status_out, retain) %&gt;% count\n  pos_tru &lt;- tab_retained %&gt;% filter(viral_status_out == \"TRUE\", retain) %&gt;% pull(n) %&gt;% sum\n  pos_fls &lt;- tab_retained %&gt;% filter(viral_status_out != \"TRUE\", retain) %&gt;% pull(n) %&gt;% sum\n  neg_tru &lt;- tab_retained %&gt;% filter(viral_status_out != \"TRUE\", !retain) %&gt;% pull(n) %&gt;% sum\n  neg_fls &lt;- tab_retained %&gt;% filter(viral_status_out == \"TRUE\", !retain) %&gt;% pull(n) %&gt;% sum\n  sensitivity &lt;- pos_tru / (pos_tru + neg_fls)\n  specificity &lt;- neg_tru / (neg_tru + pos_fls)\n  precision   &lt;- pos_tru / (pos_tru + pos_fls)\n  f1 &lt;- 2 * precision * sensitivity / (precision + sensitivity)\n  out &lt;- tibble(threshold=score_threshold, sensitivity=sensitivity, \n                specificity=specificity, precision=precision, f1=f1)\n  return(out)\n}\nrange_f1 &lt;- function(intab, inrange=15:45){\n  tss &lt;- purrr::partial(test_sens_spec, tab=intab)\n  stats &lt;- lapply(inrange, tss) %&gt;% bind_rows %&gt;%\n    pivot_longer(!threshold, names_to=\"metric\", values_to=\"value\")\n  return(stats)\n}\nstats_0 &lt;- range_f1(mrg_blast)\ng_stats_0 &lt;- ggplot(stats_0, aes(x=threshold, y=value, color=metric)) +\n  geom_vline(xintercept=20, color = \"red\", linetype = \"dashed\") +\n  geom_line() +\n  scale_y_continuous(name = \"Value\", limits=c(0,1), breaks = seq(0,1,0.2), expand = c(0,0)) +\n  scale_x_continuous(name = \"Adjusted Score Threshold\", expand = c(0,0)) +\n  scale_color_brewer(palette=\"Dark2\") +\n  theme_base\ng_stats_0\n\n\n\n\n\n\nCodestats_0 %&gt;% filter(threshold == 20) %&gt;% \n  select(Threshold=threshold, Metric=metric, Value=value)\n\n\n  \n\n\n\nHuman-infecting viruses: overall relative abundance\n\nCode# Get raw read counts\nread_counts_raw &lt;- basic_stats_raw %&gt;%\n  select(sample, sample_type_short, date, n_reads_raw = n_read_pairs)\n\n# Get HV read counts\nmrg_hv &lt;- mrg %&gt;% mutate(hv_status = assigned_hv | highscore) %&gt;%\n  rename(taxid_all = taxid, taxid = taxid_best)\nread_counts_hv &lt;- mrg_hv %&gt;% filter(hv_status) %&gt;% group_by(sample) %&gt;% \n  count(name=\"n_reads_hv\")\nread_counts &lt;- read_counts_raw %&gt;% left_join(read_counts_hv, by=\"sample\") %&gt;%\n  mutate(n_reads_hv = replace_na(n_reads_hv, 0))\n\n# Aggregate\nread_counts_grp &lt;- read_counts %&gt;% group_by(date, sample_type_short) %&gt;%\n  summarize(n_reads_raw = sum(n_reads_raw),\n            n_reads_hv = sum(n_reads_hv), .groups=\"drop\") %&gt;%\n  mutate(sample= \"All samples\")\nread_counts_st &lt;- read_counts_grp %&gt;% group_by(sample, sample_type_short) %&gt;%\n  summarize(n_reads_raw = sum(n_reads_raw),\n            n_reads_hv = sum(n_reads_hv), .groups=\"drop\") %&gt;%\n  mutate(date = \"All dates\")\nread_counts_date &lt;- read_counts_grp %&gt;%\n  group_by(sample, date) %&gt;%\n  summarize(n_reads_raw = sum(n_reads_raw),\n            n_reads_hv = sum(n_reads_hv), .groups=\"drop\") %&gt;%\n  mutate(sample_type_short = \"All sample types\")\nread_counts_tot &lt;- read_counts_date %&gt;% group_by(sample, sample_type_short) %&gt;%\n  summarize(n_reads_raw = sum(n_reads_raw),\n            n_reads_hv = sum(n_reads_hv), .groups=\"drop\") %&gt;%\n  mutate(date = \"All dates\")\nread_counts_agg &lt;- bind_rows(read_counts_grp, read_counts_st,\n                             read_counts_date, read_counts_tot) %&gt;%\n  mutate(p_reads_hv = n_reads_hv/n_reads_raw,\n         date = factor(date, levels = c(levels(libraries$date), \"All dates\")),\n         sample_type_short = factor(sample_type_short, levels = c(levels(libraries$sample_type_short), \"All sample types\")))\n\n\nApplying a disjunctive cutoff at S=20 identifies 482 read pairs as human-viral. This gives an overall relative HV abundance of \\(2.90 \\times 10^{-7}\\); on the low end across all datasets I’ve analyzed, though higher than for Bengtsson-Palme:\n\nCode# Visualize\ng_phv_agg &lt;- ggplot(read_counts_agg, aes(x=date, color=sample_type_short)) +\n  geom_point(aes(y=p_reads_hv)) +\n  scale_y_log10(\"Relative abundance of human virus reads\") +\n  scale_color_st() + theme_kit\ng_phv_agg\n\n\n\n\n\n\n\n\nCode# Collate past RA values\nra_past &lt;- tribble(~dataset, ~ra, ~na_type, ~panel_enriched,\n                   \"Brumfield\", 5e-5, \"RNA\", FALSE,\n                   \"Brumfield\", 3.66e-7, \"DNA\", FALSE,\n                   \"Spurbeck\", 5.44e-6, \"RNA\", FALSE,\n                   \"Yang\", 3.62e-4, \"RNA\", FALSE,\n                   \"Rothman (unenriched)\", 1.87e-5, \"RNA\", FALSE,\n                   \"Rothman (panel-enriched)\", 3.3e-5, \"RNA\", TRUE,\n                   \"Crits-Christoph (unenriched)\", 1.37e-5, \"RNA\", FALSE,\n                   \"Crits-Christoph (panel-enriched)\", 1.26e-2, \"RNA\", TRUE,\n                   \"Prussin (non-control)\", 1.63e-5, \"RNA\", FALSE,\n                   \"Prussin (non-control)\", 4.16e-5, \"DNA\", FALSE,\n                   \"Rosario (non-control)\", 1.21e-5, \"RNA\", FALSE,\n                   \"Rosario (non-control)\", 1.50e-4, \"DNA\", FALSE,\n                   \"Leung\", 1.73e-5, \"DNA\", FALSE,\n                   \"Brinch\", 3.88e-6, \"DNA\", FALSE,\n                   \"Bengtsson-Palme\", 8.86e-8, \"DNA\", FALSE\n)\n\n# Collate new RA values\nra_new &lt;- tribble(~dataset, ~ra, ~na_type, ~panel_enriched,\n                  \"Ng\", 2.90e-7, \"DNA\", FALSE)\n\n\n# Plot\nscale_color_na &lt;- purrr::partial(scale_color_brewer, palette=\"Set1\",\n                                 name=\"Nucleic acid type\")\nra_comp &lt;- bind_rows(ra_past, ra_new) %&gt;% mutate(dataset = fct_inorder(dataset))\ng_ra_comp &lt;- ggplot(ra_comp, aes(y=dataset, x=ra, color=na_type)) +\n  geom_point() +\n  scale_color_na() +\n  scale_x_log10(name=\"Relative abundance of human virus reads\") +\n  theme_base + theme(axis.title.y = element_blank())\ng_ra_comp\n\n\n\n\n\n\n\nHuman-infecting viruses: taxonomy and composition\nIn investigating the taxonomy of human-infecting virus reads, I restricted my analysis to samples with more than 5 HV read pairs total across all viruses, to reduce noise arising from extremely low HV read counts in some samples. 13 samples met this criterion.\nAt the family level, most samples were overwhelmingly dominated by Adenoviridae, with Picornaviridae, Polyomaviridae and Papillomaviridae making up most of the rest:\n\nCode# Get viral taxon names for putative HV reads\nviral_taxa$name[viral_taxa$taxid == 249588] &lt;- \"Mamastrovirus\"\nviral_taxa$name[viral_taxa$taxid == 194960] &lt;- \"Kobuvirus\"\nviral_taxa$name[viral_taxa$taxid == 688449] &lt;- \"Salivirus\"\nviral_taxa$name[viral_taxa$taxid == 585893] &lt;- \"Picobirnaviridae\"\nviral_taxa$name[viral_taxa$taxid == 333922] &lt;- \"Betapapillomavirus\"\nviral_taxa$name[viral_taxa$taxid == 334207] &lt;- \"Betapapillomavirus 3\"\nviral_taxa$name[viral_taxa$taxid == 369960] &lt;- \"Porcine type-C oncovirus\"\nviral_taxa$name[viral_taxa$taxid == 333924] &lt;- \"Betapapillomavirus 2\"\nviral_taxa$name[viral_taxa$taxid == 687329] &lt;- \"Anelloviridae\"\nviral_taxa$name[viral_taxa$taxid == 325455] &lt;- \"Gammapapillomavirus\"\nviral_taxa$name[viral_taxa$taxid == 333750] &lt;- \"Alphapapillomavirus\"\nviral_taxa$name[viral_taxa$taxid == 694002] &lt;- \"Betacoronavirus\"\nviral_taxa$name[viral_taxa$taxid == 334202] &lt;- \"Mupapillomavirus\"\nviral_taxa$name[viral_taxa$taxid == 197911] &lt;- \"Alphainfluenzavirus\"\nviral_taxa$name[viral_taxa$taxid == 186938] &lt;- \"Respirovirus\"\nviral_taxa$name[viral_taxa$taxid == 333926] &lt;- \"Gammapapillomavirus 1\"\nviral_taxa$name[viral_taxa$taxid == 337051] &lt;- \"Betapapillomavirus 1\"\nviral_taxa$name[viral_taxa$taxid == 337043] &lt;- \"Alphapapillomavirus 4\"\nviral_taxa$name[viral_taxa$taxid == 694003] &lt;- \"Betacoronavirus 1\"\nviral_taxa$name[viral_taxa$taxid == 334204] &lt;- \"Mupapillomavirus 2\"\nviral_taxa$name[viral_taxa$taxid == 334208] &lt;- \"Betapapillomavirus 4\"\nviral_taxa$name[viral_taxa$taxid == 333928] &lt;- \"Gammapapillomavirus 2\"\nviral_taxa$name[viral_taxa$taxid == 337039] &lt;- \"Alphapapillomavirus 2\"\nviral_taxa$name[viral_taxa$taxid == 333929] &lt;- \"Gammapapillomavirus 3\"\nviral_taxa$name[viral_taxa$taxid == 337042] &lt;- \"Alphapapillomavirus 7\"\nviral_taxa$name[viral_taxa$taxid == 334203] &lt;- \"Mupapillomavirus 1\"\nviral_taxa$name[viral_taxa$taxid == 333757] &lt;- \"Alphapapillomavirus 8\"\nviral_taxa$name[viral_taxa$taxid == 337050] &lt;- \"Alphapapillomavirus 6\"\nviral_taxa$name[viral_taxa$taxid == 333767] &lt;- \"Alphapapillomavirus 3\"\nviral_taxa$name[viral_taxa$taxid == 333754] &lt;- \"Alphapapillomavirus 10\"\nviral_taxa$name[viral_taxa$taxid == 687363] &lt;- \"Torque teno virus 24\"\nviral_taxa$name[viral_taxa$taxid == 687342] &lt;- \"Torque teno virus 3\"\nviral_taxa$name[viral_taxa$taxid == 687359] &lt;- \"Torque teno virus 20\"\nviral_taxa$name[viral_taxa$taxid == 194441] &lt;- \"Primate T-lymphotropic virus 2\"\nviral_taxa$name[viral_taxa$taxid == 334209] &lt;- \"Betapapillomavirus 5\"\nviral_taxa$name[viral_taxa$taxid == 194965] &lt;- \"Aichivirus B\"\nviral_taxa$name[viral_taxa$taxid == 333930] &lt;- \"Gammapapillomavirus 4\"\nviral_taxa$name[viral_taxa$taxid == 337048] &lt;- \"Alphapapillomavirus 1\"\nviral_taxa$name[viral_taxa$taxid == 337041] &lt;- \"Alphapapillomavirus 9\"\nviral_taxa$name[viral_taxa$taxid == 337049] &lt;- \"Alphapapillomavirus 11\"\nviral_taxa$name[viral_taxa$taxid == 337044] &lt;- \"Alphapapillomavirus 5\"\n\n# Filter samples and add viral taxa information\nsamples_keep &lt;- read_counts %&gt;% filter(n_reads_hv &gt; 5) %&gt;% pull(sample)\nmrg_hv_named &lt;- mrg_hv %&gt;% filter(sample %in% samples_keep, hv_status) %&gt;% left_join(viral_taxa, by=\"taxid\") \n\n# Discover viral species & genera for HV reads\nraise_rank &lt;- function(read_db, taxid_db, out_rank = \"species\", verbose = FALSE){\n  # Get higher ranks than search rank\n  ranks &lt;- c(\"subspecies\", \"species\", \"subgenus\", \"genus\", \"subfamily\", \"family\", \"suborder\", \"order\", \"class\", \"subphylum\", \"phylum\", \"kingdom\", \"superkingdom\")\n  rank_match &lt;- which.max(ranks == out_rank)\n  high_ranks &lt;- ranks[rank_match:length(ranks)]\n  # Merge read DB and taxid DB\n  reads &lt;- read_db %&gt;% select(-parent_taxid, -rank, -name) %&gt;%\n    left_join(taxid_db, by=\"taxid\")\n  # Extract sequences that are already at appropriate rank\n  reads_rank &lt;- filter(reads, rank == out_rank)\n  # Drop sequences at a higher rank and return unclassified sequences\n  reads_norank &lt;- reads %&gt;% filter(rank != out_rank, !rank %in% high_ranks, !is.na(taxid))\n  while(nrow(reads_norank) &gt; 0){ # As long as there are unclassified sequences...\n    # Promote read taxids and re-merge with taxid DB, then re-classify and filter\n    reads_remaining &lt;- reads_norank %&gt;% mutate(taxid = parent_taxid) %&gt;%\n      select(-parent_taxid, -rank, -name) %&gt;%\n      left_join(taxid_db, by=\"taxid\")\n    reads_rank &lt;- reads_remaining %&gt;% filter(rank == out_rank) %&gt;%\n      bind_rows(reads_rank)\n    reads_norank &lt;- reads_remaining %&gt;%\n      filter(rank != out_rank, !rank %in% high_ranks, !is.na(taxid))\n  }\n  # Finally, extract and append reads that were excluded during the process\n  reads_dropped &lt;- reads %&gt;% filter(!seq_id %in% reads_rank$seq_id)\n  reads_out &lt;- reads_rank %&gt;% bind_rows(reads_dropped) %&gt;%\n    select(-parent_taxid, -rank, -name) %&gt;%\n    left_join(taxid_db, by=\"taxid\")\n  return(reads_out)\n}\nhv_reads_species &lt;- raise_rank(mrg_hv_named, viral_taxa, \"species\")\nhv_reads_genus &lt;- raise_rank(mrg_hv_named, viral_taxa, \"genus\")\nhv_reads_family &lt;- raise_rank(mrg_hv_named, viral_taxa, \"family\")\n\n\n\nCodethreshold_major_family &lt;- 0.02\n\n# Count reads for each human-viral family\nhv_family_counts &lt;- hv_reads_family %&gt;% \n  group_by(sample, date, sample_type_short, name, taxid) %&gt;%\n  count(name = \"n_reads_hv\") %&gt;%\n  group_by(sample, date, sample_type_short) %&gt;%\n  mutate(p_reads_hv = n_reads_hv/sum(n_reads_hv))\n\n# Identify high-ranking families and group others\nhv_family_major_tab &lt;- hv_family_counts %&gt;% group_by(name) %&gt;% \n  filter(p_reads_hv == max(p_reads_hv)) %&gt;% filter(row_number() == 1) %&gt;%\n  arrange(desc(p_reads_hv)) %&gt;% filter(p_reads_hv &gt; threshold_major_family)\nhv_family_counts_major &lt;- hv_family_counts %&gt;%\n  mutate(name_display = ifelse(name %in% hv_family_major_tab$name, name, \"Other\")) %&gt;%\n  group_by(sample, date, sample_type_short, name_display) %&gt;%\n  summarize(n_reads_hv = sum(n_reads_hv), p_reads_hv = sum(p_reads_hv), \n            .groups=\"drop\") %&gt;%\n  mutate(name_display = factor(name_display, \n                               levels = c(hv_family_major_tab$name, \"Other\")))\nhv_family_counts_display &lt;- hv_family_counts_major %&gt;%\n  rename(p_reads = p_reads_hv, classification = name_display)\n\n# Plot\ng_hv_family &lt;- g_comp_base + \n  geom_col(data=hv_family_counts_display, position = \"stack\") +\n  scale_y_continuous(name=\"% HV Reads\", limits=c(0,1.01), \n                     breaks = seq(0,1,0.2),\n                     expand=c(0,0), labels = function(y) y*100) +\n  scale_fill_manual(values=palette_viral, name = \"Viral family\") +\n  labs(title=\"Family composition of human-viral reads\") +\n  guides(fill=guide_legend(ncol=4)) +\n  theme(plot.title = element_text(size=rel(1.4), hjust=0, face=\"plain\"))\ng_hv_family\n\n\n\n\n\n\nCode# Get most prominent families for text\nhv_family_collate &lt;- hv_family_counts %&gt;% group_by(name, taxid) %&gt;% \n  summarize(n_reads_tot = sum(n_reads_hv),\n            p_reads_max = max(p_reads_hv), .groups=\"drop\") %&gt;% \n  arrange(desc(n_reads_tot))\n\n\nIn investigating individual viral families, to avoid distortions from a few rare reads, I restricted myself to samples where that family made up at least 10% of human-viral reads:\n\nCodethreshold_major_species &lt;- 0.05\ntaxid_adeno &lt;- 10508\n\n# Get set of adenoviridae reads\nadeno_samples &lt;- hv_family_counts %&gt;% filter(taxid == taxid_adeno) %&gt;%\n  filter(p_reads_hv &gt;= 0.1) %&gt;%\n  pull(sample)\nadeno_ids &lt;- hv_reads_family %&gt;% \n  filter(taxid == taxid_adeno, sample %in% adeno_samples) %&gt;%\n  pull(seq_id)\n\n# Count reads for each adenoviridae species\nadeno_species_counts &lt;- hv_reads_species %&gt;%\n  filter(seq_id %in% adeno_ids) %&gt;%\n  group_by(sample, date, sample_type_short, name, taxid) %&gt;%\n  count(name = \"n_reads_hv\") %&gt;%\n  group_by(sample, date, sample_type_short) %&gt;%\n  mutate(p_reads_adeno = n_reads_hv/sum(n_reads_hv))\n\n# Identify high-ranking families and group others\nadeno_species_major_tab &lt;- adeno_species_counts %&gt;% group_by(name) %&gt;% \n  filter(p_reads_adeno == max(p_reads_adeno)) %&gt;% \n  filter(row_number() == 1) %&gt;%\n  arrange(desc(p_reads_adeno)) %&gt;% \n  filter(p_reads_adeno &gt; threshold_major_species)\nadeno_species_counts_major &lt;- adeno_species_counts %&gt;%\n  mutate(name_display = ifelse(name %in% adeno_species_major_tab$name, \n                               name, \"Other\")) %&gt;%\n  group_by(sample, date, sample_type_short, name_display) %&gt;%\n  summarize(n_reads_adeno = sum(n_reads_hv),\n            p_reads_adeno = sum(p_reads_adeno), \n            .groups=\"drop\") %&gt;%\n  mutate(name_display = factor(name_display, \n                               levels = c(adeno_species_major_tab$name, \"Other\")))\nadeno_species_counts_display &lt;- adeno_species_counts_major %&gt;%\n  rename(p_reads = p_reads_adeno, classification = name_display)\n\n# Plot\ng_adeno_species &lt;- g_comp_base + \n  geom_col(data=adeno_species_counts_display, position = \"stack\") +\n  scale_y_continuous(name=\"% Adenoviridae Reads\", limits=c(0,1.01), \n                     breaks = seq(0,1,0.2),\n                     expand=c(0,0), labels = function(y) y*100) +\n  scale_fill_manual(values=palette_viral, name = \"Viral species\") +\n  labs(title=\"Species composition of Adenoviridae reads\") +\n  guides(fill=guide_legend(ncol=3)) +\n  theme(plot.title = element_text(size=rel(1.4), hjust=0, face=\"plain\"))\n\ng_adeno_species\n\n\n\n\n\n\nCode# Get most prominent species for text\nadeno_species_collate &lt;- adeno_species_counts %&gt;% group_by(name, taxid) %&gt;% \n  summarize(n_reads_tot = sum(n_reads_hv), p_reads_mean = mean(p_reads_adeno), .groups=\"drop\") %&gt;% \n  arrange(desc(n_reads_tot))\n\n\n\nCodethreshold_major_species &lt;- 0.1\ntaxid_picorna &lt;- 12058\n\n# Get set of picornaviridae reads\npicorna_samples &lt;- hv_family_counts %&gt;% filter(taxid == taxid_picorna) %&gt;%\n  filter(p_reads_hv &gt;= 0.1) %&gt;%\n  pull(sample)\npicorna_ids &lt;- hv_reads_family %&gt;% \n  filter(taxid == taxid_picorna, sample %in% picorna_samples) %&gt;%\n  pull(seq_id)\n\n# Count reads for each picornaviridae species\npicorna_species_counts &lt;- hv_reads_species %&gt;%\n  filter(seq_id %in% picorna_ids) %&gt;%\n  group_by(sample, date, sample_type_short, name, taxid) %&gt;%\n  count(name = \"n_reads_hv\") %&gt;%\n  group_by(sample, date, sample_type_short) %&gt;%\n  mutate(p_reads_picorna = n_reads_hv/sum(n_reads_hv))\n\n# Identify high-ranking families and group others\npicorna_species_major_tab &lt;- picorna_species_counts %&gt;% group_by(name) %&gt;% \n  filter(p_reads_picorna == max(p_reads_picorna)) %&gt;% \n  filter(row_number() == 1) %&gt;%\n  arrange(desc(p_reads_picorna)) %&gt;% \n  filter(p_reads_picorna &gt; threshold_major_species)\npicorna_species_counts_major &lt;- picorna_species_counts %&gt;%\n  mutate(name_display = ifelse(name %in% picorna_species_major_tab$name, \n                               name, \"Other\")) %&gt;%\n  group_by(sample, date, sample_type_short, name_display) %&gt;%\n  summarize(n_reads_picorna = sum(n_reads_hv),\n            p_reads_picorna = sum(p_reads_picorna), \n            .groups=\"drop\") %&gt;%\n  mutate(name_display = factor(name_display, \n                               levels = c(picorna_species_major_tab$name, \"Other\")))\npicorna_species_counts_display &lt;- picorna_species_counts_major %&gt;%\n  rename(p_reads = p_reads_picorna, classification = name_display)\n\n# Plot\ng_picorna_species &lt;- g_comp_base + \n  geom_col(data=picorna_species_counts_display, position = \"stack\") +\n  scale_y_continuous(name=\"% Picornaviridae Reads\", limits=c(0,1.01), \n                     breaks = seq(0,1,0.2),\n                     expand=c(0,0), labels = function(y) y*100) +\n  scale_fill_manual(values=palette_viral, name = \"Viral species\") +\n  labs(title=\"Species composition of Picornaviridae reads\") +\n  guides(fill=guide_legend(ncol=3)) +\n  theme(plot.title = element_text(size=rel(1.4), hjust=0, face=\"plain\"))\n\ng_picorna_species\n\n\n\n\n\n\nCode# Get most prominent species for text\npicorna_species_collate &lt;- picorna_species_counts %&gt;% group_by(name, taxid) %&gt;% \n  summarize(n_reads_tot = sum(n_reads_hv), p_reads_mean = mean(p_reads_picorna), .groups=\"drop\") %&gt;% \n  arrange(desc(n_reads_tot))\n\n\n\nCodethreshold_major_species &lt;- 0.1\ntaxid_polyoma &lt;- 151341\n\n# Get set of polyomaviridae reads\npolyoma_samples &lt;- hv_family_counts %&gt;% filter(taxid == taxid_polyoma) %&gt;%\n  filter(p_reads_hv &gt;= 0.1) %&gt;%\n  pull(sample)\npolyoma_ids &lt;- hv_reads_family %&gt;% \n  filter(taxid == taxid_polyoma, sample %in% polyoma_samples) %&gt;%\n  pull(seq_id)\n\n# Count reads for each polyomaviridae species\npolyoma_species_counts &lt;- hv_reads_species %&gt;%\n  filter(seq_id %in% polyoma_ids) %&gt;%\n  group_by(sample, date, sample_type_short, name, taxid) %&gt;%\n  count(name = \"n_reads_hv\") %&gt;%\n  group_by(sample, date, sample_type_short) %&gt;%\n  mutate(p_reads_polyoma = n_reads_hv/sum(n_reads_hv))\n\n# Identify high-ranking families and group others\npolyoma_species_major_tab &lt;- polyoma_species_counts %&gt;% group_by(name) %&gt;% \n  filter(p_reads_polyoma == max(p_reads_polyoma)) %&gt;% \n  filter(row_number() == 1) %&gt;%\n  arrange(desc(p_reads_polyoma)) %&gt;% \n  filter(p_reads_polyoma &gt; threshold_major_species)\npolyoma_species_counts_major &lt;- polyoma_species_counts %&gt;%\n  mutate(name_display = ifelse(name %in% polyoma_species_major_tab$name, \n                               name, \"Other\")) %&gt;%\n  group_by(sample, date, sample_type_short, name_display) %&gt;%\n  summarize(n_reads_polyoma = sum(n_reads_hv),\n            p_reads_polyoma = sum(p_reads_polyoma), \n            .groups=\"drop\") %&gt;%\n  mutate(name_display = factor(name_display, \n                               levels = c(polyoma_species_major_tab$name, \"Other\")))\npolyoma_species_counts_display &lt;- polyoma_species_counts_major %&gt;%\n  rename(p_reads = p_reads_polyoma, classification = name_display)\n\n# Plot\ng_polyoma_species &lt;- g_comp_base + \n  geom_col(data=polyoma_species_counts_display, position = \"stack\") +\n  scale_y_continuous(name=\"% Polyomaviridae Reads\", limits=c(0,1.01), \n                     breaks = seq(0,1,0.2),\n                     expand=c(0,0), labels = function(y) y*100) +\n  scale_fill_manual(values=palette_viral, name = \"Viral species\") +\n  labs(title=\"Species composition of Polyomaviridae reads\") +\n  guides(fill=guide_legend(ncol=3)) +\n  theme(plot.title = element_text(size=rel(1.4), hjust=0, face=\"plain\"))\n\ng_polyoma_species\n\n\n\n\n\n\nCode# Get most prominent species for text\npolyoma_species_collate &lt;- polyoma_species_counts %&gt;% group_by(name, taxid) %&gt;% \n  summarize(n_reads_tot = sum(n_reads_hv), p_reads_mean = mean(p_reads_polyoma), .groups=\"drop\") %&gt;% \n  arrange(desc(n_reads_tot))\n\n\nFinally, here again are the overall relative abundances of the specific viral genera I picked out manually in my last entry:\n\nCode# Define reference genera\npath_genera_rna &lt;- c(\"Mamastrovirus\", \"Enterovirus\", \"Salivirus\", \"Kobuvirus\", \"Norovirus\", \"Sapovirus\", \"Rotavirus\", \"Alphacoronavirus\", \"Betacoronavirus\", \"Alphainfluenzavirus\", \"Betainfluenzavirus\", \"Lentivirus\")\npath_genera_dna &lt;- c(\"Mastadenovirus\", \"Alphapolyomavirus\", \"Betapolyomavirus\", \"Alphapapillomavirus\", \"Betapapillomavirus\", \"Gammapapillomavirus\", \"Orthopoxvirus\", \"Simplexvirus\",\n                     \"Lymphocryptovirus\", \"Cytomegalovirus\", \"Dependoparvovirus\")\npath_genera &lt;- bind_rows(tibble(name=path_genera_rna, genome_type=\"RNA genome\"),\n                         tibble(name=path_genera_dna, genome_type=\"DNA genome\")) %&gt;%\n  left_join(viral_taxa, by=\"name\")\n\n# Count in each sample\nmrg_hv_named_all &lt;- mrg_hv %&gt;% left_join(viral_taxa, by=\"taxid\")\nhv_reads_genus_all &lt;- raise_rank(mrg_hv_named_all, viral_taxa, \"genus\")\nn_path_genera &lt;- hv_reads_genus_all %&gt;% \n  group_by(sample, date, sample_type_short, name, taxid) %&gt;% \n  count(name=\"n_reads_viral\") %&gt;% \n  inner_join(path_genera, by=c(\"name\", \"taxid\")) %&gt;%\n  left_join(read_counts_raw, by=c(\"sample\", \"date\", \"sample_type_short\")) %&gt;%\n  mutate(p_reads_viral = n_reads_viral/n_reads_raw)\n\n# Pivot out and back to add zero lines\nn_path_genera_out &lt;- n_path_genera %&gt;% ungroup %&gt;% select(sample, name, n_reads_viral) %&gt;%\n  pivot_wider(names_from=\"name\", values_from=\"n_reads_viral\", values_fill=0) %&gt;%\n  pivot_longer(-sample, names_to=\"name\", values_to=\"n_reads_viral\") %&gt;%\n  left_join(read_counts_raw, by=\"sample\") %&gt;%\n  left_join(path_genera, by=\"name\") %&gt;%\n  mutate(p_reads_viral = n_reads_viral/n_reads_raw)\n\n## Aggregate across dates\nn_path_genera_stype &lt;- n_path_genera_out %&gt;% \n  group_by(name, taxid, genome_type, sample_type_short) %&gt;%\n  summarize(n_reads_raw = sum(n_reads_raw),\n            n_reads_viral = sum(n_reads_viral), .groups = \"drop\") %&gt;%\n  mutate(sample=\"All samples\", location=\"All locations\",\n         p_reads_viral = n_reads_viral/n_reads_raw,\n         na_type = \"DNA\")\n\n# Plot\ng_path_genera &lt;- ggplot(n_path_genera_stype,\n                        aes(y=name, x=p_reads_viral, color=sample_type_short)) +\n  geom_point() +\n  scale_x_log10(name=\"Relative abundance\") +\n  scale_color_st() +\n  facet_grid(genome_type~., scales=\"free_y\") +\n  theme_base + theme(axis.title.y = element_blank())\ng_path_genera\n\n\n\n\n\n\n\nConclusion\nThis is another dataset with very low HV abundance, arising from lab methods intended to maximize bacterial abundance at the expense of other taxa. Nevertheless, this dataset had higher HV relative abundance than the last one. Interestingly, all three wastewater DNA datasets analyzed so far have exhibited a strong predominance of adenoviruses, and especially human mastadenovirus F, among human-infecting viruses. We’ll see if this pattern persists in the other DNA wastewater datasets I have in the queue."
+  },
+  {
+    "objectID": "notebooks/2024-05-01_maritz.html",
+    "href": "notebooks/2024-05-01_maritz.html",
+    "title": "Workflow analysis of Maritz et al. (2019)",
+    "section": "",
+    "text": "Continuing my analysis of datasets from the P2RA preprint, I analyzed the data from Maritz et al. (2019), a study that used DNA sequencing of wastewater samples to characterize protist diversity and temporal diversity in New York City. Samples for this study underwent direct DNA extraction without a dedicated concentration step, then underwent library prep and Illumina sequencing on a HiSeq Rapid Run (2x250bp).\nThe raw data\n16 samples were collected from 14 treatment plants in NYC in November 2014. These samples yielded 8.6M-18.3M (mean 10.8M) reads per sample, for a total of 172M read pairs (84 gigabases of sequence). Read qualities were mostly high; adapter levels were moderate; inferred duplication levels were low.\n\nCode# Importing the data is a bit more complicated this time as the samples are split across three pipeline runs\ndata_dir &lt;- \"../data/2024-05-01_maritz\"\n\n# Data input paths\nlibraries_path &lt;- file.path(data_dir, \"sample-metadata.csv\")\nbasic_stats_path &lt;- file.path(data_dir, \"qc_basic_stats.tsv.gz\")\nadapter_stats_path &lt;- file.path(data_dir, \"qc_adapter_stats.tsv.gz\")\nquality_base_stats_path &lt;- file.path(data_dir, \"qc_quality_base_stats.tsv.gz\")\nquality_seq_stats_path &lt;- file.path(data_dir, \"qc_quality_sequence_stats.tsv.gz\")\n\n# Import libraries and extract metadata from sample names\nlibraries_raw &lt;- lapply(libraries_path, read_csv, show_col_types = FALSE) %&gt;%\n  bind_rows\nlibraries &lt;- libraries_raw %&gt;%\n  mutate(sample = fct_inorder(sample))\n\n\n\nCode# Import QC data\nstages &lt;- c(\"raw_concat\", \"cleaned\", \"dedup\", \"ribo_initial\", \"ribo_secondary\")\nimport_basic &lt;- function(paths){\n  lapply(paths, read_tsv, show_col_types = FALSE) %&gt;% bind_rows %&gt;%\n    inner_join(libraries, by=\"sample\") %&gt;%\n    arrange(sample) %&gt;%\n    mutate(stage = factor(stage, levels = stages),\n           sample = fct_inorder(sample))\n}\nimport_basic_paired &lt;- function(paths){\n  import_basic(paths) %&gt;% arrange(read_pair) %&gt;% \n    mutate(read_pair = fct_inorder(as.character(read_pair)))\n}\nbasic_stats &lt;- import_basic(basic_stats_path)\nadapter_stats &lt;- import_basic_paired(adapter_stats_path)\nquality_base_stats &lt;- import_basic_paired(quality_base_stats_path)\nquality_seq_stats &lt;- import_basic_paired(quality_seq_stats_path)\n\n# Filter to raw data\nbasic_stats_raw &lt;- basic_stats %&gt;% filter(stage == \"raw_concat\")\nadapter_stats_raw &lt;- adapter_stats %&gt;% filter(stage == \"raw_concat\")\nquality_base_stats_raw &lt;- quality_base_stats %&gt;% filter(stage == \"raw_concat\")\nquality_seq_stats_raw &lt;- quality_seq_stats %&gt;% filter(stage == \"raw_concat\")\n\n# Get key values for readout\nraw_read_counts &lt;- basic_stats_raw %&gt;% ungroup %&gt;% \n  summarize(rmin = min(n_read_pairs), rmax=max(n_read_pairs),\n            rmean=mean(n_read_pairs), \n            rtot = sum(n_read_pairs),\n            btot = sum(n_bases_approx),\n            dmin = min(percent_duplicates), dmax=max(percent_duplicates),\n            dmean=mean(percent_duplicates), .groups = \"drop\")\n\n\n\nCode# Prepare data\nbasic_stats_raw_metrics &lt;- basic_stats_raw %&gt;%\n  select(sample,\n         `# Read pairs` = n_read_pairs,\n         `Total base pairs\\n(approx)` = n_bases_approx,\n         `% Duplicates\\n(FASTQC)` = percent_duplicates) %&gt;%\n  pivot_longer(-(sample), names_to = \"metric\", values_to = \"value\") %&gt;%\n  mutate(metric = fct_inorder(metric))\n\n# Set up plot templates\ng_basic &lt;- ggplot(basic_stats_raw_metrics, aes(x=sample, y=value)) +\n  geom_col(position = \"dodge\") +\n  scale_y_continuous(expand=c(0,0)) +\n  expand_limits(y=c(0,100)) +\n  facet_grid(metric~., scales = \"free\", space=\"free_x\", switch=\"y\") +\n  theme_kit + theme(\n    axis.title.y = element_blank(),\n    strip.text.y = element_text(face=\"plain\")\n  )\ng_basic\n\n\n\n\n\n\n\n\nCode# Set up plotting templates\ng_qual_raw &lt;- ggplot(mapping=aes(linetype=read_pair, \n                         group=interaction(sample,read_pair))) + \n  scale_linetype_discrete(name = \"Read Pair\") +\n  guides(color=guide_legend(nrow=2,byrow=TRUE),\n         linetype = guide_legend(nrow=2,byrow=TRUE)) +\n  theme_base\n\n# Visualize adapters\ng_adapters_raw &lt;- g_qual_raw + \n  geom_line(aes(x=position, y=pc_adapters), data=adapter_stats_raw) +\n  scale_y_continuous(name=\"% Adapters\", limits=c(0,NA),\n                     breaks = seq(0,100,1), expand=c(0,0)) +\n  scale_x_continuous(name=\"Position\", limits=c(0,NA),\n                     breaks=seq(0,500,20), expand=c(0,0)) +\n  facet_grid(.~adapter)\ng_adapters_raw\n\n\n\n\n\n\nCode# Visualize quality\ng_quality_base_raw &lt;- g_qual_raw +\n  geom_hline(yintercept=25, linetype=\"dashed\", color=\"red\") +\n  geom_hline(yintercept=30, linetype=\"dashed\", color=\"red\") +\n  geom_line(aes(x=position, y=mean_phred_score), data=quality_base_stats_raw) +\n  scale_y_continuous(name=\"Mean Phred score\", expand=c(0,0), limits=c(10,45)) +\n  scale_x_continuous(name=\"Position\", limits=c(0,NA),\n                     breaks=seq(0,500,20), expand=c(0,0))\ng_quality_base_raw\n\n\n\n\n\n\nCodeg_quality_seq_raw &lt;- g_qual_raw +\n  geom_vline(xintercept=25, linetype=\"dashed\", color=\"red\") +\n  geom_vline(xintercept=30, linetype=\"dashed\", color=\"red\") +\n  geom_line(aes(x=mean_phred_score, y=n_sequences), data=quality_seq_stats_raw) +\n  scale_x_continuous(name=\"Mean Phred score\", expand=c(0,0)) +\n  scale_y_continuous(name=\"# Sequences\", expand=c(0,0))\ng_quality_seq_raw\n\n\n\n\n\n\n\nPreprocessing\nAbout 6% of reads on average were lost during cleaning, and a further 2% during deduplication. Very few reads were lost during ribodepletion, as expected for DNA sequencing libraries.\n\nCoden_reads_rel &lt;- basic_stats %&gt;% \n  select(sample, stage, \n         percent_duplicates, n_read_pairs) %&gt;%\n  group_by(sample) %&gt;% arrange(sample, stage) %&gt;%\n  mutate(p_reads_retained = replace_na(n_read_pairs / lag(n_read_pairs), 0),\n         p_reads_lost = 1 - p_reads_retained,\n         p_reads_retained_abs = n_read_pairs / n_read_pairs[1],\n         p_reads_lost_abs = 1-p_reads_retained_abs,\n         p_reads_lost_abs_marginal = replace_na(p_reads_lost_abs - lag(p_reads_lost_abs), 0))\nn_reads_rel_display &lt;- n_reads_rel %&gt;% \n  group_by(Stage=stage) %&gt;% \n  summarize(`% Total Reads Lost (Cumulative)` = paste0(round(min(p_reads_lost_abs*100),1), \"-\", round(max(p_reads_lost_abs*100),1), \" (mean \", round(mean(p_reads_lost_abs*100),1), \")\"),\n            `% Total Reads Lost (Marginal)` = paste0(round(min(p_reads_lost_abs_marginal*100),1), \"-\", round(max(p_reads_lost_abs_marginal*100),1), \" (mean \", round(mean(p_reads_lost_abs_marginal*100),1), \")\"), .groups=\"drop\") %&gt;% \n  filter(Stage != \"raw_concat\") %&gt;%\n  mutate(Stage = Stage %&gt;% as.numeric %&gt;% factor(labels=c(\"Trimming & filtering\", \"Deduplication\", \"Initial ribodepletion\", \"Secondary ribodepletion\")))\nn_reads_rel_display\n\n\n  \n\n\n\n\nCodeg_stage_base &lt;- ggplot(mapping=aes(x=stage, group=sample)) +\n  theme_kit\n\n# Plot reads over preprocessing\ng_reads_stages &lt;- g_stage_base +\n  geom_line(aes(y=n_read_pairs), data=basic_stats) +\n  scale_y_continuous(\"# Read pairs\", expand=c(0,0), limits=c(0,NA))\ng_reads_stages\n\n\n\n\n\n\nCode# Plot relative read losses during preprocessing\ng_reads_rel &lt;- g_stage_base +\n  geom_line(aes(y=p_reads_lost_abs_marginal), data=n_reads_rel) +\n  scale_y_continuous(\"% Total Reads Lost\", expand=c(0,0), \n                     labels = function(x) x*100)\ng_reads_rel\n\n\n\n\n\n\n\nData cleaning was very successful at removing adapters and improving read qualities:\n\nCodeg_qual &lt;- ggplot(mapping=aes(linetype=read_pair, \n                         group=interaction(sample,read_pair))) + \n  scale_linetype_discrete(name = \"Read Pair\") +\n  guides(color=guide_legend(nrow=2,byrow=TRUE),\n         linetype = guide_legend(nrow=2,byrow=TRUE)) +\n  theme_base\n\n# Visualize adapters\ng_adapters &lt;- g_qual + \n  geom_line(aes(x=position, y=pc_adapters), data=adapter_stats) +\n  scale_y_continuous(name=\"% Adapters\", limits=c(0,20),\n                     breaks = seq(0,50,10), expand=c(0,0)) +\n  scale_x_continuous(name=\"Position\", limits=c(0,NA),\n                     breaks=seq(0,140,20), expand=c(0,0)) +\n  facet_grid(stage~adapter)\ng_adapters\n\n\n\n\n\n\nCode# Visualize quality\ng_quality_base &lt;- g_qual +\n  geom_hline(yintercept=25, linetype=\"dashed\", color=\"red\") +\n  geom_hline(yintercept=30, linetype=\"dashed\", color=\"red\") +\n  geom_line(aes(x=position, y=mean_phred_score), data=quality_base_stats) +\n  scale_y_continuous(name=\"Mean Phred score\", expand=c(0,0), limits=c(10,45)) +\n  scale_x_continuous(name=\"Position\", limits=c(0,NA),\n                     breaks=seq(0,140,20), expand=c(0,0)) +\n  facet_grid(stage~.)\ng_quality_base\n\n\n\n\n\n\nCodeg_quality_seq &lt;- g_qual +\n  geom_vline(xintercept=25, linetype=\"dashed\", color=\"red\") +\n  geom_vline(xintercept=30, linetype=\"dashed\", color=\"red\") +\n  geom_line(aes(x=mean_phred_score, y=n_sequences), data=quality_seq_stats) +\n  scale_x_continuous(name=\"Mean Phred score\", expand=c(0,0)) +\n  scale_y_continuous(name=\"# Sequences\", expand=c(0,0)) +\n  facet_grid(stage~.)\ng_quality_seq\n\n\n\n\n\n\n\nAccording to FASTQC, cleaning + deduplication was very effective at reducing measured duplicate levels in the few samples that required it:\n\nCodestage_dup &lt;- basic_stats %&gt;% group_by(stage) %&gt;% \n  summarize(dmin = min(percent_duplicates), dmax=max(percent_duplicates),\n            dmean=mean(percent_duplicates), .groups = \"drop\")\n\ng_dup_stages &lt;- g_stage_base +\n  geom_line(aes(y=percent_duplicates), data=basic_stats) +\n  scale_y_continuous(\"% Duplicates\", limits=c(0,NA), expand=c(0,0))\ng_dup_stages\n\n\n\n\n\n\nCodeg_readlen_stages &lt;- g_stage_base + \n  geom_line(aes(y=mean_seq_len), data=basic_stats) +\n  scale_y_continuous(\"Mean read length (nt)\", expand=c(0,0), limits=c(0,NA))\ng_readlen_stages\n\n\n\n\n\n\n\nHigh-level composition\nAs before, to assess the high-level composition of the reads, I ran the ribodepleted files through Kraken (using the Standard 16 database) and summarized the results with Bracken. Combining these results with the read counts above gives us a breakdown of the inferred composition of the samples:\n\nCodeclassifications &lt;- c(\"Filtered\", \"Duplicate\", \"Ribosomal\", \"Unassigned\",\n                     \"Bacterial\", \"Archaeal\", \"Viral\", \"Human\")\n\n# Import composition data\ncomp_path &lt;- file.path(data_dir, \"taxonomic_composition.tsv.gz\")\ncomp &lt;- read_tsv(comp_path, show_col_types = FALSE) %&gt;%\n  left_join(libraries, by=\"sample\") %&gt;%\n  mutate(classification = factor(classification, levels = classifications))\n  \n\n# Summarize composition\nread_comp_summ &lt;- comp %&gt;% \n  group_by(classification) %&gt;%\n  summarize(n_reads = sum(n_reads), .groups = \"drop_last\") %&gt;%\n  mutate(n_reads = replace_na(n_reads,0),\n    p_reads = n_reads/sum(n_reads),\n    pc_reads = p_reads*100)\n\n\n\nCode# Prepare plotting templates\ng_comp_base &lt;- ggplot(mapping=aes(x=sample, y=p_reads, fill=classification)) +\n  theme_kit\nscale_y_pc_reads &lt;- purrr::partial(scale_y_continuous, name = \"% Reads\",\n                                   expand = c(0,0), labels = function(y) y*100)\n\n# Plot overall composition\ng_comp &lt;- g_comp_base + geom_col(data = comp, position = \"stack\", width=1) +\n  scale_y_pc_reads(limits = c(0,1.01), breaks = seq(0,1,0.2)) +\n  scale_fill_brewer(palette = \"Set1\", name = \"Classification\")\ng_comp\n\n\n\n\n\n\nCode# Plot composition of minor components\ncomp_minor &lt;- comp %&gt;% \n  filter(classification %in% c(\"Archaeal\", \"Viral\", \"Human\", \"Other\"))\npalette_minor &lt;- brewer.pal(9, \"Set1\")[6:9]\ng_comp_minor &lt;- g_comp_base + \n  geom_col(data=comp_minor, position = \"stack\", width=1) +\n  scale_y_pc_reads() +\n  scale_fill_manual(values=palette_minor, name = \"Classification\")\ng_comp_minor\n\n\n\n\n\n\n\n\nCodep_reads_summ_group &lt;- comp %&gt;%\n  mutate(classification = ifelse(classification %in% c(\"Filtered\", \"Duplicate\", \"Unassigned\"), \"Excluded\", as.character(classification)),\n         classification = fct_inorder(classification)) %&gt;%\n  group_by(classification, sample) %&gt;%\n  summarize(p_reads = sum(p_reads), .groups = \"drop\") %&gt;%\n  group_by(classification) %&gt;%\n  summarize(pc_min = min(p_reads)*100, pc_max = max(p_reads)*100, \n            pc_mean = mean(p_reads)*100, .groups = \"drop\")\np_reads_summ_prep &lt;- p_reads_summ_group %&gt;%\n  mutate(classification = fct_inorder(classification),\n         pc_min = pc_min %&gt;% signif(digits=2) %&gt;% sapply(format, scientific=FALSE, trim=TRUE, digits=2),\n         pc_max = pc_max %&gt;% signif(digits=2) %&gt;% sapply(format, scientific=FALSE, trim=TRUE, digits=2),\n         pc_mean = pc_mean %&gt;% signif(digits=2) %&gt;% sapply(format, scientific=FALSE, trim=TRUE, digits=2),\n         display = paste0(pc_min, \"-\", pc_max, \"% (mean \", pc_mean, \"%)\"))\np_reads_summ &lt;- p_reads_summ_prep %&gt;%\n  select(Classification=classification, \n         `Read Fraction`=display) %&gt;%\n  arrange(Classification)\np_reads_summ\n\n\n  \n\n\n\nAs in previous DNA datasets, the vast majority of classified reads were bacterial in origin. Viral fraction averaged 0.13%, though one samples (NYC-08) reached almost 1%. As is common for DNA data, viral reads were overwhelmingly dominated by Caudoviricetes phages:\n\nCode# Get Kraken reports\nreports_path &lt;- file.path(data_dir, \"kraken_reports.tsv.gz\")\nreports &lt;- read_tsv(reports_path, show_col_types = FALSE)\n\n# Get viral taxonomy\nviral_taxa_path &lt;- file.path(data_dir, \"viral-taxids.tsv.gz\")\nviral_taxa &lt;- read_tsv(viral_taxa_path, show_col_types = FALSE)\n\n# Filter to viral taxa\nkraken_reports_viral &lt;- filter(reports, taxid %in% viral_taxa$taxid) %&gt;%\n  group_by(sample) %&gt;%\n  mutate(p_reads_viral = n_reads_clade/n_reads_clade[1])\nkraken_reports_viral_cleaned &lt;- kraken_reports_viral %&gt;%\n  inner_join(libraries, by=\"sample\") %&gt;%\n  select(-pc_reads_total, -n_reads_direct, -contains(\"minimizers\")) %&gt;%\n  select(name, taxid, p_reads_viral, n_reads_clade, everything())\n\nviral_classes &lt;- kraken_reports_viral_cleaned %&gt;% filter(rank == \"C\")\nviral_families &lt;- kraken_reports_viral_cleaned %&gt;% filter(rank == \"F\")\n\n\n\nCodemajor_threshold &lt;- 0.02\n\n# Identify major viral classes\nviral_classes_major_tab &lt;- viral_classes %&gt;% \n  group_by(name, taxid) %&gt;%\n  summarize(p_reads_viral_max = max(p_reads_viral), .groups=\"drop\") %&gt;%\n  filter(p_reads_viral_max &gt;= major_threshold)\nviral_classes_major_list &lt;- viral_classes_major_tab %&gt;% pull(name)\nviral_classes_major &lt;- viral_classes %&gt;% \n  filter(name %in% viral_classes_major_list) %&gt;%\n  select(name, taxid, sample, p_reads_viral)\nviral_classes_minor &lt;- viral_classes_major %&gt;% \n  group_by(sample) %&gt;%\n  summarize(p_reads_viral_major = sum(p_reads_viral), .groups = \"drop\") %&gt;%\n  mutate(name = \"Other\", taxid=NA, p_reads_viral = 1-p_reads_viral_major) %&gt;%\n  select(name, taxid, sample, p_reads_viral)\nviral_classes_display &lt;- bind_rows(viral_classes_major, viral_classes_minor) %&gt;%\n  arrange(desc(p_reads_viral)) %&gt;% \n  mutate(name = factor(name, levels=c(viral_classes_major_list, \"Other\")),\n         p_reads_viral = pmax(p_reads_viral, 0)) %&gt;%\n  rename(p_reads = p_reads_viral, classification=name)\n\npalette_viral &lt;- c(brewer.pal(12, \"Set3\"), brewer.pal(8, \"Dark2\"))\ng_classes &lt;- g_comp_base + \n  geom_col(data=viral_classes_display, position = \"stack\", width=1) +\n  scale_y_continuous(name=\"% Viral Reads\", limits=c(0,1.01), breaks = seq(0,1,0.2),\n                     expand=c(0,0), labels = function(y) y*100) +\n  scale_fill_manual(values=palette_viral, name = \"Viral class\")\n  \ng_classes\n\n\n\n\n\n\n\nHuman-infecting virus reads: validation\nNext, I investigated the human-infecting virus read content of these unenriched samples. A grand total of 199 reads were identified as putatively human-viral:\n\nCode# Import HV read data\nhv_reads_filtered_path &lt;- file.path(data_dir, \"hv_hits_putative_filtered.tsv.gz\")\nhv_reads_filtered &lt;- lapply(hv_reads_filtered_path, read_tsv,\n                            show_col_types = FALSE) %&gt;%\n  bind_rows() %&gt;%\n  left_join(libraries, by=\"sample\")\n\n# Count reads\nn_hv_filtered &lt;- hv_reads_filtered %&gt;%\n  group_by(sample, seq_id) %&gt;% count %&gt;%\n  group_by(sample) %&gt;% count %&gt;% \n  inner_join(basic_stats %&gt;% filter(stage == \"ribo_initial\") %&gt;% \n               select(sample, n_read_pairs), by=\"sample\") %&gt;% \n  rename(n_putative = n, n_total = n_read_pairs) %&gt;% \n  mutate(p_reads = n_putative/n_total, pc_reads = p_reads * 100)\nn_hv_filtered_summ &lt;- n_hv_filtered %&gt;% ungroup %&gt;%\n  summarize(n_putative = sum(n_putative), n_total = sum(n_total), \n            .groups=\"drop\") %&gt;% \n  mutate(p_reads = n_putative/n_total, pc_reads = p_reads*100)\n\n\n\nCode# Collapse multi-entry sequences\nrmax &lt;- purrr::partial(max, na.rm = TRUE)\ncollapse &lt;- function(x) ifelse(all(x == x[1]), x[1], paste(x, collapse=\"/\"))\nmrg &lt;- hv_reads_filtered %&gt;% \n  mutate(adj_score_max = pmax(adj_score_fwd, adj_score_rev, na.rm = TRUE)) %&gt;%\n  arrange(desc(adj_score_max)) %&gt;%\n  group_by(seq_id) %&gt;%\n  summarize(sample = collapse(sample),\n            genome_id = collapse(genome_id),\n            taxid_best = taxid[1],\n            taxid = collapse(as.character(taxid)),\n            best_alignment_score_fwd = rmax(best_alignment_score_fwd),\n            best_alignment_score_rev = rmax(best_alignment_score_rev),\n            query_len_fwd = rmax(query_len_fwd),\n            query_len_rev = rmax(query_len_rev),\n            query_seq_fwd = query_seq_fwd[!is.na(query_seq_fwd)][1],\n            query_seq_rev = query_seq_rev[!is.na(query_seq_rev)][1],\n            classified = rmax(classified),\n            assigned_name = collapse(assigned_name),\n            assigned_taxid_best = assigned_taxid[1],\n            assigned_taxid = collapse(as.character(assigned_taxid)),\n            assigned_hv = rmax(assigned_hv),\n            hit_hv = rmax(hit_hv),\n            encoded_hits = collapse(encoded_hits),\n            adj_score_fwd = rmax(adj_score_fwd),\n            adj_score_rev = rmax(adj_score_rev)\n            ) %&gt;%\n  inner_join(libraries, by=\"sample\") %&gt;%\n  mutate(kraken_label = ifelse(assigned_hv, \"Kraken2 HV\\nassignment\",\n                               ifelse(hit_hv, \"Kraken2 HV\\nhit\",\n                                      \"No hit or\\nassignment\"))) %&gt;%\n  mutate(adj_score_max = pmax(adj_score_fwd, adj_score_rev),\n         highscore = adj_score_max &gt;= 20)\n\n# Plot results\ngeom_vhist &lt;- purrr::partial(geom_histogram, binwidth=5, boundary=0)\ng_vhist_base &lt;- ggplot(mapping=aes(x=adj_score_max)) +\n  geom_vline(xintercept=20, linetype=\"dashed\", color=\"red\") +\n  facet_wrap(~kraken_label, labeller = labeller(kit = label_wrap_gen(20)), scales = \"free_y\") +\n  scale_x_continuous(name = \"Maximum adjusted alignment score\") + \n  scale_y_continuous(name=\"# Read pairs\") + \n  theme_base \ng_vhist_0 &lt;- g_vhist_base + geom_vhist(data=mrg)\ng_vhist_0\n\n\n\n\n\n\n\nBLASTing these reads against nt, we find that the pipeline performs well, with only a single high-scoring false-positive read:\n\nCode# Import paired BLAST results\nblast_paired_path &lt;- file.path(data_dir, \"hv_hits_blast_paired.tsv.gz\")\nblast_paired &lt;- read_tsv(blast_paired_path, show_col_types = FALSE)\n\n# Add viral status\nblast_viral &lt;- mutate(blast_paired, viral = staxid %in% viral_taxa$taxid) %&gt;%\n  mutate(viral_full = viral & n_reads == 2)\n\n# Compare to Kraken & Bowtie assignments\nmatch_taxid &lt;- function(taxid_1, taxid_2){\n  p1 &lt;- mapply(grepl, paste0(\"/\", taxid_1, \"$\"), taxid_2)\n  p2 &lt;- mapply(grepl, paste0(\"^\", taxid_1, \"/\"), taxid_2)\n  p3 &lt;- mapply(grepl, paste0(\"^\", taxid_1, \"$\"), taxid_2)\n  out &lt;- setNames(p1|p2|p3, NULL)\n  return(out)\n}\nmrg_assign &lt;- mrg %&gt;% select(sample, seq_id, taxid, assigned_taxid, adj_score_max)\nblast_assign &lt;- inner_join(blast_viral, mrg_assign, by=\"seq_id\") %&gt;%\n    mutate(taxid_match_bowtie = match_taxid(staxid, taxid),\n           taxid_match_kraken = match_taxid(staxid, assigned_taxid),\n           taxid_match_any = taxid_match_bowtie | taxid_match_kraken)\nblast_out &lt;- blast_assign %&gt;%\n  group_by(seq_id) %&gt;%\n  summarize(viral_status = ifelse(any(viral_full), 2,\n                                  ifelse(any(taxid_match_any), 2,\n                                             ifelse(any(viral), 1, 0))),\n            .groups = \"drop\")\n\n\n\nCode# Merge BLAST results with unenriched read data\nmrg_blast &lt;- full_join(mrg, blast_out, by=\"seq_id\") %&gt;%\n  mutate(viral_status = replace_na(viral_status, 0),\n         viral_status_out = ifelse(viral_status == 0, FALSE, TRUE))\n\n# Plot\ng_vhist_1 &lt;- g_vhist_base + geom_vhist(data=mrg_blast, mapping=aes(fill=viral_status_out)) +\n  scale_fill_brewer(palette = \"Set1\", name = \"Viral status\")\ng_vhist_1\n\n\n\n\n\n\n\nMy usual disjunctive score threshold of 20 gave precision, sensitivity, and F1 scores all &gt;96%:\n\nCodetest_sens_spec &lt;- function(tab, score_threshold){\n  tab_retained &lt;- tab %&gt;% \n    mutate(retain_score = (adj_score_fwd &gt; score_threshold | adj_score_rev &gt; score_threshold),\n           retain = assigned_hv | retain_score) %&gt;%\n    group_by(viral_status_out, retain) %&gt;% count\n  pos_tru &lt;- tab_retained %&gt;% filter(viral_status_out == \"TRUE\", retain) %&gt;% pull(n) %&gt;% sum\n  pos_fls &lt;- tab_retained %&gt;% filter(viral_status_out != \"TRUE\", retain) %&gt;% pull(n) %&gt;% sum\n  neg_tru &lt;- tab_retained %&gt;% filter(viral_status_out != \"TRUE\", !retain) %&gt;% pull(n) %&gt;% sum\n  neg_fls &lt;- tab_retained %&gt;% filter(viral_status_out == \"TRUE\", !retain) %&gt;% pull(n) %&gt;% sum\n  sensitivity &lt;- pos_tru / (pos_tru + neg_fls)\n  specificity &lt;- neg_tru / (neg_tru + pos_fls)\n  precision   &lt;- pos_tru / (pos_tru + pos_fls)\n  f1 &lt;- 2 * precision * sensitivity / (precision + sensitivity)\n  out &lt;- tibble(threshold=score_threshold, sensitivity=sensitivity, \n                specificity=specificity, precision=precision, f1=f1)\n  return(out)\n}\nrange_f1 &lt;- function(intab, inrange=15:45){\n  tss &lt;- purrr::partial(test_sens_spec, tab=intab)\n  stats &lt;- lapply(inrange, tss) %&gt;% bind_rows %&gt;%\n    pivot_longer(!threshold, names_to=\"metric\", values_to=\"value\")\n  return(stats)\n}\nstats_0 &lt;- range_f1(mrg_blast)\ng_stats_0 &lt;- ggplot(stats_0, aes(x=threshold, y=value, color=metric)) +\n  geom_vline(xintercept=20, color = \"red\", linetype = \"dashed\") +\n  geom_line() +\n  scale_y_continuous(name = \"Value\", limits=c(0,1), breaks = seq(0,1,0.2), expand = c(0,0)) +\n  scale_x_continuous(name = \"Adjusted Score Threshold\", expand = c(0,0)) +\n  scale_color_brewer(palette=\"Dark2\") +\n  theme_base\ng_stats_0\n\n\n\n\n\n\nCodestats_0 %&gt;% filter(threshold == 20) %&gt;% \n  select(Threshold=threshold, Metric=metric, Value=value)\n\n\n  \n\n\n\nHuman-infecting viruses: overall relative abundance\n\nCode# Get raw read counts\nread_counts_raw &lt;- basic_stats_raw %&gt;%\n  select(sample, n_reads_raw = n_read_pairs)\n\n# Get HV read counts\nmrg_hv &lt;- mrg %&gt;% mutate(hv_status = assigned_hv | highscore) %&gt;%\n  rename(taxid_all = taxid, taxid = taxid_best)\nread_counts_hv &lt;- mrg_hv %&gt;% filter(hv_status) %&gt;% group_by(sample) %&gt;% \n  count(name=\"n_reads_hv\")\nread_counts &lt;- read_counts_raw %&gt;% left_join(read_counts_hv, by=\"sample\") %&gt;%\n  mutate(n_reads_hv = replace_na(n_reads_hv, 0))\n\n# Aggregate\nread_counts_grp &lt;- read_counts %&gt;%\n  summarize(n_reads_raw = sum(n_reads_raw),\n            n_reads_hv = sum(n_reads_hv), .groups=\"drop\") %&gt;%\n  mutate(sample= \"All samples\")\nread_counts_agg &lt;- bind_rows(read_counts, read_counts_grp) %&gt;%\n  mutate(p_reads_hv = n_reads_hv/n_reads_raw,\n         sample = factor(sample, levels=c(levels(libraries$sample), \"All samples\")))\n\n\nApplying a disjunctive cutoff at S=20 identifies 162 read pairs as human-viral. This gives an overall relative HV abundance of \\(9.42 \\times 10^{-7}\\); higher than Ng and Bengtsson-Palme but lower than most other datasets I’ve analyzed with this pipeline:\n\nCode# Visualize\ng_phv_agg &lt;- ggplot(read_counts_agg, aes(x=sample)) +\n  geom_point(aes(y=p_reads_hv)) +\n  scale_y_log10(\"Relative abundance of human virus reads\") +\n  theme_kit\ng_phv_agg\n\n\n\n\n\n\n\n\nCode# Collate past RA values\nra_past &lt;- tribble(~dataset, ~ra, ~na_type, ~panel_enriched,\n                   \"Brumfield\", 5e-5, \"RNA\", FALSE,\n                   \"Brumfield\", 3.66e-7, \"DNA\", FALSE,\n                   \"Spurbeck\", 5.44e-6, \"RNA\", FALSE,\n                   \"Yang\", 3.62e-4, \"RNA\", FALSE,\n                   \"Rothman (unenriched)\", 1.87e-5, \"RNA\", FALSE,\n                   \"Rothman (panel-enriched)\", 3.3e-5, \"RNA\", TRUE,\n                   \"Crits-Christoph (unenriched)\", 1.37e-5, \"RNA\", FALSE,\n                   \"Crits-Christoph (panel-enriched)\", 1.26e-2, \"RNA\", TRUE,\n                   \"Prussin (non-control)\", 1.63e-5, \"RNA\", FALSE,\n                   \"Prussin (non-control)\", 4.16e-5, \"DNA\", FALSE,\n                   \"Rosario (non-control)\", 1.21e-5, \"RNA\", FALSE,\n                   \"Rosario (non-control)\", 1.50e-4, \"DNA\", FALSE,\n                   \"Leung\", 1.73e-5, \"DNA\", FALSE,\n                   \"Brinch\", 3.88e-6, \"DNA\", FALSE,\n                   \"Bengtsson-Palme\", 8.86e-8, \"DNA\", FALSE,\n                   \"Ng\", 2.90e-7, \"DNA\", FALSE\n)\n\n# Collate new RA values\nra_new &lt;- tribble(~dataset, ~ra, ~na_type, ~panel_enriched,\n                  \"Maritz\", 9.42e-7, \"DNA\", FALSE)\n\n\n# Plot\nscale_color_na &lt;- purrr::partial(scale_color_brewer, palette=\"Set1\",\n                                 name=\"Nucleic acid type\")\nra_comp &lt;- bind_rows(ra_past, ra_new) %&gt;% mutate(dataset = fct_inorder(dataset))\ng_ra_comp &lt;- ggplot(ra_comp, aes(y=dataset, x=ra, color=na_type)) +\n  geom_point() +\n  scale_color_na() +\n  scale_x_log10(name=\"Relative abundance of human virus reads\") +\n  theme_base + theme(axis.title.y = element_blank())\ng_ra_comp\n\n\n\n\n\n\n\nHuman-infecting viruses: taxonomy and composition\nIn investigating the taxonomy of human-infecting virus reads, I restricted my analysis to samples with more than 5 HV read pairs total across all viruses, to reduce noise arising from extremely low HV read counts in some samples. 10 samples met this criterion.\nAt the family level, most samples were dominated by Adenoviridae, Polyomaviridae and Papillomaviridae. However, one sample, NYC-03, was overwhelmingly dominated by Herpesviridae:\n\nCode# Get viral taxon names for putative HV reads\nviral_taxa$name[viral_taxa$taxid == 249588] &lt;- \"Mamastrovirus\"\nviral_taxa$name[viral_taxa$taxid == 194960] &lt;- \"Kobuvirus\"\nviral_taxa$name[viral_taxa$taxid == 688449] &lt;- \"Salivirus\"\nviral_taxa$name[viral_taxa$taxid == 585893] &lt;- \"Picobirnaviridae\"\nviral_taxa$name[viral_taxa$taxid == 333922] &lt;- \"Betapapillomavirus\"\nviral_taxa$name[viral_taxa$taxid == 334207] &lt;- \"Betapapillomavirus 3\"\nviral_taxa$name[viral_taxa$taxid == 369960] &lt;- \"Porcine type-C oncovirus\"\nviral_taxa$name[viral_taxa$taxid == 333924] &lt;- \"Betapapillomavirus 2\"\nviral_taxa$name[viral_taxa$taxid == 687329] &lt;- \"Anelloviridae\"\nviral_taxa$name[viral_taxa$taxid == 325455] &lt;- \"Gammapapillomavirus\"\nviral_taxa$name[viral_taxa$taxid == 333750] &lt;- \"Alphapapillomavirus\"\nviral_taxa$name[viral_taxa$taxid == 694002] &lt;- \"Betacoronavirus\"\nviral_taxa$name[viral_taxa$taxid == 334202] &lt;- \"Mupapillomavirus\"\nviral_taxa$name[viral_taxa$taxid == 197911] &lt;- \"Alphainfluenzavirus\"\nviral_taxa$name[viral_taxa$taxid == 186938] &lt;- \"Respirovirus\"\nviral_taxa$name[viral_taxa$taxid == 333926] &lt;- \"Gammapapillomavirus 1\"\nviral_taxa$name[viral_taxa$taxid == 337051] &lt;- \"Betapapillomavirus 1\"\nviral_taxa$name[viral_taxa$taxid == 337043] &lt;- \"Alphapapillomavirus 4\"\nviral_taxa$name[viral_taxa$taxid == 694003] &lt;- \"Betacoronavirus 1\"\nviral_taxa$name[viral_taxa$taxid == 334204] &lt;- \"Mupapillomavirus 2\"\nviral_taxa$name[viral_taxa$taxid == 334208] &lt;- \"Betapapillomavirus 4\"\nviral_taxa$name[viral_taxa$taxid == 333928] &lt;- \"Gammapapillomavirus 2\"\nviral_taxa$name[viral_taxa$taxid == 337039] &lt;- \"Alphapapillomavirus 2\"\nviral_taxa$name[viral_taxa$taxid == 333929] &lt;- \"Gammapapillomavirus 3\"\nviral_taxa$name[viral_taxa$taxid == 337042] &lt;- \"Alphapapillomavirus 7\"\nviral_taxa$name[viral_taxa$taxid == 334203] &lt;- \"Mupapillomavirus 1\"\nviral_taxa$name[viral_taxa$taxid == 333757] &lt;- \"Alphapapillomavirus 8\"\nviral_taxa$name[viral_taxa$taxid == 337050] &lt;- \"Alphapapillomavirus 6\"\nviral_taxa$name[viral_taxa$taxid == 333767] &lt;- \"Alphapapillomavirus 3\"\nviral_taxa$name[viral_taxa$taxid == 333754] &lt;- \"Alphapapillomavirus 10\"\nviral_taxa$name[viral_taxa$taxid == 687363] &lt;- \"Torque teno virus 24\"\nviral_taxa$name[viral_taxa$taxid == 687342] &lt;- \"Torque teno virus 3\"\nviral_taxa$name[viral_taxa$taxid == 687359] &lt;- \"Torque teno virus 20\"\nviral_taxa$name[viral_taxa$taxid == 194441] &lt;- \"Primate T-lymphotropic virus 2\"\nviral_taxa$name[viral_taxa$taxid == 334209] &lt;- \"Betapapillomavirus 5\"\nviral_taxa$name[viral_taxa$taxid == 194965] &lt;- \"Aichivirus B\"\nviral_taxa$name[viral_taxa$taxid == 333930] &lt;- \"Gammapapillomavirus 4\"\nviral_taxa$name[viral_taxa$taxid == 337048] &lt;- \"Alphapapillomavirus 1\"\nviral_taxa$name[viral_taxa$taxid == 337041] &lt;- \"Alphapapillomavirus 9\"\nviral_taxa$name[viral_taxa$taxid == 337049] &lt;- \"Alphapapillomavirus 11\"\nviral_taxa$name[viral_taxa$taxid == 337044] &lt;- \"Alphapapillomavirus 5\"\n\n# Filter samples and add viral taxa information\nsamples_keep &lt;- read_counts %&gt;% filter(n_reads_hv &gt; 5) %&gt;% pull(sample)\nmrg_hv_named &lt;- mrg_hv %&gt;% filter(sample %in% samples_keep, hv_status) %&gt;% left_join(viral_taxa, by=\"taxid\") \n\n# Discover viral species & genera for HV reads\nraise_rank &lt;- function(read_db, taxid_db, out_rank = \"species\", verbose = FALSE){\n  # Get higher ranks than search rank\n  ranks &lt;- c(\"subspecies\", \"species\", \"subgenus\", \"genus\", \"subfamily\", \"family\", \"suborder\", \"order\", \"class\", \"subphylum\", \"phylum\", \"kingdom\", \"superkingdom\")\n  rank_match &lt;- which.max(ranks == out_rank)\n  high_ranks &lt;- ranks[rank_match:length(ranks)]\n  # Merge read DB and taxid DB\n  reads &lt;- read_db %&gt;% select(-parent_taxid, -rank, -name) %&gt;%\n    left_join(taxid_db, by=\"taxid\")\n  # Extract sequences that are already at appropriate rank\n  reads_rank &lt;- filter(reads, rank == out_rank)\n  # Drop sequences at a higher rank and return unclassified sequences\n  reads_norank &lt;- reads %&gt;% filter(rank != out_rank, !rank %in% high_ranks, !is.na(taxid))\n  while(nrow(reads_norank) &gt; 0){ # As long as there are unclassified sequences...\n    # Promote read taxids and re-merge with taxid DB, then re-classify and filter\n    reads_remaining &lt;- reads_norank %&gt;% mutate(taxid = parent_taxid) %&gt;%\n      select(-parent_taxid, -rank, -name) %&gt;%\n      left_join(taxid_db, by=\"taxid\")\n    reads_rank &lt;- reads_remaining %&gt;% filter(rank == out_rank) %&gt;%\n      bind_rows(reads_rank)\n    reads_norank &lt;- reads_remaining %&gt;%\n      filter(rank != out_rank, !rank %in% high_ranks, !is.na(taxid))\n  }\n  # Finally, extract and append reads that were excluded during the process\n  reads_dropped &lt;- reads %&gt;% filter(!seq_id %in% reads_rank$seq_id)\n  reads_out &lt;- reads_rank %&gt;% bind_rows(reads_dropped) %&gt;%\n    select(-parent_taxid, -rank, -name) %&gt;%\n    left_join(taxid_db, by=\"taxid\")\n  return(reads_out)\n}\nhv_reads_species &lt;- raise_rank(mrg_hv_named, viral_taxa, \"species\")\nhv_reads_genus &lt;- raise_rank(mrg_hv_named, viral_taxa, \"genus\")\nhv_reads_family &lt;- raise_rank(mrg_hv_named, viral_taxa, \"family\")\n\n\n\nCodethreshold_major_family &lt;- 0.02\n\n# Count reads for each human-viral family\nhv_family_counts &lt;- hv_reads_family %&gt;% \n  group_by(sample, name, taxid) %&gt;%\n  count(name = \"n_reads_hv\") %&gt;%\n  group_by(sample) %&gt;%\n  mutate(p_reads_hv = n_reads_hv/sum(n_reads_hv))\n\n# Identify high-ranking families and group others\nhv_family_major_tab &lt;- hv_family_counts %&gt;% group_by(name) %&gt;% \n  filter(p_reads_hv == max(p_reads_hv)) %&gt;% filter(row_number() == 1) %&gt;%\n  arrange(desc(p_reads_hv)) %&gt;% filter(p_reads_hv &gt; threshold_major_family)\nhv_family_counts_major &lt;- hv_family_counts %&gt;%\n  mutate(name_display = ifelse(name %in% hv_family_major_tab$name, name, \"Other\")) %&gt;%\n  group_by(sample, name_display) %&gt;%\n  summarize(n_reads_hv = sum(n_reads_hv), p_reads_hv = sum(p_reads_hv), \n            .groups=\"drop\") %&gt;%\n  mutate(name_display = factor(name_display, \n                               levels = c(hv_family_major_tab$name, \"Other\")))\nhv_family_counts_display &lt;- hv_family_counts_major %&gt;%\n  rename(p_reads = p_reads_hv, classification = name_display)\n\n# Plot\ng_hv_family &lt;- g_comp_base + \n  geom_col(data=hv_family_counts_display, position = \"stack\", width=1) +\n  scale_y_continuous(name=\"% HV Reads\", limits=c(0,1.01), \n                     breaks = seq(0,1,0.2),\n                     expand=c(0,0), labels = function(y) y*100) +\n  scale_fill_manual(values=palette_viral, name = \"Viral family\") +\n  labs(title=\"Family composition of human-viral reads\") +\n  guides(fill=guide_legend(ncol=4)) +\n  theme(plot.title = element_text(size=rel(1.4), hjust=0, face=\"plain\"))\ng_hv_family\n\n\n\n\n\n\nCode# Get most prominent families for text\nhv_family_collate &lt;- hv_family_counts %&gt;% group_by(name, taxid) %&gt;% \n  summarize(n_reads_tot = sum(n_reads_hv),\n            p_reads_max = max(p_reads_hv), .groups=\"drop\") %&gt;% \n  arrange(desc(n_reads_tot))\n\n\nIn investigating individual viral families, to avoid distortions from a few rare reads, I restricted myself to samples where that family made up at least 10% of human-viral reads:\n\nCodethreshold_major_species &lt;- 0.05\ntaxid_adeno &lt;- 10508\n\n# Get set of adenoviridae reads\nadeno_samples &lt;- hv_family_counts %&gt;% filter(taxid == taxid_adeno) %&gt;%\n  filter(p_reads_hv &gt;= 0.1) %&gt;%\n  pull(sample)\nadeno_ids &lt;- hv_reads_family %&gt;% \n  filter(taxid == taxid_adeno, sample %in% adeno_samples) %&gt;%\n  pull(seq_id)\n\n# Count reads for each adenoviridae species\nadeno_species_counts &lt;- hv_reads_species %&gt;%\n  filter(seq_id %in% adeno_ids) %&gt;%\n  group_by(sample, name, taxid) %&gt;%\n  count(name = \"n_reads_hv\") %&gt;%\n  group_by(sample) %&gt;%\n  mutate(p_reads_adeno = n_reads_hv/sum(n_reads_hv))\n\n# Identify high-ranking families and group others\nadeno_species_major_tab &lt;- adeno_species_counts %&gt;% group_by(name) %&gt;% \n  filter(p_reads_adeno == max(p_reads_adeno)) %&gt;% \n  filter(row_number() == 1) %&gt;%\n  arrange(desc(p_reads_adeno)) %&gt;% \n  filter(p_reads_adeno &gt; threshold_major_species)\nadeno_species_counts_major &lt;- adeno_species_counts %&gt;%\n  mutate(name_display = ifelse(name %in% adeno_species_major_tab$name, \n                               name, \"Other\")) %&gt;%\n  group_by(sample, name_display) %&gt;%\n  summarize(n_reads_adeno = sum(n_reads_hv),\n            p_reads_adeno = sum(p_reads_adeno), \n            .groups=\"drop\") %&gt;%\n  mutate(name_display = factor(name_display, \n                               levels = c(adeno_species_major_tab$name, \"Other\")))\nadeno_species_counts_display &lt;- adeno_species_counts_major %&gt;%\n  rename(p_reads = p_reads_adeno, classification = name_display)\n\n# Plot\ng_adeno_species &lt;- g_comp_base + \n  geom_col(data=adeno_species_counts_display, position = \"stack\", width=1) +\n  scale_y_continuous(name=\"% Adenoviridae Reads\", limits=c(0,1.01), \n                     breaks = seq(0,1,0.2),\n                     expand=c(0,0), labels = function(y) y*100) +\n  scale_fill_manual(values=palette_viral, name = \"Viral species\") +\n  labs(title=\"Species composition of Adenoviridae reads\") +\n  guides(fill=guide_legend(ncol=3)) +\n  theme(plot.title = element_text(size=rel(1.4), hjust=0, face=\"plain\"))\n\ng_adeno_species\n\n\n\n\n\n\nCode# Get most prominent species for text\nadeno_species_collate &lt;- adeno_species_counts %&gt;% group_by(name, taxid) %&gt;% \n  summarize(n_reads_tot = sum(n_reads_hv), p_reads_mean = mean(p_reads_adeno), .groups=\"drop\") %&gt;% \n  arrange(desc(n_reads_tot))\n\n\n\nCodethreshold_major_species &lt;- 0.1\ntaxid_polyoma &lt;- 151341\n\n# Get set of polyomaviridae reads\npolyoma_samples &lt;- hv_family_counts %&gt;% filter(taxid == taxid_polyoma) %&gt;%\n  filter(p_reads_hv &gt;= 0.1) %&gt;%\n  pull(sample)\npolyoma_ids &lt;- hv_reads_family %&gt;% \n  filter(taxid == taxid_polyoma, sample %in% polyoma_samples) %&gt;%\n  pull(seq_id)\n\n# Count reads for each polyomaviridae species\npolyoma_species_counts &lt;- hv_reads_species %&gt;%\n  filter(seq_id %in% polyoma_ids) %&gt;%\n  group_by(sample, name, taxid) %&gt;%\n  count(name = \"n_reads_hv\") %&gt;%\n  group_by(sample) %&gt;%\n  mutate(p_reads_polyoma = n_reads_hv/sum(n_reads_hv))\n\n# Identify high-ranking families and group others\npolyoma_species_major_tab &lt;- polyoma_species_counts %&gt;% group_by(name) %&gt;% \n  filter(p_reads_polyoma == max(p_reads_polyoma)) %&gt;% \n  filter(row_number() == 1) %&gt;%\n  arrange(desc(p_reads_polyoma)) %&gt;% \n  filter(p_reads_polyoma &gt; threshold_major_species)\npolyoma_species_counts_major &lt;- polyoma_species_counts %&gt;%\n  mutate(name_display = ifelse(name %in% polyoma_species_major_tab$name, \n                               name, \"Other\")) %&gt;%\n  group_by(sample, name_display) %&gt;%\n  summarize(n_reads_polyoma = sum(n_reads_hv),\n            p_reads_polyoma = sum(p_reads_polyoma), \n            .groups=\"drop\") %&gt;%\n  mutate(name_display = factor(name_display, \n                               levels = c(polyoma_species_major_tab$name, \"Other\")))\npolyoma_species_counts_display &lt;- polyoma_species_counts_major %&gt;%\n  rename(p_reads = p_reads_polyoma, classification = name_display)\n\n# Plot\ng_polyoma_species &lt;- g_comp_base + \n  geom_col(data=polyoma_species_counts_display, position = \"stack\", width=1) +\n  scale_y_continuous(name=\"% Polyomaviridae Reads\", limits=c(0,1.01), \n                     breaks = seq(0,1,0.2),\n                     expand=c(0,0), labels = function(y) y*100) +\n  scale_fill_manual(values=palette_viral, name = \"Viral species\") +\n  labs(title=\"Species composition of Polyomaviridae reads\") +\n  guides(fill=guide_legend(ncol=3)) +\n  theme(plot.title = element_text(size=rel(1.4), hjust=0, face=\"plain\"))\n\ng_polyoma_species\n\n\n\n\n\n\nCode# Get most prominent species for text\npolyoma_species_collate &lt;- polyoma_species_counts %&gt;% group_by(name, taxid) %&gt;% \n  summarize(n_reads_tot = sum(n_reads_hv), p_reads_mean = mean(p_reads_polyoma), .groups=\"drop\") %&gt;% \n  arrange(desc(n_reads_tot))\n\n\n\nCodethreshold_major_species &lt;- 0.1\ntaxid_papilloma &lt;- 151340\n\n# Get set of papillomaviridae reads\npapilloma_samples &lt;- hv_family_counts %&gt;% filter(taxid == taxid_papilloma) %&gt;%\n  filter(p_reads_hv &gt;= 0.1) %&gt;%\n  pull(sample)\npapilloma_ids &lt;- hv_reads_family %&gt;% \n  filter(taxid == taxid_papilloma, sample %in% papilloma_samples) %&gt;%\n  pull(seq_id)\n\n# Count reads for each papillomaviridae species\npapilloma_species_counts &lt;- hv_reads_species %&gt;%\n  filter(seq_id %in% papilloma_ids) %&gt;%\n  group_by(sample, name, taxid) %&gt;%\n  count(name = \"n_reads_hv\") %&gt;%\n  group_by(sample) %&gt;%\n  mutate(p_reads_papilloma = n_reads_hv/sum(n_reads_hv))\n\n# Identify high-ranking families and group others\npapilloma_species_major_tab &lt;- papilloma_species_counts %&gt;% group_by(name) %&gt;% \n  filter(p_reads_papilloma == max(p_reads_papilloma)) %&gt;% \n  filter(row_number() == 1) %&gt;%\n  arrange(desc(p_reads_papilloma)) %&gt;% \n  filter(p_reads_papilloma &gt; threshold_major_species)\npapilloma_species_counts_major &lt;- papilloma_species_counts %&gt;%\n  mutate(name_display = ifelse(name %in% papilloma_species_major_tab$name, \n                               name, \"Other\")) %&gt;%\n  group_by(sample, name_display) %&gt;%\n  summarize(n_reads_papilloma = sum(n_reads_hv),\n            p_reads_papilloma = sum(p_reads_papilloma), \n            .groups=\"drop\") %&gt;%\n  mutate(name_display = factor(name_display, \n                               levels = c(papilloma_species_major_tab$name, \"Other\")))\npapilloma_species_counts_display &lt;- papilloma_species_counts_major %&gt;%\n  rename(p_reads = p_reads_papilloma, classification = name_display)\n\n# Plot\ng_papilloma_species &lt;- g_comp_base + \n  geom_col(data=papilloma_species_counts_display, position = \"stack\", width=1) +\n  scale_y_continuous(name=\"% Papillomaviridae Reads\", limits=c(0,1.01), \n                     breaks = seq(0,1,0.2),\n                     expand=c(0,0), labels = function(y) y*100) +\n  scale_fill_manual(values=palette_viral, name = \"Viral species\") +\n  labs(title=\"Species composition of Papillomaviridae reads\") +\n  guides(fill=guide_legend(ncol=3)) +\n  theme(plot.title = element_text(size=rel(1.4), hjust=0, face=\"plain\"))\n\ng_papilloma_species\n\n\n\n\n\n\nCode# Get most prominent species for text\npapilloma_species_collate &lt;- papilloma_species_counts %&gt;% group_by(name, taxid) %&gt;% \n  summarize(n_reads_tot = sum(n_reads_hv), p_reads_mean = mean(p_reads_papilloma), .groups=\"drop\") %&gt;% \n  arrange(desc(n_reads_tot))\n\n\n\nCodethreshold_major_species &lt;- 0.1\ntaxid_herpes &lt;- 10292\n\n# Get set of herpesviridae reads\nherpes_samples &lt;- hv_family_counts %&gt;% filter(taxid == taxid_herpes) %&gt;%\n  filter(p_reads_hv &gt;= 0.1) %&gt;%\n  pull(sample)\nherpes_ids &lt;- hv_reads_family %&gt;% \n  filter(taxid == taxid_herpes, sample %in% herpes_samples) %&gt;%\n  pull(seq_id)\n\n# Count reads for each herpesviridae species\nherpes_species_counts &lt;- hv_reads_species %&gt;%\n  filter(seq_id %in% herpes_ids) %&gt;%\n  group_by(sample, name, taxid) %&gt;%\n  count(name = \"n_reads_hv\") %&gt;%\n  group_by(sample) %&gt;%\n  mutate(p_reads_herpes = n_reads_hv/sum(n_reads_hv))\n\n# Identify high-ranking families and group others\nherpes_species_major_tab &lt;- herpes_species_counts %&gt;% group_by(name) %&gt;% \n  filter(p_reads_herpes == max(p_reads_herpes)) %&gt;% \n  filter(row_number() == 1) %&gt;%\n  arrange(desc(p_reads_herpes)) %&gt;% \n  filter(p_reads_herpes &gt; threshold_major_species)\nherpes_species_counts_major &lt;- herpes_species_counts %&gt;%\n  mutate(name_display = ifelse(name %in% herpes_species_major_tab$name, \n                               name, \"Other\")) %&gt;%\n  group_by(sample, name_display) %&gt;%\n  summarize(n_reads_herpes = sum(n_reads_hv),\n            p_reads_herpes = sum(p_reads_herpes), \n            .groups=\"drop\") %&gt;%\n  mutate(name_display = factor(name_display, \n                               levels = c(herpes_species_major_tab$name, \"Other\")))\nherpes_species_counts_display &lt;- herpes_species_counts_major %&gt;%\n  rename(p_reads = p_reads_herpes, classification = name_display)\n\n# Plot\ng_herpes_species &lt;- g_comp_base + \n  geom_col(data=herpes_species_counts_display, position = \"stack\", width=1) +\n  scale_y_continuous(name=\"% Herpesviridae Reads\", limits=c(0,1.01), \n                     breaks = seq(0,1,0.2),\n                     expand=c(0,0), labels = function(y) y*100) +\n  scale_fill_manual(values=palette_viral, name = \"Viral species\") +\n  labs(title=\"Species composition of Herpesviridae reads\") +\n  guides(fill=guide_legend(ncol=3)) +\n  theme(plot.title = element_text(size=rel(1.4), hjust=0, face=\"plain\"))\n\ng_herpes_species\n\n\n\n\n\n\nCode# Get most prominent species for text\nherpes_species_collate &lt;- herpes_species_counts %&gt;% group_by(name, taxid) %&gt;% \n  summarize(n_reads_tot = sum(n_reads_hv), p_reads_mean = mean(p_reads_herpes), .groups=\"drop\") %&gt;% \n  arrange(desc(n_reads_tot))\n\n\nI was a bit suspicious of this last result, given that it only occurred in one sample, but according to BLASTN, at least, these human gammaherpesvirus 4 (a.k.a. EBV) matches are real:\n\nCode# Configure\nref_taxids_hv &lt;- c(10376)\nref_names_hv &lt;- sapply(ref_taxids_hv, function(x) viral_taxa %&gt;% filter(taxid == x) %&gt;% pull(name) %&gt;% first)\np_threshold &lt;- 0.1\n\n# Get taxon names\ntax_names_path &lt;- file.path(data_dir, \"taxid-names.tsv.gz\")\ntax_names &lt;- read_tsv(tax_names_path, show_col_types = FALSE)\n\n# Add missing names\ntax_names_new &lt;- tribble(~staxid, ~name,\n                         3050295, \"Cytomegalovirus humanbeta5\",\n                         459231, \"FLAG-tagging vector pFLAG97-TSR\",\n                         257877, \"Macaca thibetana thibetana\",\n                         256321, \"Lentiviral transfer vector pHsCXW\",\n                         419242, \"Shuttle vector pLvCmvMYOCDHA\",\n                         419243, \"Shuttle vector pLvCmvLacZ\",\n                         421868, \"Cloning vector pLvCmvLacZ.Gfp\",\n                         421869, \"Cloning vector pLvCmvMyocardin.Gfp\",\n                         426303, \"Lentiviral vector pNL-GFP-RRE(SA)\",\n                         436015, \"Lentiviral transfer vector pFTMGW\",\n                         454257, \"Shuttle vector pLvCmvMYOCD2aHA\",\n                         476184, \"Shuttle vector pLV.mMyoD::ERT2.eGFP\",\n                         476185, \"Shuttle vector pLV.hMyoD.eGFP\",\n                         591936, \"Piliocolobus tephrosceles\",\n                         627481, \"Lentiviral transfer vector pFTM3GW\",\n                         680261, \"Self-inactivating lentivirus vector pLV.C-EF1a.cyt-bGal.dCpG\",\n                         2952778, \"Expression vector pLV[Exp]-EGFP:T2A:Puro-EF1A\",\n                         3022699, \"Vector PAS_122122\",\n                         3025913, \"Vector pSIN-WP-mPGK-GDNF\",\n                         3105863, \"Vector pLKO.1-ZsGreen1\",\n                         3105864, \"Vector pLKO.1-ZsGreen1 mouse Wfs1 shRNA\",\n                         3108001, \"Cloning vector pLVSIN-CMV_Neo_v4.0\",\n                         3109234, \"Vector pTwist+Kan+High\",\n                         3117662, \"Cloning vector pLV[Exp]-CBA&gt;P301L\",\n                         3117663, \"Cloning vector pLV[Exp]-CBA&gt;P301L:T2A:mRuby3\",\n                         3117664, \"Cloning vector pLV[Exp]-CBA&gt;hMAPT[NM_005910.6](ns):T2A:mRuby3\",\n                         3117665, \"Cloning vector pLV[Exp]-CBA&gt;mRuby3\",\n                         3117666, \"Cloning vector pLV[Exp]-CBA&gt;mRuby3/NFAT3 fusion protein\",\n                         3117667, \"Cloning vector pLV[Exp]-Neo-mPGK&gt;{EGFP-hSEPT6}\",\n                         438045, \"Xenotropic MuLV-related virus\",\n                         447135, \"Myodes glareolus\",\n                         590745, \"Mus musculus mobilized endogenous polytropic provirus\",\n                         181858, \"Murine AIDS virus-related provirus\",\n                         356663, \"Xenotropic MuLV-related virus VP35\",\n                         356664, \"Xenotropic MuLV-related virus VP42\",\n                         373193, \"Xenotropic MuLV-related virus VP62\",\n                         286419, \"Canis lupus dingo\",\n                         415978, \"Sus scrofa scrofa\",\n                         494514, \"Vulpes lagopus\",\n                         3082113, \"Rangifer tarandus platyrhynchus\",\n                         3119969, \"Bubalus kerabau\")\ntax_names &lt;- bind_rows(tax_names, tax_names_new)\n\n# Get matches\nhv_blast_staxids &lt;- hv_reads_species %&gt;% filter(taxid %in% ref_taxids_hv) %&gt;%\n  group_by(taxid) %&gt;% mutate(n_seq = n()) %&gt;%\n  left_join(blast_paired, by=\"seq_id\") %&gt;%\n  mutate(staxid = as.integer(staxid)) %&gt;%\n  left_join(tax_names %&gt;% rename(sname=name), by=\"staxid\")\n\n# Count matches\nhv_blast_counts &lt;- hv_blast_staxids %&gt;%\n  group_by(taxid, name, staxid, sname, n_seq) %&gt;%\n  count %&gt;% mutate(p=n/n_seq)\n\n# Subset to major matches\nhv_blast_counts_major &lt;- hv_blast_counts %&gt;% \n  filter(n&gt;1, p&gt;p_threshold, !is.na(staxid)) %&gt;%\n  arrange(desc(p)) %&gt;% group_by(taxid) %&gt;%\n  filter(row_number() &lt;= 25) %&gt;%\n  mutate(name_display = ifelse(name == ref_names_hv[1], \"EBV\", name))\n\n# Plot\ng_hv_blast &lt;- ggplot(hv_blast_counts_major, mapping=aes(x=p, y=sname)) +\n  geom_col() +\n  facet_grid(name_display~., scales=\"free_y\", space=\"free_y\") +\n  scale_x_continuous(name=\"% mapped reads\", limits=c(0,1), \n                     breaks=seq(0,1,0.2), expand=c(0,0)) +\n  theme_base + theme(axis.title.y = element_blank())\ng_hv_blast\n\n\n\n\n\n\n\nFinally, here again are the overall relative abundances of the specific viral genera I picked out manually in my last entry:\n\nCode# Define reference genera\npath_genera_rna &lt;- c(\"Mamastrovirus\", \"Enterovirus\", \"Salivirus\", \"Kobuvirus\", \"Norovirus\", \"Sapovirus\", \"Rotavirus\", \"Alphacoronavirus\", \"Betacoronavirus\", \"Alphainfluenzavirus\", \"Betainfluenzavirus\", \"Lentivirus\")\npath_genera_dna &lt;- c(\"Mastadenovirus\", \"Alphapolyomavirus\", \"Betapolyomavirus\", \"Alphapapillomavirus\", \"Betapapillomavirus\", \"Gammapapillomavirus\", \"Orthopoxvirus\", \"Simplexvirus\",\n                     \"Lymphocryptovirus\", \"Cytomegalovirus\", \"Dependoparvovirus\")\npath_genera &lt;- bind_rows(tibble(name=path_genera_rna, genome_type=\"RNA genome\"),\n                         tibble(name=path_genera_dna, genome_type=\"DNA genome\")) %&gt;%\n  left_join(viral_taxa, by=\"name\")\n\n# Count in each sample\nmrg_hv_named_all &lt;- mrg_hv %&gt;% left_join(viral_taxa, by=\"taxid\")\nhv_reads_genus_all &lt;- raise_rank(mrg_hv_named_all, viral_taxa, \"genus\")\nn_path_genera &lt;- hv_reads_genus_all %&gt;% \n  group_by(sample, name, taxid) %&gt;% \n  count(name=\"n_reads_viral\") %&gt;% \n  inner_join(path_genera, by=c(\"name\", \"taxid\")) %&gt;%\n  left_join(read_counts_raw, by=c(\"sample\")) %&gt;%\n  mutate(p_reads_viral = n_reads_viral/n_reads_raw)\n\n# Pivot out and back to add zero lines\nn_path_genera_out &lt;- n_path_genera %&gt;% ungroup %&gt;% select(sample, name, n_reads_viral) %&gt;%\n  pivot_wider(names_from=\"name\", values_from=\"n_reads_viral\", values_fill=0) %&gt;%\n  pivot_longer(-sample, names_to=\"name\", values_to=\"n_reads_viral\") %&gt;%\n  left_join(read_counts_raw, by=\"sample\") %&gt;%\n  left_join(path_genera, by=\"name\") %&gt;%\n  mutate(p_reads_viral = n_reads_viral/n_reads_raw)\n\n## Aggregate across dates\nn_path_genera_stype &lt;- n_path_genera_out %&gt;% \n  group_by(name, taxid, genome_type) %&gt;%\n  summarize(n_reads_raw = sum(n_reads_raw),\n            n_reads_viral = sum(n_reads_viral), .groups = \"drop\") %&gt;%\n  mutate(sample=\"All samples\", location=\"All locations\",\n         p_reads_viral = n_reads_viral/n_reads_raw,\n         na_type = \"DNA\")\n\n# Plot\ng_path_genera &lt;- ggplot(n_path_genera_stype,\n                        aes(y=name, x=p_reads_viral)) +\n  geom_point() +\n  scale_x_log10(name=\"Relative abundance\") +\n  facet_grid(genome_type~., scales=\"free_y\") +\n  theme_base + theme(axis.title.y = element_blank())\ng_path_genera\n\n\n\n\n\n\n\nConclusion\nI’ve had trouble with this dataset previously, so I was surprised at how well this analysis went. It seems the improvements I’ve made to the pipeline over the last couple of months have really had an effect. Like other DNA wastewater datasets I’ve looked at recently, this one (a) has very low HV relative abundance overall, and (b) shows a very high preponderance of human mastadenovirus F. I have one more DNA dataset from the P2RA study to analyze with this pipeline, so we’ll see if this pattern persists there."
   }
 ]
\ No newline at end of file
diff --git a/notebooks/2024-05-01_maritz.qmd b/notebooks/2024-05-01_maritz.qmd
new file mode 100644
index 0000000..cb1748f
--- /dev/null
+++ b/notebooks/2024-05-01_maritz.qmd
@@ -0,0 +1,1206 @@
+---
+title: "Workflow analysis of Maritz et al. (2019)"
+subtitle: "Wastewater from NYC."
+author: "Will Bradshaw"
+date: 2024-05-01
+format:
+  html:
+    code-fold: true
+    code-tools: true
+    code-link: true
+    df-print: paged
+editor: visual
+title-block-banner: black
+---
+
+```{r}
+#| label: preamble
+#| include: false
+
+# Load packages
+library(tidyverse)
+library(cowplot)
+library(patchwork)
+library(fastqcr)
+library(RColorBrewer)
+source("../scripts/aux_plot-theme.R")
+
+# GGplot themes and scales
+theme_base <- theme_base + theme(aspect.ratio = NULL)
+theme_rotate <- theme_base + theme(
+    axis.text.x = element_text(hjust = 1, angle = 45),
+)
+theme_kit <- theme_rotate + theme(
+  axis.title.x = element_blank(),
+)
+theme_xblank <- theme_kit + theme(
+  axis.text.x = element_blank()
+)
+tnl <- theme(legend.position = "none")
+```
+
+Continuing my analysis of datasets from the [P2RA preprint](https://doi.org/10.1101/2023.12.22.23300450), I analyzed the data from [Maritz et al. (2019)](https://doi.org/10.1038/s41396-019-0467-z), a study that used DNA sequencing of wastewater samples to characterize protist diversity and temporal diversity in New York City. Samples for this study underwent direct DNA extraction without a dedicated concentration step, then underwent library prep and Illumina sequencing on a HiSeq Rapid Run (2x250bp).
+
+# The raw data
+
+16 samples were collected from 14 treatment plants in NYC in November 2014. These samples yielded 8.6M-18.3M (mean 10.8M) reads per sample, for a total of 172M read pairs (84 gigabases of sequence). Read qualities were mostly high; adapter levels were moderate; inferred duplication levels were low.
+
+```{r}
+#| warning: false
+#| label: import-qc-data
+
+# Importing the data is a bit more complicated this time as the samples are split across three pipeline runs
+data_dir <- "../data/2024-05-01_maritz"
+
+# Data input paths
+libraries_path <- file.path(data_dir, "sample-metadata.csv")
+basic_stats_path <- file.path(data_dir, "qc_basic_stats.tsv.gz")
+adapter_stats_path <- file.path(data_dir, "qc_adapter_stats.tsv.gz")
+quality_base_stats_path <- file.path(data_dir, "qc_quality_base_stats.tsv.gz")
+quality_seq_stats_path <- file.path(data_dir, "qc_quality_sequence_stats.tsv.gz")
+
+# Import libraries and extract metadata from sample names
+libraries_raw <- lapply(libraries_path, read_csv, show_col_types = FALSE) %>%
+  bind_rows
+libraries <- libraries_raw %>%
+  mutate(sample = fct_inorder(sample))
+```
+
+```{r}
+#| label: process-qc-data
+
+# Import QC data
+stages <- c("raw_concat", "cleaned", "dedup", "ribo_initial", "ribo_secondary")
+import_basic <- function(paths){
+  lapply(paths, read_tsv, show_col_types = FALSE) %>% bind_rows %>%
+    inner_join(libraries, by="sample") %>%
+    arrange(sample) %>%
+    mutate(stage = factor(stage, levels = stages),
+           sample = fct_inorder(sample))
+}
+import_basic_paired <- function(paths){
+  import_basic(paths) %>% arrange(read_pair) %>% 
+    mutate(read_pair = fct_inorder(as.character(read_pair)))
+}
+basic_stats <- import_basic(basic_stats_path)
+adapter_stats <- import_basic_paired(adapter_stats_path)
+quality_base_stats <- import_basic_paired(quality_base_stats_path)
+quality_seq_stats <- import_basic_paired(quality_seq_stats_path)
+
+# Filter to raw data
+basic_stats_raw <- basic_stats %>% filter(stage == "raw_concat")
+adapter_stats_raw <- adapter_stats %>% filter(stage == "raw_concat")
+quality_base_stats_raw <- quality_base_stats %>% filter(stage == "raw_concat")
+quality_seq_stats_raw <- quality_seq_stats %>% filter(stage == "raw_concat")
+
+# Get key values for readout
+raw_read_counts <- basic_stats_raw %>% ungroup %>% 
+  summarize(rmin = min(n_read_pairs), rmax=max(n_read_pairs),
+            rmean=mean(n_read_pairs), 
+            rtot = sum(n_read_pairs),
+            btot = sum(n_bases_approx),
+            dmin = min(percent_duplicates), dmax=max(percent_duplicates),
+            dmean=mean(percent_duplicates), .groups = "drop")
+```
+
+```{r}
+#| fig-width: 9
+#| warning: false
+#| label: plot-basic-stats
+
+# Prepare data
+basic_stats_raw_metrics <- basic_stats_raw %>%
+  select(sample,
+         `# Read pairs` = n_read_pairs,
+         `Total base pairs\n(approx)` = n_bases_approx,
+         `% Duplicates\n(FASTQC)` = percent_duplicates) %>%
+  pivot_longer(-(sample), names_to = "metric", values_to = "value") %>%
+  mutate(metric = fct_inorder(metric))
+
+# Set up plot templates
+g_basic <- ggplot(basic_stats_raw_metrics, aes(x=sample, y=value)) +
+  geom_col(position = "dodge") +
+  scale_y_continuous(expand=c(0,0)) +
+  expand_limits(y=c(0,100)) +
+  facet_grid(metric~., scales = "free", space="free_x", switch="y") +
+  theme_kit + theme(
+    axis.title.y = element_blank(),
+    strip.text.y = element_text(face="plain")
+  )
+g_basic
+```
+
+```{r}
+#| label: plot-raw-quality
+
+# Set up plotting templates
+g_qual_raw <- ggplot(mapping=aes(linetype=read_pair, 
+                         group=interaction(sample,read_pair))) + 
+  scale_linetype_discrete(name = "Read Pair") +
+  guides(color=guide_legend(nrow=2,byrow=TRUE),
+         linetype = guide_legend(nrow=2,byrow=TRUE)) +
+  theme_base
+
+# Visualize adapters
+g_adapters_raw <- g_qual_raw + 
+  geom_line(aes(x=position, y=pc_adapters), data=adapter_stats_raw) +
+  scale_y_continuous(name="% Adapters", limits=c(0,NA),
+                     breaks = seq(0,100,1), expand=c(0,0)) +
+  scale_x_continuous(name="Position", limits=c(0,NA),
+                     breaks=seq(0,500,20), expand=c(0,0)) +
+  facet_grid(.~adapter)
+g_adapters_raw
+
+# Visualize quality
+g_quality_base_raw <- g_qual_raw +
+  geom_hline(yintercept=25, linetype="dashed", color="red") +
+  geom_hline(yintercept=30, linetype="dashed", color="red") +
+  geom_line(aes(x=position, y=mean_phred_score), data=quality_base_stats_raw) +
+  scale_y_continuous(name="Mean Phred score", expand=c(0,0), limits=c(10,45)) +
+  scale_x_continuous(name="Position", limits=c(0,NA),
+                     breaks=seq(0,500,20), expand=c(0,0))
+g_quality_base_raw
+
+g_quality_seq_raw <- g_qual_raw +
+  geom_vline(xintercept=25, linetype="dashed", color="red") +
+  geom_vline(xintercept=30, linetype="dashed", color="red") +
+  geom_line(aes(x=mean_phred_score, y=n_sequences), data=quality_seq_stats_raw) +
+  scale_x_continuous(name="Mean Phred score", expand=c(0,0)) +
+  scale_y_continuous(name="# Sequences", expand=c(0,0))
+g_quality_seq_raw
+```
+
+# Preprocessing
+
+About 6% of reads on average were lost during cleaning, and a further 2% during deduplication. Very few reads were lost during ribodepletion, as expected for DNA sequencing libraries.
+
+```{r}
+#| label: preproc-table
+n_reads_rel <- basic_stats %>% 
+  select(sample, stage, 
+         percent_duplicates, n_read_pairs) %>%
+  group_by(sample) %>% arrange(sample, stage) %>%
+  mutate(p_reads_retained = replace_na(n_read_pairs / lag(n_read_pairs), 0),
+         p_reads_lost = 1 - p_reads_retained,
+         p_reads_retained_abs = n_read_pairs / n_read_pairs[1],
+         p_reads_lost_abs = 1-p_reads_retained_abs,
+         p_reads_lost_abs_marginal = replace_na(p_reads_lost_abs - lag(p_reads_lost_abs), 0))
+n_reads_rel_display <- n_reads_rel %>% 
+  group_by(Stage=stage) %>% 
+  summarize(`% Total Reads Lost (Cumulative)` = paste0(round(min(p_reads_lost_abs*100),1), "-", round(max(p_reads_lost_abs*100),1), " (mean ", round(mean(p_reads_lost_abs*100),1), ")"),
+            `% Total Reads Lost (Marginal)` = paste0(round(min(p_reads_lost_abs_marginal*100),1), "-", round(max(p_reads_lost_abs_marginal*100),1), " (mean ", round(mean(p_reads_lost_abs_marginal*100),1), ")"), .groups="drop") %>% 
+  filter(Stage != "raw_concat") %>%
+  mutate(Stage = Stage %>% as.numeric %>% factor(labels=c("Trimming & filtering", "Deduplication", "Initial ribodepletion", "Secondary ribodepletion")))
+n_reads_rel_display
+```
+
+```{r}
+#| label: preproc-figures
+#| warning: false
+#| fig-height: 4
+#| fig-width: 6
+
+g_stage_base <- ggplot(mapping=aes(x=stage, group=sample)) +
+  theme_kit
+
+# Plot reads over preprocessing
+g_reads_stages <- g_stage_base +
+  geom_line(aes(y=n_read_pairs), data=basic_stats) +
+  scale_y_continuous("# Read pairs", expand=c(0,0), limits=c(0,NA))
+g_reads_stages
+
+# Plot relative read losses during preprocessing
+g_reads_rel <- g_stage_base +
+  geom_line(aes(y=p_reads_lost_abs_marginal), data=n_reads_rel) +
+  scale_y_continuous("% Total Reads Lost", expand=c(0,0), 
+                     labels = function(x) x*100)
+g_reads_rel
+```
+
+Data cleaning was very successful at removing adapters and improving read qualities:
+
+```{r}
+#| warning: false
+#| label: plot-quality
+#| fig-height: 7
+
+g_qual <- ggplot(mapping=aes(linetype=read_pair, 
+                         group=interaction(sample,read_pair))) + 
+  scale_linetype_discrete(name = "Read Pair") +
+  guides(color=guide_legend(nrow=2,byrow=TRUE),
+         linetype = guide_legend(nrow=2,byrow=TRUE)) +
+  theme_base
+
+# Visualize adapters
+g_adapters <- g_qual + 
+  geom_line(aes(x=position, y=pc_adapters), data=adapter_stats) +
+  scale_y_continuous(name="% Adapters", limits=c(0,20),
+                     breaks = seq(0,50,10), expand=c(0,0)) +
+  scale_x_continuous(name="Position", limits=c(0,NA),
+                     breaks=seq(0,140,20), expand=c(0,0)) +
+  facet_grid(stage~adapter)
+g_adapters
+
+# Visualize quality
+g_quality_base <- g_qual +
+  geom_hline(yintercept=25, linetype="dashed", color="red") +
+  geom_hline(yintercept=30, linetype="dashed", color="red") +
+  geom_line(aes(x=position, y=mean_phred_score), data=quality_base_stats) +
+  scale_y_continuous(name="Mean Phred score", expand=c(0,0), limits=c(10,45)) +
+  scale_x_continuous(name="Position", limits=c(0,NA),
+                     breaks=seq(0,140,20), expand=c(0,0)) +
+  facet_grid(stage~.)
+g_quality_base
+
+g_quality_seq <- g_qual +
+  geom_vline(xintercept=25, linetype="dashed", color="red") +
+  geom_vline(xintercept=30, linetype="dashed", color="red") +
+  geom_line(aes(x=mean_phred_score, y=n_sequences), data=quality_seq_stats) +
+  scale_x_continuous(name="Mean Phred score", expand=c(0,0)) +
+  scale_y_continuous(name="# Sequences", expand=c(0,0)) +
+  facet_grid(stage~.)
+g_quality_seq
+```
+
+According to FASTQC, cleaning + deduplication was very effective at reducing measured duplicate levels in the few samples that required it:
+
+```{r}
+#| label: preproc-dedup
+#| fig-height: 3.5
+#| fig-width: 6
+
+stage_dup <- basic_stats %>% group_by(stage) %>% 
+  summarize(dmin = min(percent_duplicates), dmax=max(percent_duplicates),
+            dmean=mean(percent_duplicates), .groups = "drop")
+
+g_dup_stages <- g_stage_base +
+  geom_line(aes(y=percent_duplicates), data=basic_stats) +
+  scale_y_continuous("% Duplicates", limits=c(0,NA), expand=c(0,0))
+g_dup_stages
+
+g_readlen_stages <- g_stage_base + 
+  geom_line(aes(y=mean_seq_len), data=basic_stats) +
+  scale_y_continuous("Mean read length (nt)", expand=c(0,0), limits=c(0,NA))
+g_readlen_stages
+```
+
+# High-level composition
+
+As before, to assess the high-level composition of the reads, I ran the ribodepleted files through Kraken (using the Standard 16 database) and summarized the results with Bracken. Combining these results with the read counts above gives us a breakdown of the inferred composition of the samples:
+
+```{r}
+#| label: prepare-composition
+
+classifications <- c("Filtered", "Duplicate", "Ribosomal", "Unassigned",
+                     "Bacterial", "Archaeal", "Viral", "Human")
+
+# Import composition data
+comp_path <- file.path(data_dir, "taxonomic_composition.tsv.gz")
+comp <- read_tsv(comp_path, show_col_types = FALSE) %>%
+  left_join(libraries, by="sample") %>%
+  mutate(classification = factor(classification, levels = classifications))
+  
+
+# Summarize composition
+read_comp_summ <- comp %>% 
+  group_by(classification) %>%
+  summarize(n_reads = sum(n_reads), .groups = "drop_last") %>%
+  mutate(n_reads = replace_na(n_reads,0),
+    p_reads = n_reads/sum(n_reads),
+    pc_reads = p_reads*100)
+```
+
+```{r}
+#| label: plot-composition-all
+#| fig-height: 7
+#| fig-width: 8
+
+# Prepare plotting templates
+g_comp_base <- ggplot(mapping=aes(x=sample, y=p_reads, fill=classification)) +
+  theme_kit
+scale_y_pc_reads <- purrr::partial(scale_y_continuous, name = "% Reads",
+                                   expand = c(0,0), labels = function(y) y*100)
+
+# Plot overall composition
+g_comp <- g_comp_base + geom_col(data = comp, position = "stack", width=1) +
+  scale_y_pc_reads(limits = c(0,1.01), breaks = seq(0,1,0.2)) +
+  scale_fill_brewer(palette = "Set1", name = "Classification")
+g_comp
+
+# Plot composition of minor components
+comp_minor <- comp %>% 
+  filter(classification %in% c("Archaeal", "Viral", "Human", "Other"))
+palette_minor <- brewer.pal(9, "Set1")[6:9]
+g_comp_minor <- g_comp_base + 
+  geom_col(data=comp_minor, position = "stack", width=1) +
+  scale_y_pc_reads() +
+  scale_fill_manual(values=palette_minor, name = "Classification")
+g_comp_minor
+
+```
+
+```{r}
+#| label: composition-summary
+
+p_reads_summ_group <- comp %>%
+  mutate(classification = ifelse(classification %in% c("Filtered", "Duplicate", "Unassigned"), "Excluded", as.character(classification)),
+         classification = fct_inorder(classification)) %>%
+  group_by(classification, sample) %>%
+  summarize(p_reads = sum(p_reads), .groups = "drop") %>%
+  group_by(classification) %>%
+  summarize(pc_min = min(p_reads)*100, pc_max = max(p_reads)*100, 
+            pc_mean = mean(p_reads)*100, .groups = "drop")
+p_reads_summ_prep <- p_reads_summ_group %>%
+  mutate(classification = fct_inorder(classification),
+         pc_min = pc_min %>% signif(digits=2) %>% sapply(format, scientific=FALSE, trim=TRUE, digits=2),
+         pc_max = pc_max %>% signif(digits=2) %>% sapply(format, scientific=FALSE, trim=TRUE, digits=2),
+         pc_mean = pc_mean %>% signif(digits=2) %>% sapply(format, scientific=FALSE, trim=TRUE, digits=2),
+         display = paste0(pc_min, "-", pc_max, "% (mean ", pc_mean, "%)"))
+p_reads_summ <- p_reads_summ_prep %>%
+  select(Classification=classification, 
+         `Read Fraction`=display) %>%
+  arrange(Classification)
+p_reads_summ
+```
+
+As in previous DNA datasets, the vast majority of classified reads were bacterial in origin. Viral fraction averaged 0.13%, though one samples (NYC-08) reached almost 1%. As is common for DNA data, viral reads were overwhelmingly dominated by *Caudoviricetes* phages:
+
+```{r}
+#| label: extract-viral-taxa
+
+# Get Kraken reports
+reports_path <- file.path(data_dir, "kraken_reports.tsv.gz")
+reports <- read_tsv(reports_path, show_col_types = FALSE)
+
+# Get viral taxonomy
+viral_taxa_path <- file.path(data_dir, "viral-taxids.tsv.gz")
+viral_taxa <- read_tsv(viral_taxa_path, show_col_types = FALSE)
+
+# Filter to viral taxa
+kraken_reports_viral <- filter(reports, taxid %in% viral_taxa$taxid) %>%
+  group_by(sample) %>%
+  mutate(p_reads_viral = n_reads_clade/n_reads_clade[1])
+kraken_reports_viral_cleaned <- kraken_reports_viral %>%
+  inner_join(libraries, by="sample") %>%
+  select(-pc_reads_total, -n_reads_direct, -contains("minimizers")) %>%
+  select(name, taxid, p_reads_viral, n_reads_clade, everything())
+
+viral_classes <- kraken_reports_viral_cleaned %>% filter(rank == "C")
+viral_families <- kraken_reports_viral_cleaned %>% filter(rank == "F")
+
+```
+
+```{r}
+#| label: viral-class-composition
+
+major_threshold <- 0.02
+
+# Identify major viral classes
+viral_classes_major_tab <- viral_classes %>% 
+  group_by(name, taxid) %>%
+  summarize(p_reads_viral_max = max(p_reads_viral), .groups="drop") %>%
+  filter(p_reads_viral_max >= major_threshold)
+viral_classes_major_list <- viral_classes_major_tab %>% pull(name)
+viral_classes_major <- viral_classes %>% 
+  filter(name %in% viral_classes_major_list) %>%
+  select(name, taxid, sample, p_reads_viral)
+viral_classes_minor <- viral_classes_major %>% 
+  group_by(sample) %>%
+  summarize(p_reads_viral_major = sum(p_reads_viral), .groups = "drop") %>%
+  mutate(name = "Other", taxid=NA, p_reads_viral = 1-p_reads_viral_major) %>%
+  select(name, taxid, sample, p_reads_viral)
+viral_classes_display <- bind_rows(viral_classes_major, viral_classes_minor) %>%
+  arrange(desc(p_reads_viral)) %>% 
+  mutate(name = factor(name, levels=c(viral_classes_major_list, "Other")),
+         p_reads_viral = pmax(p_reads_viral, 0)) %>%
+  rename(p_reads = p_reads_viral, classification=name)
+
+palette_viral <- c(brewer.pal(12, "Set3"), brewer.pal(8, "Dark2"))
+g_classes <- g_comp_base + 
+  geom_col(data=viral_classes_display, position = "stack", width=1) +
+  scale_y_continuous(name="% Viral Reads", limits=c(0,1.01), breaks = seq(0,1,0.2),
+                     expand=c(0,0), labels = function(y) y*100) +
+  scale_fill_manual(values=palette_viral, name = "Viral class")
+  
+g_classes
+
+```
+
+# Human-infecting virus reads: validation
+
+Next, I investigated the human-infecting virus read content of these unenriched samples. A grand total of 199 reads were identified as putatively human-viral:
+
+```{r}
+#| label: hv-read-counts
+
+# Import HV read data
+hv_reads_filtered_path <- file.path(data_dir, "hv_hits_putative_filtered.tsv.gz")
+hv_reads_filtered <- lapply(hv_reads_filtered_path, read_tsv,
+                            show_col_types = FALSE) %>%
+  bind_rows() %>%
+  left_join(libraries, by="sample")
+
+# Count reads
+n_hv_filtered <- hv_reads_filtered %>%
+  group_by(sample, seq_id) %>% count %>%
+  group_by(sample) %>% count %>% 
+  inner_join(basic_stats %>% filter(stage == "ribo_initial") %>% 
+               select(sample, n_read_pairs), by="sample") %>% 
+  rename(n_putative = n, n_total = n_read_pairs) %>% 
+  mutate(p_reads = n_putative/n_total, pc_reads = p_reads * 100)
+n_hv_filtered_summ <- n_hv_filtered %>% ungroup %>%
+  summarize(n_putative = sum(n_putative), n_total = sum(n_total), 
+            .groups="drop") %>% 
+  mutate(p_reads = n_putative/n_total, pc_reads = p_reads*100)
+```
+
+```{r}
+#| label: plot-hv-scores
+#| warning: false
+#| fig-width: 8
+
+# Collapse multi-entry sequences
+rmax <- purrr::partial(max, na.rm = TRUE)
+collapse <- function(x) ifelse(all(x == x[1]), x[1], paste(x, collapse="/"))
+mrg <- hv_reads_filtered %>% 
+  mutate(adj_score_max = pmax(adj_score_fwd, adj_score_rev, na.rm = TRUE)) %>%
+  arrange(desc(adj_score_max)) %>%
+  group_by(seq_id) %>%
+  summarize(sample = collapse(sample),
+            genome_id = collapse(genome_id),
+            taxid_best = taxid[1],
+            taxid = collapse(as.character(taxid)),
+            best_alignment_score_fwd = rmax(best_alignment_score_fwd),
+            best_alignment_score_rev = rmax(best_alignment_score_rev),
+            query_len_fwd = rmax(query_len_fwd),
+            query_len_rev = rmax(query_len_rev),
+            query_seq_fwd = query_seq_fwd[!is.na(query_seq_fwd)][1],
+            query_seq_rev = query_seq_rev[!is.na(query_seq_rev)][1],
+            classified = rmax(classified),
+            assigned_name = collapse(assigned_name),
+            assigned_taxid_best = assigned_taxid[1],
+            assigned_taxid = collapse(as.character(assigned_taxid)),
+            assigned_hv = rmax(assigned_hv),
+            hit_hv = rmax(hit_hv),
+            encoded_hits = collapse(encoded_hits),
+            adj_score_fwd = rmax(adj_score_fwd),
+            adj_score_rev = rmax(adj_score_rev)
+            ) %>%
+  inner_join(libraries, by="sample") %>%
+  mutate(kraken_label = ifelse(assigned_hv, "Kraken2 HV\nassignment",
+                               ifelse(hit_hv, "Kraken2 HV\nhit",
+                                      "No hit or\nassignment"))) %>%
+  mutate(adj_score_max = pmax(adj_score_fwd, adj_score_rev),
+         highscore = adj_score_max >= 20)
+
+# Plot results
+geom_vhist <- purrr::partial(geom_histogram, binwidth=5, boundary=0)
+g_vhist_base <- ggplot(mapping=aes(x=adj_score_max)) +
+  geom_vline(xintercept=20, linetype="dashed", color="red") +
+  facet_wrap(~kraken_label, labeller = labeller(kit = label_wrap_gen(20)), scales = "free_y") +
+  scale_x_continuous(name = "Maximum adjusted alignment score") + 
+  scale_y_continuous(name="# Read pairs") + 
+  theme_base 
+g_vhist_0 <- g_vhist_base + geom_vhist(data=mrg)
+g_vhist_0
+```
+
+BLASTing these reads against nt, we find that the pipeline performs well, with only a single high-scoring false-positive read:
+
+```{r}
+#| label: process-blast-data
+#| warning: false
+
+# Import paired BLAST results
+blast_paired_path <- file.path(data_dir, "hv_hits_blast_paired.tsv.gz")
+blast_paired <- read_tsv(blast_paired_path, show_col_types = FALSE)
+
+# Add viral status
+blast_viral <- mutate(blast_paired, viral = staxid %in% viral_taxa$taxid) %>%
+  mutate(viral_full = viral & n_reads == 2)
+
+# Compare to Kraken & Bowtie assignments
+match_taxid <- function(taxid_1, taxid_2){
+  p1 <- mapply(grepl, paste0("/", taxid_1, "$"), taxid_2)
+  p2 <- mapply(grepl, paste0("^", taxid_1, "/"), taxid_2)
+  p3 <- mapply(grepl, paste0("^", taxid_1, "$"), taxid_2)
+  out <- setNames(p1|p2|p3, NULL)
+  return(out)
+}
+mrg_assign <- mrg %>% select(sample, seq_id, taxid, assigned_taxid, adj_score_max)
+blast_assign <- inner_join(blast_viral, mrg_assign, by="seq_id") %>%
+    mutate(taxid_match_bowtie = match_taxid(staxid, taxid),
+           taxid_match_kraken = match_taxid(staxid, assigned_taxid),
+           taxid_match_any = taxid_match_bowtie | taxid_match_kraken)
+blast_out <- blast_assign %>%
+  group_by(seq_id) %>%
+  summarize(viral_status = ifelse(any(viral_full), 2,
+                                  ifelse(any(taxid_match_any), 2,
+                                             ifelse(any(viral), 1, 0))),
+            .groups = "drop")
+```
+
+```{r}
+#| label: plot-blast-results
+#| fig-height: 6
+#| warning: false
+
+# Merge BLAST results with unenriched read data
+mrg_blast <- full_join(mrg, blast_out, by="seq_id") %>%
+  mutate(viral_status = replace_na(viral_status, 0),
+         viral_status_out = ifelse(viral_status == 0, FALSE, TRUE))
+
+# Plot
+g_vhist_1 <- g_vhist_base + geom_vhist(data=mrg_blast, mapping=aes(fill=viral_status_out)) +
+  scale_fill_brewer(palette = "Set1", name = "Viral status")
+g_vhist_1
+```
+
+My usual disjunctive score threshold of 20 gave precision, sensitivity, and F1 scores all \>96%:
+
+```{r}
+#| label: plot-f1
+test_sens_spec <- function(tab, score_threshold){
+  tab_retained <- tab %>% 
+    mutate(retain_score = (adj_score_fwd > score_threshold | adj_score_rev > score_threshold),
+           retain = assigned_hv | retain_score) %>%
+    group_by(viral_status_out, retain) %>% count
+  pos_tru <- tab_retained %>% filter(viral_status_out == "TRUE", retain) %>% pull(n) %>% sum
+  pos_fls <- tab_retained %>% filter(viral_status_out != "TRUE", retain) %>% pull(n) %>% sum
+  neg_tru <- tab_retained %>% filter(viral_status_out != "TRUE", !retain) %>% pull(n) %>% sum
+  neg_fls <- tab_retained %>% filter(viral_status_out == "TRUE", !retain) %>% pull(n) %>% sum
+  sensitivity <- pos_tru / (pos_tru + neg_fls)
+  specificity <- neg_tru / (neg_tru + pos_fls)
+  precision   <- pos_tru / (pos_tru + pos_fls)
+  f1 <- 2 * precision * sensitivity / (precision + sensitivity)
+  out <- tibble(threshold=score_threshold, sensitivity=sensitivity, 
+                specificity=specificity, precision=precision, f1=f1)
+  return(out)
+}
+range_f1 <- function(intab, inrange=15:45){
+  tss <- purrr::partial(test_sens_spec, tab=intab)
+  stats <- lapply(inrange, tss) %>% bind_rows %>%
+    pivot_longer(!threshold, names_to="metric", values_to="value")
+  return(stats)
+}
+stats_0 <- range_f1(mrg_blast)
+g_stats_0 <- ggplot(stats_0, aes(x=threshold, y=value, color=metric)) +
+  geom_vline(xintercept=20, color = "red", linetype = "dashed") +
+  geom_line() +
+  scale_y_continuous(name = "Value", limits=c(0,1), breaks = seq(0,1,0.2), expand = c(0,0)) +
+  scale_x_continuous(name = "Adjusted Score Threshold", expand = c(0,0)) +
+  scale_color_brewer(palette="Dark2") +
+  theme_base
+g_stats_0
+stats_0 %>% filter(threshold == 20) %>% 
+  select(Threshold=threshold, Metric=metric, Value=value)
+```
+
+# Human-infecting viruses: overall relative abundance
+
+```{r}
+#| label: count-hv-reads
+
+# Get raw read counts
+read_counts_raw <- basic_stats_raw %>%
+  select(sample, n_reads_raw = n_read_pairs)
+
+# Get HV read counts
+mrg_hv <- mrg %>% mutate(hv_status = assigned_hv | highscore) %>%
+  rename(taxid_all = taxid, taxid = taxid_best)
+read_counts_hv <- mrg_hv %>% filter(hv_status) %>% group_by(sample) %>% 
+  count(name="n_reads_hv")
+read_counts <- read_counts_raw %>% left_join(read_counts_hv, by="sample") %>%
+  mutate(n_reads_hv = replace_na(n_reads_hv, 0))
+
+# Aggregate
+read_counts_grp <- read_counts %>%
+  summarize(n_reads_raw = sum(n_reads_raw),
+            n_reads_hv = sum(n_reads_hv), .groups="drop") %>%
+  mutate(sample= "All samples")
+read_counts_agg <- bind_rows(read_counts, read_counts_grp) %>%
+  mutate(p_reads_hv = n_reads_hv/n_reads_raw,
+         sample = factor(sample, levels=c(levels(libraries$sample), "All samples")))
+```
+
+Applying a disjunctive cutoff at S=20 identifies 162 read pairs as human-viral. This gives an overall relative HV abundance of $9.42 \times 10^{-7}$; higher than [Ng](https://data.securebio.org/wills-public-notebook/notebooks/2024-05-01_ng.html) and [Bengtsson-Palme](https://data.securebio.org/wills-public-notebook/notebooks/2024-05-01_bengtsson-palme.html) but lower than most other datasets I've analyzed with this pipeline:
+
+```{r}
+#| label: plot-hv-ra
+#| warning: false
+# Visualize
+g_phv_agg <- ggplot(read_counts_agg, aes(x=sample)) +
+  geom_point(aes(y=p_reads_hv)) +
+  scale_y_log10("Relative abundance of human virus reads") +
+  theme_kit
+g_phv_agg
+```
+
+```{r}
+#| label: ra-hv-past
+
+# Collate past RA values
+ra_past <- tribble(~dataset, ~ra, ~na_type, ~panel_enriched,
+                   "Brumfield", 5e-5, "RNA", FALSE,
+                   "Brumfield", 3.66e-7, "DNA", FALSE,
+                   "Spurbeck", 5.44e-6, "RNA", FALSE,
+                   "Yang", 3.62e-4, "RNA", FALSE,
+                   "Rothman (unenriched)", 1.87e-5, "RNA", FALSE,
+                   "Rothman (panel-enriched)", 3.3e-5, "RNA", TRUE,
+                   "Crits-Christoph (unenriched)", 1.37e-5, "RNA", FALSE,
+                   "Crits-Christoph (panel-enriched)", 1.26e-2, "RNA", TRUE,
+                   "Prussin (non-control)", 1.63e-5, "RNA", FALSE,
+                   "Prussin (non-control)", 4.16e-5, "DNA", FALSE,
+                   "Rosario (non-control)", 1.21e-5, "RNA", FALSE,
+                   "Rosario (non-control)", 1.50e-4, "DNA", FALSE,
+                   "Leung", 1.73e-5, "DNA", FALSE,
+                   "Brinch", 3.88e-6, "DNA", FALSE,
+                   "Bengtsson-Palme", 8.86e-8, "DNA", FALSE,
+                   "Ng", 2.90e-7, "DNA", FALSE
+)
+
+# Collate new RA values
+ra_new <- tribble(~dataset, ~ra, ~na_type, ~panel_enriched,
+                  "Maritz", 9.42e-7, "DNA", FALSE)
+
+
+# Plot
+scale_color_na <- purrr::partial(scale_color_brewer, palette="Set1",
+                                 name="Nucleic acid type")
+ra_comp <- bind_rows(ra_past, ra_new) %>% mutate(dataset = fct_inorder(dataset))
+g_ra_comp <- ggplot(ra_comp, aes(y=dataset, x=ra, color=na_type)) +
+  geom_point() +
+  scale_color_na() +
+  scale_x_log10(name="Relative abundance of human virus reads") +
+  theme_base + theme(axis.title.y = element_blank())
+g_ra_comp
+```
+
+# Human-infecting viruses: taxonomy and composition
+
+In investigating the taxonomy of human-infecting virus reads, I restricted my analysis to samples with more than 5 HV read pairs total across all viruses, to reduce noise arising from extremely low HV read counts in some samples. 10 samples met this criterion.
+
+At the family level, most samples were dominated by *Adenoviridae*, *Polyomaviridae* and *Papillomaviridae.* However, one sample, NYC-03, was overwhelmingly dominated by *Herpesviridae*:
+
+```{r}
+#| label: raise-hv-taxa
+
+# Get viral taxon names for putative HV reads
+viral_taxa$name[viral_taxa$taxid == 249588] <- "Mamastrovirus"
+viral_taxa$name[viral_taxa$taxid == 194960] <- "Kobuvirus"
+viral_taxa$name[viral_taxa$taxid == 688449] <- "Salivirus"
+viral_taxa$name[viral_taxa$taxid == 585893] <- "Picobirnaviridae"
+viral_taxa$name[viral_taxa$taxid == 333922] <- "Betapapillomavirus"
+viral_taxa$name[viral_taxa$taxid == 334207] <- "Betapapillomavirus 3"
+viral_taxa$name[viral_taxa$taxid == 369960] <- "Porcine type-C oncovirus"
+viral_taxa$name[viral_taxa$taxid == 333924] <- "Betapapillomavirus 2"
+viral_taxa$name[viral_taxa$taxid == 687329] <- "Anelloviridae"
+viral_taxa$name[viral_taxa$taxid == 325455] <- "Gammapapillomavirus"
+viral_taxa$name[viral_taxa$taxid == 333750] <- "Alphapapillomavirus"
+viral_taxa$name[viral_taxa$taxid == 694002] <- "Betacoronavirus"
+viral_taxa$name[viral_taxa$taxid == 334202] <- "Mupapillomavirus"
+viral_taxa$name[viral_taxa$taxid == 197911] <- "Alphainfluenzavirus"
+viral_taxa$name[viral_taxa$taxid == 186938] <- "Respirovirus"
+viral_taxa$name[viral_taxa$taxid == 333926] <- "Gammapapillomavirus 1"
+viral_taxa$name[viral_taxa$taxid == 337051] <- "Betapapillomavirus 1"
+viral_taxa$name[viral_taxa$taxid == 337043] <- "Alphapapillomavirus 4"
+viral_taxa$name[viral_taxa$taxid == 694003] <- "Betacoronavirus 1"
+viral_taxa$name[viral_taxa$taxid == 334204] <- "Mupapillomavirus 2"
+viral_taxa$name[viral_taxa$taxid == 334208] <- "Betapapillomavirus 4"
+viral_taxa$name[viral_taxa$taxid == 333928] <- "Gammapapillomavirus 2"
+viral_taxa$name[viral_taxa$taxid == 337039] <- "Alphapapillomavirus 2"
+viral_taxa$name[viral_taxa$taxid == 333929] <- "Gammapapillomavirus 3"
+viral_taxa$name[viral_taxa$taxid == 337042] <- "Alphapapillomavirus 7"
+viral_taxa$name[viral_taxa$taxid == 334203] <- "Mupapillomavirus 1"
+viral_taxa$name[viral_taxa$taxid == 333757] <- "Alphapapillomavirus 8"
+viral_taxa$name[viral_taxa$taxid == 337050] <- "Alphapapillomavirus 6"
+viral_taxa$name[viral_taxa$taxid == 333767] <- "Alphapapillomavirus 3"
+viral_taxa$name[viral_taxa$taxid == 333754] <- "Alphapapillomavirus 10"
+viral_taxa$name[viral_taxa$taxid == 687363] <- "Torque teno virus 24"
+viral_taxa$name[viral_taxa$taxid == 687342] <- "Torque teno virus 3"
+viral_taxa$name[viral_taxa$taxid == 687359] <- "Torque teno virus 20"
+viral_taxa$name[viral_taxa$taxid == 194441] <- "Primate T-lymphotropic virus 2"
+viral_taxa$name[viral_taxa$taxid == 334209] <- "Betapapillomavirus 5"
+viral_taxa$name[viral_taxa$taxid == 194965] <- "Aichivirus B"
+viral_taxa$name[viral_taxa$taxid == 333930] <- "Gammapapillomavirus 4"
+viral_taxa$name[viral_taxa$taxid == 337048] <- "Alphapapillomavirus 1"
+viral_taxa$name[viral_taxa$taxid == 337041] <- "Alphapapillomavirus 9"
+viral_taxa$name[viral_taxa$taxid == 337049] <- "Alphapapillomavirus 11"
+viral_taxa$name[viral_taxa$taxid == 337044] <- "Alphapapillomavirus 5"
+
+# Filter samples and add viral taxa information
+samples_keep <- read_counts %>% filter(n_reads_hv > 5) %>% pull(sample)
+mrg_hv_named <- mrg_hv %>% filter(sample %in% samples_keep, hv_status) %>% left_join(viral_taxa, by="taxid") 
+
+# Discover viral species & genera for HV reads
+raise_rank <- function(read_db, taxid_db, out_rank = "species", verbose = FALSE){
+  # Get higher ranks than search rank
+  ranks <- c("subspecies", "species", "subgenus", "genus", "subfamily", "family", "suborder", "order", "class", "subphylum", "phylum", "kingdom", "superkingdom")
+  rank_match <- which.max(ranks == out_rank)
+  high_ranks <- ranks[rank_match:length(ranks)]
+  # Merge read DB and taxid DB
+  reads <- read_db %>% select(-parent_taxid, -rank, -name) %>%
+    left_join(taxid_db, by="taxid")
+  # Extract sequences that are already at appropriate rank
+  reads_rank <- filter(reads, rank == out_rank)
+  # Drop sequences at a higher rank and return unclassified sequences
+  reads_norank <- reads %>% filter(rank != out_rank, !rank %in% high_ranks, !is.na(taxid))
+  while(nrow(reads_norank) > 0){ # As long as there are unclassified sequences...
+    # Promote read taxids and re-merge with taxid DB, then re-classify and filter
+    reads_remaining <- reads_norank %>% mutate(taxid = parent_taxid) %>%
+      select(-parent_taxid, -rank, -name) %>%
+      left_join(taxid_db, by="taxid")
+    reads_rank <- reads_remaining %>% filter(rank == out_rank) %>%
+      bind_rows(reads_rank)
+    reads_norank <- reads_remaining %>%
+      filter(rank != out_rank, !rank %in% high_ranks, !is.na(taxid))
+  }
+  # Finally, extract and append reads that were excluded during the process
+  reads_dropped <- reads %>% filter(!seq_id %in% reads_rank$seq_id)
+  reads_out <- reads_rank %>% bind_rows(reads_dropped) %>%
+    select(-parent_taxid, -rank, -name) %>%
+    left_join(taxid_db, by="taxid")
+  return(reads_out)
+}
+hv_reads_species <- raise_rank(mrg_hv_named, viral_taxa, "species")
+hv_reads_genus <- raise_rank(mrg_hv_named, viral_taxa, "genus")
+hv_reads_family <- raise_rank(mrg_hv_named, viral_taxa, "family")
+```
+
+```{r}
+#| label: hv-family
+#| fig-height: 5
+#| fig-width: 7
+
+threshold_major_family <- 0.02
+
+# Count reads for each human-viral family
+hv_family_counts <- hv_reads_family %>% 
+  group_by(sample, name, taxid) %>%
+  count(name = "n_reads_hv") %>%
+  group_by(sample) %>%
+  mutate(p_reads_hv = n_reads_hv/sum(n_reads_hv))
+
+# Identify high-ranking families and group others
+hv_family_major_tab <- hv_family_counts %>% group_by(name) %>% 
+  filter(p_reads_hv == max(p_reads_hv)) %>% filter(row_number() == 1) %>%
+  arrange(desc(p_reads_hv)) %>% filter(p_reads_hv > threshold_major_family)
+hv_family_counts_major <- hv_family_counts %>%
+  mutate(name_display = ifelse(name %in% hv_family_major_tab$name, name, "Other")) %>%
+  group_by(sample, name_display) %>%
+  summarize(n_reads_hv = sum(n_reads_hv), p_reads_hv = sum(p_reads_hv), 
+            .groups="drop") %>%
+  mutate(name_display = factor(name_display, 
+                               levels = c(hv_family_major_tab$name, "Other")))
+hv_family_counts_display <- hv_family_counts_major %>%
+  rename(p_reads = p_reads_hv, classification = name_display)
+
+# Plot
+g_hv_family <- g_comp_base + 
+  geom_col(data=hv_family_counts_display, position = "stack", width=1) +
+  scale_y_continuous(name="% HV Reads", limits=c(0,1.01), 
+                     breaks = seq(0,1,0.2),
+                     expand=c(0,0), labels = function(y) y*100) +
+  scale_fill_manual(values=palette_viral, name = "Viral family") +
+  labs(title="Family composition of human-viral reads") +
+  guides(fill=guide_legend(ncol=4)) +
+  theme(plot.title = element_text(size=rel(1.4), hjust=0, face="plain"))
+g_hv_family
+
+# Get most prominent families for text
+hv_family_collate <- hv_family_counts %>% group_by(name, taxid) %>% 
+  summarize(n_reads_tot = sum(n_reads_hv),
+            p_reads_max = max(p_reads_hv), .groups="drop") %>% 
+  arrange(desc(n_reads_tot))
+```
+
+In investigating individual viral families, to avoid distortions from a few rare reads, I restricted myself to samples where that family made up at least 10% of human-viral reads:
+
+```{r}
+#| label: hv-species-adeno
+#| fig-height: 5
+#| fig-width: 7
+
+threshold_major_species <- 0.05
+taxid_adeno <- 10508
+
+# Get set of adenoviridae reads
+adeno_samples <- hv_family_counts %>% filter(taxid == taxid_adeno) %>%
+  filter(p_reads_hv >= 0.1) %>%
+  pull(sample)
+adeno_ids <- hv_reads_family %>% 
+  filter(taxid == taxid_adeno, sample %in% adeno_samples) %>%
+  pull(seq_id)
+
+# Count reads for each adenoviridae species
+adeno_species_counts <- hv_reads_species %>%
+  filter(seq_id %in% adeno_ids) %>%
+  group_by(sample, name, taxid) %>%
+  count(name = "n_reads_hv") %>%
+  group_by(sample) %>%
+  mutate(p_reads_adeno = n_reads_hv/sum(n_reads_hv))
+
+# Identify high-ranking families and group others
+adeno_species_major_tab <- adeno_species_counts %>% group_by(name) %>% 
+  filter(p_reads_adeno == max(p_reads_adeno)) %>% 
+  filter(row_number() == 1) %>%
+  arrange(desc(p_reads_adeno)) %>% 
+  filter(p_reads_adeno > threshold_major_species)
+adeno_species_counts_major <- adeno_species_counts %>%
+  mutate(name_display = ifelse(name %in% adeno_species_major_tab$name, 
+                               name, "Other")) %>%
+  group_by(sample, name_display) %>%
+  summarize(n_reads_adeno = sum(n_reads_hv),
+            p_reads_adeno = sum(p_reads_adeno), 
+            .groups="drop") %>%
+  mutate(name_display = factor(name_display, 
+                               levels = c(adeno_species_major_tab$name, "Other")))
+adeno_species_counts_display <- adeno_species_counts_major %>%
+  rename(p_reads = p_reads_adeno, classification = name_display)
+
+# Plot
+g_adeno_species <- g_comp_base + 
+  geom_col(data=adeno_species_counts_display, position = "stack", width=1) +
+  scale_y_continuous(name="% Adenoviridae Reads", limits=c(0,1.01), 
+                     breaks = seq(0,1,0.2),
+                     expand=c(0,0), labels = function(y) y*100) +
+  scale_fill_manual(values=palette_viral, name = "Viral species") +
+  labs(title="Species composition of Adenoviridae reads") +
+  guides(fill=guide_legend(ncol=3)) +
+  theme(plot.title = element_text(size=rel(1.4), hjust=0, face="plain"))
+
+g_adeno_species
+
+# Get most prominent species for text
+adeno_species_collate <- adeno_species_counts %>% group_by(name, taxid) %>% 
+  summarize(n_reads_tot = sum(n_reads_hv), p_reads_mean = mean(p_reads_adeno), .groups="drop") %>% 
+  arrange(desc(n_reads_tot))
+```
+
+```{r}
+#| label: hv-species-polyoma
+#| fig-height: 5
+#| fig-width: 7
+
+threshold_major_species <- 0.1
+taxid_polyoma <- 151341
+
+# Get set of polyomaviridae reads
+polyoma_samples <- hv_family_counts %>% filter(taxid == taxid_polyoma) %>%
+  filter(p_reads_hv >= 0.1) %>%
+  pull(sample)
+polyoma_ids <- hv_reads_family %>% 
+  filter(taxid == taxid_polyoma, sample %in% polyoma_samples) %>%
+  pull(seq_id)
+
+# Count reads for each polyomaviridae species
+polyoma_species_counts <- hv_reads_species %>%
+  filter(seq_id %in% polyoma_ids) %>%
+  group_by(sample, name, taxid) %>%
+  count(name = "n_reads_hv") %>%
+  group_by(sample) %>%
+  mutate(p_reads_polyoma = n_reads_hv/sum(n_reads_hv))
+
+# Identify high-ranking families and group others
+polyoma_species_major_tab <- polyoma_species_counts %>% group_by(name) %>% 
+  filter(p_reads_polyoma == max(p_reads_polyoma)) %>% 
+  filter(row_number() == 1) %>%
+  arrange(desc(p_reads_polyoma)) %>% 
+  filter(p_reads_polyoma > threshold_major_species)
+polyoma_species_counts_major <- polyoma_species_counts %>%
+  mutate(name_display = ifelse(name %in% polyoma_species_major_tab$name, 
+                               name, "Other")) %>%
+  group_by(sample, name_display) %>%
+  summarize(n_reads_polyoma = sum(n_reads_hv),
+            p_reads_polyoma = sum(p_reads_polyoma), 
+            .groups="drop") %>%
+  mutate(name_display = factor(name_display, 
+                               levels = c(polyoma_species_major_tab$name, "Other")))
+polyoma_species_counts_display <- polyoma_species_counts_major %>%
+  rename(p_reads = p_reads_polyoma, classification = name_display)
+
+# Plot
+g_polyoma_species <- g_comp_base + 
+  geom_col(data=polyoma_species_counts_display, position = "stack", width=1) +
+  scale_y_continuous(name="% Polyomaviridae Reads", limits=c(0,1.01), 
+                     breaks = seq(0,1,0.2),
+                     expand=c(0,0), labels = function(y) y*100) +
+  scale_fill_manual(values=palette_viral, name = "Viral species") +
+  labs(title="Species composition of Polyomaviridae reads") +
+  guides(fill=guide_legend(ncol=3)) +
+  theme(plot.title = element_text(size=rel(1.4), hjust=0, face="plain"))
+
+g_polyoma_species
+
+# Get most prominent species for text
+polyoma_species_collate <- polyoma_species_counts %>% group_by(name, taxid) %>% 
+  summarize(n_reads_tot = sum(n_reads_hv), p_reads_mean = mean(p_reads_polyoma), .groups="drop") %>% 
+  arrange(desc(n_reads_tot))
+```
+
+```{r}
+#| label: hv-species-papilloma
+#| fig-height: 5
+#| fig-width: 7
+
+threshold_major_species <- 0.1
+taxid_papilloma <- 151340
+
+# Get set of papillomaviridae reads
+papilloma_samples <- hv_family_counts %>% filter(taxid == taxid_papilloma) %>%
+  filter(p_reads_hv >= 0.1) %>%
+  pull(sample)
+papilloma_ids <- hv_reads_family %>% 
+  filter(taxid == taxid_papilloma, sample %in% papilloma_samples) %>%
+  pull(seq_id)
+
+# Count reads for each papillomaviridae species
+papilloma_species_counts <- hv_reads_species %>%
+  filter(seq_id %in% papilloma_ids) %>%
+  group_by(sample, name, taxid) %>%
+  count(name = "n_reads_hv") %>%
+  group_by(sample) %>%
+  mutate(p_reads_papilloma = n_reads_hv/sum(n_reads_hv))
+
+# Identify high-ranking families and group others
+papilloma_species_major_tab <- papilloma_species_counts %>% group_by(name) %>% 
+  filter(p_reads_papilloma == max(p_reads_papilloma)) %>% 
+  filter(row_number() == 1) %>%
+  arrange(desc(p_reads_papilloma)) %>% 
+  filter(p_reads_papilloma > threshold_major_species)
+papilloma_species_counts_major <- papilloma_species_counts %>%
+  mutate(name_display = ifelse(name %in% papilloma_species_major_tab$name, 
+                               name, "Other")) %>%
+  group_by(sample, name_display) %>%
+  summarize(n_reads_papilloma = sum(n_reads_hv),
+            p_reads_papilloma = sum(p_reads_papilloma), 
+            .groups="drop") %>%
+  mutate(name_display = factor(name_display, 
+                               levels = c(papilloma_species_major_tab$name, "Other")))
+papilloma_species_counts_display <- papilloma_species_counts_major %>%
+  rename(p_reads = p_reads_papilloma, classification = name_display)
+
+# Plot
+g_papilloma_species <- g_comp_base + 
+  geom_col(data=papilloma_species_counts_display, position = "stack", width=1) +
+  scale_y_continuous(name="% Papillomaviridae Reads", limits=c(0,1.01), 
+                     breaks = seq(0,1,0.2),
+                     expand=c(0,0), labels = function(y) y*100) +
+  scale_fill_manual(values=palette_viral, name = "Viral species") +
+  labs(title="Species composition of Papillomaviridae reads") +
+  guides(fill=guide_legend(ncol=3)) +
+  theme(plot.title = element_text(size=rel(1.4), hjust=0, face="plain"))
+
+g_papilloma_species
+
+# Get most prominent species for text
+papilloma_species_collate <- papilloma_species_counts %>% group_by(name, taxid) %>% 
+  summarize(n_reads_tot = sum(n_reads_hv), p_reads_mean = mean(p_reads_papilloma), .groups="drop") %>% 
+  arrange(desc(n_reads_tot))
+```
+
+```{r}
+#| label: hv-species-herpes
+#| fig-height: 5
+#| fig-width: 7
+
+threshold_major_species <- 0.1
+taxid_herpes <- 10292
+
+# Get set of herpesviridae reads
+herpes_samples <- hv_family_counts %>% filter(taxid == taxid_herpes) %>%
+  filter(p_reads_hv >= 0.1) %>%
+  pull(sample)
+herpes_ids <- hv_reads_family %>% 
+  filter(taxid == taxid_herpes, sample %in% herpes_samples) %>%
+  pull(seq_id)
+
+# Count reads for each herpesviridae species
+herpes_species_counts <- hv_reads_species %>%
+  filter(seq_id %in% herpes_ids) %>%
+  group_by(sample, name, taxid) %>%
+  count(name = "n_reads_hv") %>%
+  group_by(sample) %>%
+  mutate(p_reads_herpes = n_reads_hv/sum(n_reads_hv))
+
+# Identify high-ranking families and group others
+herpes_species_major_tab <- herpes_species_counts %>% group_by(name) %>% 
+  filter(p_reads_herpes == max(p_reads_herpes)) %>% 
+  filter(row_number() == 1) %>%
+  arrange(desc(p_reads_herpes)) %>% 
+  filter(p_reads_herpes > threshold_major_species)
+herpes_species_counts_major <- herpes_species_counts %>%
+  mutate(name_display = ifelse(name %in% herpes_species_major_tab$name, 
+                               name, "Other")) %>%
+  group_by(sample, name_display) %>%
+  summarize(n_reads_herpes = sum(n_reads_hv),
+            p_reads_herpes = sum(p_reads_herpes), 
+            .groups="drop") %>%
+  mutate(name_display = factor(name_display, 
+                               levels = c(herpes_species_major_tab$name, "Other")))
+herpes_species_counts_display <- herpes_species_counts_major %>%
+  rename(p_reads = p_reads_herpes, classification = name_display)
+
+# Plot
+g_herpes_species <- g_comp_base + 
+  geom_col(data=herpes_species_counts_display, position = "stack", width=1) +
+  scale_y_continuous(name="% Herpesviridae Reads", limits=c(0,1.01), 
+                     breaks = seq(0,1,0.2),
+                     expand=c(0,0), labels = function(y) y*100) +
+  scale_fill_manual(values=palette_viral, name = "Viral species") +
+  labs(title="Species composition of Herpesviridae reads") +
+  guides(fill=guide_legend(ncol=3)) +
+  theme(plot.title = element_text(size=rel(1.4), hjust=0, face="plain"))
+
+g_herpes_species
+
+# Get most prominent species for text
+herpes_species_collate <- herpes_species_counts %>% group_by(name, taxid) %>% 
+  summarize(n_reads_tot = sum(n_reads_hv), p_reads_mean = mean(p_reads_herpes), .groups="drop") %>% 
+  arrange(desc(n_reads_tot))
+```
+
+I was a bit suspicious of this last result, given that it only occurred in one sample, but according to BLASTN, at least, these human gammaherpesvirus 4 (a.k.a. EBV) matches are real:
+
+```{r}
+#| label: hv-blast-hits
+#| fig-width: 6
+
+# Configure
+ref_taxids_hv <- c(10376)
+ref_names_hv <- sapply(ref_taxids_hv, function(x) viral_taxa %>% filter(taxid == x) %>% pull(name) %>% first)
+p_threshold <- 0.1
+
+# Get taxon names
+tax_names_path <- file.path(data_dir, "taxid-names.tsv.gz")
+tax_names <- read_tsv(tax_names_path, show_col_types = FALSE)
+
+# Add missing names
+tax_names_new <- tribble(~staxid, ~name,
+                         3050295, "Cytomegalovirus humanbeta5",
+                         459231, "FLAG-tagging vector pFLAG97-TSR",
+                         257877, "Macaca thibetana thibetana",
+                         256321, "Lentiviral transfer vector pHsCXW",
+                         419242, "Shuttle vector pLvCmvMYOCDHA",
+                         419243, "Shuttle vector pLvCmvLacZ",
+                         421868, "Cloning vector pLvCmvLacZ.Gfp",
+                         421869, "Cloning vector pLvCmvMyocardin.Gfp",
+                         426303, "Lentiviral vector pNL-GFP-RRE(SA)",
+                         436015, "Lentiviral transfer vector pFTMGW",
+                         454257, "Shuttle vector pLvCmvMYOCD2aHA",
+                         476184, "Shuttle vector pLV.mMyoD::ERT2.eGFP",
+                         476185, "Shuttle vector pLV.hMyoD.eGFP",
+                         591936, "Piliocolobus tephrosceles",
+                         627481, "Lentiviral transfer vector pFTM3GW",
+                         680261, "Self-inactivating lentivirus vector pLV.C-EF1a.cyt-bGal.dCpG",
+                         2952778, "Expression vector pLV[Exp]-EGFP:T2A:Puro-EF1A",
+                         3022699, "Vector PAS_122122",
+                         3025913, "Vector pSIN-WP-mPGK-GDNF",
+                         3105863, "Vector pLKO.1-ZsGreen1",
+                         3105864, "Vector pLKO.1-ZsGreen1 mouse Wfs1 shRNA",
+                         3108001, "Cloning vector pLVSIN-CMV_Neo_v4.0",
+                         3109234, "Vector pTwist+Kan+High",
+                         3117662, "Cloning vector pLV[Exp]-CBA>P301L",
+                         3117663, "Cloning vector pLV[Exp]-CBA>P301L:T2A:mRuby3",
+                         3117664, "Cloning vector pLV[Exp]-CBA>hMAPT[NM_005910.6](ns):T2A:mRuby3",
+                         3117665, "Cloning vector pLV[Exp]-CBA>mRuby3",
+                         3117666, "Cloning vector pLV[Exp]-CBA>mRuby3/NFAT3 fusion protein",
+                         3117667, "Cloning vector pLV[Exp]-Neo-mPGK>{EGFP-hSEPT6}",
+                         438045, "Xenotropic MuLV-related virus",
+                         447135, "Myodes glareolus",
+                         590745, "Mus musculus mobilized endogenous polytropic provirus",
+                         181858, "Murine AIDS virus-related provirus",
+                         356663, "Xenotropic MuLV-related virus VP35",
+                         356664, "Xenotropic MuLV-related virus VP42",
+                         373193, "Xenotropic MuLV-related virus VP62",
+                         286419, "Canis lupus dingo",
+                         415978, "Sus scrofa scrofa",
+                         494514, "Vulpes lagopus",
+                         3082113, "Rangifer tarandus platyrhynchus",
+                         3119969, "Bubalus kerabau")
+tax_names <- bind_rows(tax_names, tax_names_new)
+
+# Get matches
+hv_blast_staxids <- hv_reads_species %>% filter(taxid %in% ref_taxids_hv) %>%
+  group_by(taxid) %>% mutate(n_seq = n()) %>%
+  left_join(blast_paired, by="seq_id") %>%
+  mutate(staxid = as.integer(staxid)) %>%
+  left_join(tax_names %>% rename(sname=name), by="staxid")
+
+# Count matches
+hv_blast_counts <- hv_blast_staxids %>%
+  group_by(taxid, name, staxid, sname, n_seq) %>%
+  count %>% mutate(p=n/n_seq)
+
+# Subset to major matches
+hv_blast_counts_major <- hv_blast_counts %>% 
+  filter(n>1, p>p_threshold, !is.na(staxid)) %>%
+  arrange(desc(p)) %>% group_by(taxid) %>%
+  filter(row_number() <= 25) %>%
+  mutate(name_display = ifelse(name == ref_names_hv[1], "EBV", name))
+
+# Plot
+g_hv_blast <- ggplot(hv_blast_counts_major, mapping=aes(x=p, y=sname)) +
+  geom_col() +
+  facet_grid(name_display~., scales="free_y", space="free_y") +
+  scale_x_continuous(name="% mapped reads", limits=c(0,1), 
+                     breaks=seq(0,1,0.2), expand=c(0,0)) +
+  theme_base + theme(axis.title.y = element_blank())
+g_hv_blast
+```
+
+Finally, here again are the overall relative abundances of the specific viral genera I picked out manually in my last entry:
+
+```{r}
+#| fig-height: 5
+#| label: ra-genera
+#| warning: false
+
+# Define reference genera
+path_genera_rna <- c("Mamastrovirus", "Enterovirus", "Salivirus", "Kobuvirus", "Norovirus", "Sapovirus", "Rotavirus", "Alphacoronavirus", "Betacoronavirus", "Alphainfluenzavirus", "Betainfluenzavirus", "Lentivirus")
+path_genera_dna <- c("Mastadenovirus", "Alphapolyomavirus", "Betapolyomavirus", "Alphapapillomavirus", "Betapapillomavirus", "Gammapapillomavirus", "Orthopoxvirus", "Simplexvirus",
+                     "Lymphocryptovirus", "Cytomegalovirus", "Dependoparvovirus")
+path_genera <- bind_rows(tibble(name=path_genera_rna, genome_type="RNA genome"),
+                         tibble(name=path_genera_dna, genome_type="DNA genome")) %>%
+  left_join(viral_taxa, by="name")
+
+# Count in each sample
+mrg_hv_named_all <- mrg_hv %>% left_join(viral_taxa, by="taxid")
+hv_reads_genus_all <- raise_rank(mrg_hv_named_all, viral_taxa, "genus")
+n_path_genera <- hv_reads_genus_all %>% 
+  group_by(sample, name, taxid) %>% 
+  count(name="n_reads_viral") %>% 
+  inner_join(path_genera, by=c("name", "taxid")) %>%
+  left_join(read_counts_raw, by=c("sample")) %>%
+  mutate(p_reads_viral = n_reads_viral/n_reads_raw)
+
+# Pivot out and back to add zero lines
+n_path_genera_out <- n_path_genera %>% ungroup %>% select(sample, name, n_reads_viral) %>%
+  pivot_wider(names_from="name", values_from="n_reads_viral", values_fill=0) %>%
+  pivot_longer(-sample, names_to="name", values_to="n_reads_viral") %>%
+  left_join(read_counts_raw, by="sample") %>%
+  left_join(path_genera, by="name") %>%
+  mutate(p_reads_viral = n_reads_viral/n_reads_raw)
+
+## Aggregate across dates
+n_path_genera_stype <- n_path_genera_out %>% 
+  group_by(name, taxid, genome_type) %>%
+  summarize(n_reads_raw = sum(n_reads_raw),
+            n_reads_viral = sum(n_reads_viral), .groups = "drop") %>%
+  mutate(sample="All samples", location="All locations",
+         p_reads_viral = n_reads_viral/n_reads_raw,
+         na_type = "DNA")
+
+# Plot
+g_path_genera <- ggplot(n_path_genera_stype,
+                        aes(y=name, x=p_reads_viral)) +
+  geom_point() +
+  scale_x_log10(name="Relative abundance") +
+  facet_grid(genome_type~., scales="free_y") +
+  theme_base + theme(axis.title.y = element_blank())
+g_path_genera
+```
+
+# Conclusion
+
+I've had trouble with this dataset previously, so I was surprised at how well this analysis went. It seems the improvements I've made to the pipeline over the last couple of months have really had an effect. Like other DNA wastewater datasets I've looked at recently, this one (a) has very low HV relative abundance overall, and (b) shows a very high preponderance of human mastadenovirus F. I have one more DNA dataset from the P2RA study to analyze with this pipeline, so we'll see if this pattern persists there.
diff --git a/notebooks/2024-05-01_ng.qmd b/notebooks/2024-05-01_ng.qmd
index 009808a..cab0210 100644
--- a/notebooks/2024-05-01_ng.qmd
+++ b/notebooks/2024-05-01_ng.qmd
@@ -403,7 +403,7 @@ p_reads_summ <- p_reads_summ_prep %>%
 p_reads_summ
 ```
 
-As in previous DNA datasets, the vast majority of classified reads were bacterial in origin. The fraction of virus reads varied substantially between sample types, averaging \<0.01% in influent and final effluent but closer to 0.05% in other sample types. Interestingly (though not particularly relevantly for this analysis), the fraction of archaeal reads was much higher in influent than other sample types, in contrast to [Bengtsson-Palme](https://data.securebio.org/wills-public-notebook/notebooks/2024-05-01_bengtsson-palme.html) where it was highest in slidge.
+As in previous DNA datasets, the vast majority of classified reads were bacterial in origin. The fraction of virus reads varied substantially between sample types, averaging \<0.01% in influent and final effluent but closer to 0.05% in other sample types. Interestingly (though not particularly relevantly for this analysis), the fraction of archaeal reads was much higher in influent than other sample types, in contrast to [Bengtsson-Palme](https://data.securebio.org/wills-public-notebook/notebooks/2024-05-01_bengtsson-palme.html) where it was highest in sludge.
 
 As is common for DNA data, viral reads were overwhelmingly dominated by *Caudoviricetes* phages, though one wet-well sample contained a substantial fraction of *Alsuviricetes* (a class of mainly plant pathogens that includes *Virgaviridae*):