27 Nov 15:19

ShixiangWang

6fec5bb

issue 10

生信爱好者周刊（第 10 期）：开放科学

这里记录每周值得分享的生信相关内容，周日发布。

本杂志开源（GitHub: ShixiangWang/weekly），欢迎提交 issue，投稿或推荐生信相关内容。

GitHub 粉们可以通过 Watch 仓库的 Release（提前）关注发布内容。

讨论区的帖子《谁在招人？》，提供生信深造和就业信息，欢迎访问或发布学位攻读/工作/实习等岗位。

「本期专用讨论区」

封面图

愈加开放的科学是未来的潮流。（via）

本周话题：开放科学

联合国教科文组织（UNESCO）大会第41届会议于2021年11月9-24日召开。在经过一个包容、透明和多利益相关方的协商过程之后，会议审议通过《开放科学建议书》，标志着开放科学迈入全球共识的新阶段。

《开放科学建议书》旨在为开放科学政策和实践提供一个国际框架，即承认关于开放科学的观点存在学科和地区差异，考虑到学术自由、促进性别平等变革的方法以及不同国家特别是发展中国家的科学家和其他开放科学行为者所面临的具体挑战，并有助于缩小国家之间和国家内部存在的数字、技术和知识鸿沟。

「开放科学建议书.pdf」，点击链接保存，或者复制本段内容，打开「阿里云盘」APP ，无需下载极速在线查看，视频原画倍速播放。
链接：https://www.aliyundrive.com/s/zbYedF3XwRF

生信科技动态

1、预印｜在临床相关低Map区域纠正甲基化检测

DNA甲基化是胚胎发育、致癌和遗传调控等重要生物学功能的重要组成部分。准确评估基因组甲基化状态的方法对于其在许多情况下的有效使用至关重要，尤其是在疾病的检测和诊断中。甲基化对比器，如Bismark和bwa-meth，经常分配比所映射的区域的唯一性所支持的MapQ值高得多。这些不正确的高MapQ导致重复区域中不适当的甲基化定量检测。本研究为甲基化检测工具MethylDackel创建了一个新特性，以执行基于读段的过滤。这种新的甲基化调用方法将一些表面上的混合甲基化修正为0%或100%甲基化，并消除了许多可信的甲基化检测结果。

2、BIB｜深度学习能在多大程度上提高癌症细胞系对药物反应的预测?

深度神经网络已被应用于1000多个癌症细胞和组织的多组学数据，以更好地预测药物反应。作者总结并研究了最近发表的最先进的深度学习方法。尽管深度学习方法在药物反应预测方面取得了重大进展，但深度学习方法在预测未出现在训练数据集中的药物反应方面显示出其弱点。特别是在药物盲测中，所有被评估的深度学习方法都比相似性-正则化矩阵分解（SRMF）方法表现差。作者概述了将深度学习方法应用于药物反应预测的挑战，并提出了将深度学习与已有的生物信息学分析相结合的方法。

3、Nature | 表型关联分析揭示罕见变异与上万种常见疾病的关系

全基因组关联研究发现了与人类疾病相关的数以万计的常见变异。然而，这些变异只能解释很少一部分疾病的发病原因。罕见变异（MAF<1%）在疾病的发生过程中发挥着重要的作用。但是，罕见变异对常见疾病的贡献仍然未知。英国生物银行（UK Biobank，UKB）纳入了约50万人的基因组数据及详细的电子病例信息，这为遗传学家提供了前所未有的机遇来评估罕见变异对常见疾病发生的影响。在本研究中，作者纳入了UKB中269171个具有欧洲血统的人群，分析了17361种二元表型（如是否为精神分裂症）和1419种定量表型（如血糖等指标）与罕见突变的关系。以基因为单位（Gene-based collapsing）的关联分析显示，存在1703个具有统计学意义的基因-二元表型关联，中位数比值比（odds ratio）为12.4。另外，83%的关联通过单一变异关联分析无法检测到，这强调了基于基因的collapsing分析在高等位基因异质性下的检出效力。重要的是，与表型相关的基因显著富集于FDA已批准的药物靶点上。最后，作者进一步从UKB中纳入了具有非洲、东亚和南亚血统的11933名人员的外显子组测序数据，进行了谱系特异性和泛谱系collapsing分析。总之，本研究阐述了罕见变异在常见疾病发生过程中的重要作用。

文章

1、高通量数据整合分析中批次效应的鉴定和处理

批次效应表示样品在不同的批次处理和测量时引入的与生物状态不相关的系统性的技术偏差。很多因素都可能导致批次效应的产生，如不同实验条件、不同操作者、不同公司的试剂、不同批的试剂、实验开展的时间、检测设备、不同的测序批次等。

2、使用R包Boruta进行特征选择评估变量的重要性

高维数据在机器学习问题中非常普遍，要从大量数据中提取有用信息（例如，哪些变量对于预测或解释结果更重要），必须使用统计技术来减少噪声或冗余。挑选重要变量的方法有很多，本篇简介一个R包，Boruta，它是围绕随机森林分类算法构建的包装器，用于捕获数据集中所有与结果变量相关的重要、有趣的变量。

3、Cancer Cell 长文综述：微生物与癌症

人体微生物组成了一个复杂的多界群落，在多个身体部位与宿主共生互作。宿主-微生物的互作影响多种生理过程、是多种多因素疾病的条件。在过去10年，微生物群落被认为影响多种癌症的发生、发展、转移和对治疗的反应。然而微生物对癌症生物学存在影响的因果证据才刚刚被揭示，因此解析微生物对癌症的调节以及对癌症治疗产生影响在分子层面上的机制，具有重大的科学价值和临床意义。

在这篇综述中，研究者描述了不同促进癌症发生发展的微生物生态位共同具有的分子致病机制；强调了对相关问题理解的进步性、局限性、挑战和前瞻，这些问题包括微生物如何影响癌症和癌症对治疗的反应、微生物或其分泌的具有生物活性的代谢物如何具有潜在的利用价值、如何成为癌症治疗的精准靶标等等。

工具

1、gggenomes - 比较基因组学的一种图形语法

2、pins - 发现和共享资源

pins包发布数据、模型和其他R对象，使得跨项目和与同事共享它们变得容易。你可以把对象钉到各种不同的钉板上，包括文件夹(在网络驱动器上共享或与DropBox等服务共享)、RStudio Connect、Amazon S3、Azure存储和微软365 (OneDrive和SharePoint)。可以自动对引脚进行版本控制，从而可以直接跟踪更改、对历史数据重新运行分析和撤消错误。

3、whatchanged - 一个优雅的变更日志生成器

方便生成规范优雅的代码变更日志信息。

4、System Monitor - 微软❤️开源

System Monitor（Sysmon）是一个系统服务和设备驱动程序，一旦安装在系统上，就会在系统重启时保持驻留，以监控并记录系统活动到事件日志。它提供有关进程创建、网络连接和文件创建时间变化的详细信息。通过使用事件收集或 SIEM 代理收集它产生的事件，并随后对其进行分析，用户可以识别恶意或异常活动。

资源

1、mathlets - 数学概念探索

2、TICA - 精确肿瘤学的单细胞肿瘤免疫图谱

数据下载地址：https://zenodo.org/record/5186413

3、网易云课堂引进亚马逊AWS近百门IT类课程，向社会免费开放

钛媒体10月26日消息，专注于成人职业技能提升的网易云课堂，正式宣布上线亚马逊云科技（以下简称“亚马逊AWS”）中文在线培训课程，并承诺向全社会免费开放。

赞赏

如果你想要支持本周刊，可以对推文进行赞赏或者提供的支付宝/微信二维码打赏。

感谢以下读者往期赞赏：

*啥
李浩

生信爱好者周刊（第 9 期）：统计建模之道和术

这里记录每周值得分享的生信相关内容，周日发布。

本杂志开源（GitHub: ShixiangWang/weekly），欢迎提交 issue，投稿或推荐生信相关内容。

GitHub 粉们可以通过 Watch 仓库的 Release（提前）关注发布内容。

讨论区的帖子《谁在招人？》，提供生信深造和就业信息，欢迎访问或发布学位攻读/工作/实习等岗位。

「本期专用讨论区」

封面图

（via）

本周话题：统计建模之道和术

我认为一个更基本的对统计建模的二分是其原理与技术。中国人会把前者称为道（“路线”、“原理”或“整体思想”），而把后者称为术（“技术”、“技巧”或“方法”）。想要准确地描述统计建模的这两个方面并不容易。以下是我的大致想法：

术：在这种观念下，统计分析始于一些由其他人准备好的数据集。我们的目标是尽可能好地分析数据集，但具体的任务通常取决于分析方法的复杂程度。这个方法可以是一个简单的线性回归或者一个有十亿个参数的神经网络。

道：在这种观念下，统计分析始于科学、工程或商业问题。我们的目标是了解问题背后的机理，并利用统计结论来更好地进行决策。这个问题可能是估计某种干预的因果效应，或是理解已有数据集的局限性。

（来源：公众号「统计之都」）

生信科技动态

1、Nature｜可解释深度学习用基因组图谱预测前列腺癌转移状态

麻省理工学院、哈佛大学等高校联合在Nature发表了Biologically informed deep neural network for prostate cancer discovery。该研究提出可解释深度学习P-NET模型，该模型能够在前列腺癌症患者基因属性的基础上结合生信中的层次信息预测癌症的状态。

P-NET的生物学可解释性揭示了已建立的基因与新基因变异的相关候选基因，如MDM4和FGFR1，这些基因与预测晚期疾病有关，并在体外进行验证。

广泛的来说，生物学上知情的完全可解释的神经网络使前列腺癌的临床前发现和临床预测成为可能，并可能在各种癌症类型中具有普遍的适用性。

2、Transformer新玩法登Nature子刊：DeepMind用新变体读取DNA长序列，瞄准遗传病高发区域

DeepMind与谷歌旗下生物科技公司 Calico 的一项研究登上了国际顶级方法学期刊Nature Methods。在这篇论文中，他们引入了一种叫做 Enformer 的神经网络架构，大大提高了根据 DNA 序列预测基因表达的准确性。为了进一步研究疾病中的基因调控和致病因素，研究者还公开了他们的模型及其对常见遗传变异的初步预测。

3、国家生物信息中心在核酸研究发表单细胞DNA甲基化数据库—scMethBank

DNA甲基化是表观遗传研究的一个重要层面，且与发育、衰老和疾病的发生发展密切相关。为了更好地利用已公开的海量甲基化数据，此前，中国科学院北京基因组研究所国家基因组科学数据中心（以下简称基因组数据中心）已经发布了一个DNA甲基化的综合性数据库MethBank（https://ngdc.cncb.ac.cn/methbank/），涵盖了多物种高质量的全基因组单碱基精度甲基化图谱、健康人参比甲基化组以及人工审编的甲基化分析工具集。这里，我们介绍基因组数据中心最新发布的单细胞甲基化数据库——scMethbank（https://ngdc.cncb.ac.cn/methbank/scm/）。

该项研究成果以scMethBank: a database for single-cell whole genome DNA methylation maps为题于2021年9月在国际学术期刊《核酸研究》（Nucleic Acids Research）在线发表。

文章

1、R使用正则表达式匹配任何模式的初学者指南

正则表达式只不过是匹配文本或文本文件中的模式的字符序列。在许多编程语言中，它被用于文本挖掘。在所有语言中，正则表达式的字符都非常相似。但在不同的语言中，提取、定位、检测和替换的功能是不同的。本文介绍在R中如何使用和操作正则表达式。

2、使用Python的XGBoost参数调优完整指南

XGBoost算法已经成为许多数据科学家的终极武器。这是一种高度复杂的算法，强大到足以处理各种不规则数据。使用XGBoost构建模型很容易。但是，使用XGBoost改进模型是困难的。该算法使用多个参数。为了改进模型，必须进行参数优化。很难回答一些实际问题，比如：应该调优哪一组参数？为了获得最佳输出，这些参数的理想值是多少？

3、R-操作数据库

本文介绍如何通过RSQLite操作关系型数据库。

4、usethis包新增pr_*系列函数

工具

1、r-script

一个简单的小模块，用于将数据从NodeJS传递给R（并返回）。

2、RestRserve

RestRserve是一个R web API框架，用于构建高性能和健壮的微服务和应用后端。在类unix系统上使用Rserve后端，它被设计成并行的。

3、ggh4x

ggh4x包是ggplot2扩展包。它提供了一些实用功能，这些功能并不完全符合“图形语法”的概念——它们可能有点笨拙——但在调整你的ggplot时仍然有用。示例包括调整facet的大小，将多种美学映射到颜色，以及为facet指定单独的比例。除此之外，它也是geoms, facets, positions, guides和stats的集合。

4、r-codespaces

GitHub代码空间配置的R和Shiny。

资源

1、一本从零开始全面了解贝叶斯优化过程的书籍

2、临床基因组分析相关数据库汇总

赞赏

如果你想要支持本周刊，可以对推文进行赞赏或者提供的支付宝/微信二维码打赏。

感谢以下读者往期的赞赏：

*林

生信爱好者周刊（第 8 期）：《沙丘》编剧、《权游》作者使用MS-DOS创作

这里记录每周值得分享的生信相关内容，周日发布。

本杂志开源（GitHub: ShixiangWang/weekly），欢迎提交 issue，投稿或推荐生信相关内容。

GitHub 粉们可以通过 Watch 仓库的 Release（提前）关注发布内容。

讨论区的帖子《谁在招人？》，提供生信深造和就业信息，欢迎访问或发布学位攻读/工作/实习等岗位。

「本期专用讨论区」

封面图

《沙丘》编剧罗斯与他的MS-DOS创作环境。（罗斯是《阿甘正传》、《本杰明·巴顿奇事》的编剧，也是Netflix 版《纸牌屋》执行制片人，曾经五次获得奥斯卡金像奖最佳改编剧本提名、一次获奖，被誉为好莱坞最优秀的编剧之一。）（via）

本周话题：《沙丘》编剧、《权游》作者使用MS-DOS创作

最近一段时间科幻电影《沙丘》热映。让人值得注意的一件事情是，这些描述未来科幻世界的大佬们在创作时用的却是几十年前的工具。

对于写作者，工具终究只是工具，是创意抒发的载体。整个写作的流程，包括工具的运用，最终都要服务于创意本身。无论工具的科技含量有多高，如果你不适应它，它就无法服务于你，对你起到帮助。（来源：公众号「硅星人」）

这引起我个人两点思考：

在如今各种系统、工具层出不穷的当下，在追求多功能性和实用性的当下，我们似乎在选择的海洋里忘却了寻找或者原来想要寻找的真正（重要）目标。
作为生信从业者，无论是自己开发工具，还是使用别人开发的工具进行数据处理和分析，工具的运用的核心也应当是科研目标本身。

生信科技动态

1、杀伤性T细胞持久的抗癌能力竟然有赖于线粒体的翻译能力，而不是线粒体的代谢供能能力

在我们的免疫系统里，杀伤性T细胞（CTL）是刺客一般的存在，它们不仅能够高效、精准地解决入侵者，还能够保持持续、高昂的战斗状态，通过分泌穿孔素、颗粒酶B、IFN-γ、TNF-α等细胞因子来击杀入侵的病原体或受损的细胞。

近日，一篇发表在顶级期刊《科学》上的文章提出，单个杀伤性T细胞能持续作战，竟是依赖于线粒体的翻译能力，而不是线粒体提供的能量。来自剑桥大学的Gillian M. Griffiths带领她的团队发现，线粒体翻译通过调控穿孔素、颗粒酶B、IFN-γ、TNF-α等杀伤关键因子的合成，来保证CTL的杀伤持续性。如果线粒体翻译受损，则会导致CTL的持续杀伤能力缺陷。

（来源：公众号「奇点网」）

2、数字病理学中的人工智能-诊断和精确肿瘤的新工具

本文介绍由美国凯斯西储大学生物医学工程系Kaustav Bera，耶鲁大学医学院病理学系Kurt A. Schalper、David L. Rimm，纽约大学佩尔穆特癌症中心Vamsidhar Velcheti 以及西储大学生物医学工程系Anant Madabhushi共同发表在nature reviews clinical oncology 上的研究成果。作者概述了基于AI的方法如何集成到病理学家和肿瘤学家的工作流程中，并讨论了在癌症患者的常规管理中实施此类工具的相关挑战。

（来源：公众号「drugAI」）

文章

1、周志华教授keynote：探索从纯学习到学习+推理的AI

学习和推理一直是人工智能中的核心研究内容，诸多学者都认为，两者的结合将具有解决当代人工智能方法缺点的潜力，包括深度学习的黑箱性质等，然而这方面的工作极为困难，需要将人工智能中逻辑推理、知识表示、机器学习等多个领域打通。

人工智能领域的大会可以说是不胜枚举，但还没有专门关注学习与推理结合的重量级会议。现在终于有这样一个会议，可以满足研究者这方面的需求——国际学习与推理联合大会（International Joint Conference on Learning & Reasoning，IJCLR）。

本次大会邀请了多位领域大咖发表演讲。其中，我国南京大学计算机系主任兼人工智能学院院长周志华教授作了大会的开场主旨报告，分享了题为《利用无标签数据：从「纯学习」到「学习 + 推理」》的主旨演讲。

2、一文教你如何进行SCI写作

本文和大家分享一些写作相关的思考。

另外一篇：写好结构化论文的10条规则。

3、R语言与函数估计学习笔记（样条方法）

如果函数在不同地方有不同的非线性度，或者有多个极值点，那么用多项式特别是低阶多项式来完成拟合是非常不合适的。一种解决办法是我们之前提到的近邻多项式（或者称局部多项式），另一种就是样条——用分段的低阶多项式逼近函数。

关于样条，常用的有两类，一类是多项式样条，另一类是光滑样条。

工具

1、vscode-power-mode插件：敲出你的能量

一款VS Code插件，可以在打字的时候敲出不同的效果，如粒子、烟火等。

2、[pkgdown：R包文档制作工具]

近期该包发布2.0版本，将支持boostrap5文档模板。

3、install_GISTIC：GISTIC 2.0安装与镜像

GISTIC 2.0是一款常用的CNV分析工具，该项目提供一键安装和Docker镜像支持。

4、cronR：用R设定系统自动化任务

5、papermill：参数化、执行和分析jupyter笔记本

资源

1、宝藏自学网站

公众号「袁厨的算法小屋」一个简单的汇总：

菜鸟教程
廖雪峰的官方网站
中国大学MOOC
慕课网
哔哩哔哩
Gitee
Github
learngitbranching
LinuxCool
LeetCode
...

2、深度学习论文精读

李沐带你进行深度学习经典、新论文逐段精读。

赞赏

如果你想要支持本周刊，可以对推文进行赞赏或者提供的支付宝/微信二维码打赏。

非常感谢下面读者往期的赞赏：

舒笙
曾东强

生信爱好者周刊（第 7 期）：为何年轻便科研至死

这里记录每周值得分享的生信相关内容，周日发布。

本杂志开源（GitHub: ShixiangWang/weekly），欢迎提交 issue，投稿或推荐生信相关内容。

GitHub 粉们可以通过 Watch 仓库的 Release（提前）关注发布内容。

讨论区的帖子《谁在招人？》，提供生信深造和就业信息，欢迎访问或发布学位攻读/工作/实习等岗位。

「本期专用讨论区」

封面图

彩珠。（via）

本周话题：为何年轻便科研至死

这周的话题来自近期一则比较沉重的消息。

近日，23岁研究生王某于西北大学坠亡一事引发广泛关注。

据媒体报道，10月22日下午，王某从实验室所在大楼坠亡，年仅23岁。他是延安大学应用化学专业2019级研究生，导师为延安大学化学与化工学院老师吕某。2020年上半年，王某来到西北大学化学与材料科学学院进行学习和课题研究。

10月19日当天，王某曾给父母、表姐和弟弟分别打了电话。在和父亲的沟通中，王某表达了“不想读书了”的想法。在父亲的追问下，王某只提到实验室压力太大，经常被导师批评。（来源：公众号「科学网」）

这不是近年来来第一次了，为何研究生跳楼频发，为何年轻便科研“至”死？有哪些理由，怎样避免，诸位不妨思考和说道。

生信科技动态

1、Cell Genomics创刊

封面设计艺术家Alex Cagan在绘制Cell Genomics的首期封面时，试图以抽象和俏皮的方式传达本刊的三大关键支柱——“开放、合作、开拓”，其作品将基因组学领域的旋转符号与科学和开展研究的科学家形象相融合。它们通过舞蹈一样跃动的语言统一了起来，这仿佛也反映了美丽复杂的细胞机制和生命节律，以及正在进行的理解它们的科学之旅。该作品旨在体现这一持续的、充满希望的发现历程。

这是一个开放、合作、开拓的全新基因组学论坛，是基因组学领域致力于开放获取和开放科学的全新研究期刊，我们支持公开分享研究、方法和数据集。

2、gtsummary包新函数tbl_continuous

该函数支持按照多个分类变量对一个连续数值变量进行汇总。

3、Proscia 宣布人工智能在黑色素瘤检测方面取得突破，灵敏度为 93%

来自费城的 Proscia 正在加速病理学的数字化转型，以改变我们理解癌症等疾病的方式。其 Concentriq 数字病理学平台和强大的 AI 应用程序正在将具有 150 年历史的研究和诊断标准推向数据驱动的学科，为病理学家提供更好的方法来对抗当今的癌症。

近日，Proscia 分享了一项前瞻性研究的结果，宣布 AI 在黑色素瘤（最致命的皮肤癌形式）检测方面的突破。利用 AI 以高度的准确性自动检测黑色素瘤。这些发现说明了 AI 在病理学常规实践中提供更快诊断、改善患者预后和优化实验室经济性的前景。

该项研究在托马斯杰斐逊大学和佛罗里达大学进行，展示了 AI 在未经筛选的 1,422 个连续皮肤活检组中的真实性能。该技术正确识别侵袭性黑色素瘤和原位黑色素瘤，灵敏度为 93%，特异性为 91%。它还对基底细胞癌和鳞状细胞癌进行了分类，AUC 分别为 0.97 和 0.95，占所有皮肤癌的 97%。本研究验证了对 12,784 张图像进行的多站点回顾性研究的结果。

4、单细胞核糖体测序技术（scRibo-seq）开启单细胞翻译组学研究

近日，荷兰乌得勒支大学医学中心的研究团队在国际顶尖期刊Nature在线发表了题为Single-cell Ribo-seq reveals cell cycle-dependent translational pausing的文章。研究证明，单细胞核糖体测序技术（scRibo-seq）能够实现单密码子的分辨率；极大提高了单细胞核糖体检测的敏感性，使得在单个细胞中对核糖体进行分析成为可能。此外，研究团队还证明，对特定氨基酸的限制会导致核糖体在编码氨基酸的密码子的子集上出现暂停，并且这种现象只在与其细胞周期状态相关的细胞亚群中被观察到。总之，这项技术为确定翻译过程以及对那些看似相同的细胞之间的显著差异的解析提供了近一步的证据。

文章

1、GitHub全球开发者大会重磅更新自动编码工具Copilot

GitHub在其全球开发者大会上，宣布Copilot将增加对包括Neovim和JetBrains IDEs在内的编辑器的支持，重点是JetBrains的IntelliJ IDEA和PyCharm。GitHub还宣布Copilot支持Java、C、C++和C#等语言的多行代码完成。

2、RNA-seq综述

英文综述的中文大体翻译。

3、Chip-seq基础知识介绍

实则是一段视频。

4、手把手带你搭建个人博客

一篇利用blogdown搭建个人博客的详细介绍。

工具

1、postcards - 创建简单漂亮的个人网站。

2、ezcox - Cox模型批处理和可视化

工具已发布到预印本：https://arxiv.org/abs/2110.14232。

3、Python开发者的完美终端工具

Rich 是一个 Python 库，可以为你在终端中提供富文本和漂亮、精美的格式。

使用 Rich API 可以很容易的在终端输出添加各种颜色和不同风格。它可以绘制漂亮的表格，进度条，markdown，突出显示语法的源代码及回溯等等，优秀的功能不胜枚举。

4、tv - 跨平台CSV格式数据展示工具

资源

1、awesome-r-pkgtools - R包开发工具清单

2、2021年9月R新包推荐

2021年9月，220个R新包收录于CRAN（2021年8月份收录160个），累计收录约19,862个R包！此次选摘了40个R包（14个类别），分布结构如下：

3、数据科学家的10个秘密

赞赏

如果你想要支持本周刊，可以对推文进行赞赏或者提供的支付宝/微信二维码打赏。

感谢以下读者往期的赞赏支持：

闲猫
D*i

生信爱好者周刊（第 6 期）：你会买“炸场”Macbook Pro搞生信吗？

这里记录每周值得分享的生信相关内容，周日发布。

本杂志开源（GitHub: ShixiangWang/weekly），欢迎提交 issue，投稿或推荐生信相关内容。

GitHub 粉们可以通过 Watch 仓库的 Release（提前）关注发布内容。

讨论区的帖子《谁在招人？》，提供生信深造和就业信息，欢迎访问或发布学位攻读/工作/实习等岗位。

「本期专用讨论区」

封面图

看上去是不同角度拍摄的同一条街道，但是实际上，它们是同一张图片并排放在一起。(via)

可视化是工具，不是结果。利用它，但别被它控制。

本周话题：你会买“炸场”Macbook Pro搞生信吗？

今后人们要吐槽的就是竟然连苹果电脑都要有刘海了。新款MacBook Pro为了让屏幕面积更大，为电脑屏幕加上了一个刘海设计。

你觉得它漂亮吗？个人觉得丑裂...

不过刘海是次要的，近期发布会的最大亮点，当属苹果新发布的两款芯片——M1 Pro和M1 Max。

M1 Pro 配备了多达 10 个 CPU 核心，其中包括 8 个高性能核心和两个节能核心，比M1提速70%。在图形方面，M1 Pro 拥有 16 核 GPU，其性能是M1 的两倍。新芯片还支持更多内存，配置选项最高可达 32GB，拥有高达200GB/s的内存带宽。M1 Pro使用了337亿个晶体管，大约是 M1 晶体管数量的两倍。支持外接两台显示器，可以同时播放多达20条4K ProRes视频。

M1 Max是是M1 Pro的进阶版，虽然跟Pro一样样拥有10个CPU，但M1 Max将统一内存进一步拓展到64GB，内存带宽至 400GB/s，比M1提速6倍。同时在GPU方面，Max在Pro的基础上再度翻了一倍，32核GPU让其速度达到M1 的四倍之多。（来源：公众号「硅星人」）

So，你会买“炸场”Macbook Pro搞生信吗？

生信科技动态

1、新型AI系统可基于乳腺超声图像识别恶性病变，准确率与放射科医生相当

乳腺癌是女性癌症死亡的第二大原因，早期发现、治疗可以有效提高治愈率。X光检查是应用最广泛的乳腺癌筛查和早期发现的成像技术，但对于组织致密的乳腺，在X光检查中很难发现癌症。乳腺超声检查已被证实能够检测到X光检查中的隐匿性癌症，通常被作为乳房X光检查的补充手段，在乳腺癌筛查、检测和鉴定中发挥重要作用。但乳腺超声检查结果仍会获得较高的假阳性率，进而导致不必要的组织活检。

近日，美国纽约大学研究团队开发了一种新型人工智能（AI）系统，可以在超声图像中实现放射科医生级别的准确率来识别乳腺癌。结果显示，在该人工智能系统的帮助下，放射科医生诊断的假阳性率降低37.3%，在保持相同敏感性水平的前提下，组织活检率减少27.8%，突出了人工智能在提高乳腺超声诊断的准确性、一致性和效率方面具有很大的潜力。该研究成果已发表于Nature Communications期刊上，文章题为“Artificial intelligence system reduces false-positive findings in the interpretation of breast ultrasound exams”。

2、DDInter：药物-药物相互作用数据库

药物-药物相互作用 (DDI) 是临床合理用药和上市后药物警戒中最重要的问题之一。DDI是指同时或连续服用两种或两种以上药物时，一种药物的活性可能因其他药物的存在而发生改变。随着现代疾病谱的增加以及患者耐药性的升高，多药处方已成为常见的治疗选择，特别是对于伴有癌症、糖尿病、心血管疾病等多种慢性疾病的患者。这往往会增加临床相关 DDI 的风险，并对治疗管理提出了新的挑战。

来自中南大学曹东升教授课题组、浙江大学侯廷军教授课题组和湘雅医院刘韶教授课题组联合发表的一篇文章“DDInter: an online drug–drug interaction database towards improving clinical decision-making and patient safety”。本文介绍了一个全面且实用的数据库DDInter，包含约24万个经临床药师审阅和校正的相互作用药物对，覆盖了1833个FDA批准药物。DDInter 为每个DDI提供了丰富的信息，包括作用机制、严重程度、对于潜在风险的管理策略、药物替换方案、文献引用等。用户可以轻松浏览药物条目和相互作用，检索基本信息和药物相互作用网络，并借助相互作用检查器组件进行处方检查。为了帮助用户更好地理解和探索搜索结果，嵌入了多个数据可视化工具来动态显示复杂的关系。医生和药剂师通过使用DDInter可以获得剂量调整、药物更换以及风险判断和管理的实用指导；数据科学家可以将其用于潜在DDI的推导和其他预测工具的评估。

3、为什么不吸烟也会得肺癌？NIH团队揭示不吸烟肺癌患者基因突变演化史

近期，来自美国国立卫生研究院（NIH）下属国家癌症研究所（NCI）癌症流行病学和遗传学部门的流行病学家Maria Teresa Landi博士领导的研究团队在Nature Genetics期刊上发表题为“Genomic and evolutionary classification of lung cancer in never smokers”的研究文章。研究团队对无吸烟史肺癌患者进行全基因组测序，绘制了不吸烟肺癌患者基因突变演化史。分析结果发现，大部分肿瘤都是由机体自然过程所引起的突变而引发。同时，该研究还关注了不吸烟群体与肺癌之间的健康问题，为肺癌早期诊疗提供了科学依据。

基因组突变图谱结果显示，EGFR是最常见的突变（28.4%），其次是KRAS（7.3%）、ALK （6.0%）、MET（4.3%）、ERBB2（3.9%）、ROS1（2.6%）和RET（1.3%），这7个基因突变互相呈现强烈的互斥分布。

4、机器学习揭示基因组在单个细胞中的表达差异

在单个人类细胞的微观视界内，蛋白质和 DNA 的复杂折叠和排列决定了每个细胞的命运：哪些基因被表达，哪些基因被抑制，这决定了细胞是保持健康还是发生病变；宏观角度则反映了一个人的健康状况。单细胞 Hi-C （scHi-C）技术可以识别三维（3D）染色质组织的细胞间差异性，但测量相互作用的稀疏性会带来分析挑战。

卡内基梅隆大学的研究人员提出了一种基于超图表示学习框架的算法——Higashi，可以合并单个细胞之间的潜在相关性，以增强接触图的整体插补。Higashi 优于现有的 scHi-C 数据嵌入和插补方法，并且能够识别单个细胞中的多尺度 3D 基因组特征，例如区室化和 TAD 样域边界，从而可以精确描绘其细胞间差异性。该研究以Multiscale and integrative single-cell Hi-C analysis with Higashi为题，于2021年10月11日发布在杂志Nature Biotechnology。

5、3 个问题：MIT专家论述关于阻碍AutoML发展的障碍

研究人员希望更多用户友好的机器学习系统将使非专家能够分析大数据——但这样的系统能完全自主吗？本文介绍麻省理工学院计算机科学家 Kalyan Veeramachaneni分享了他对自动化机器学习（AutoML）现状、创建全自动机器学习系统的挑战以及未来道路的看法。Kalyan Veeramachaneni 是麻省理工学院信息与决策系统实验室的首席研究科学家，自 2010 年以来一直在研究 AutoML，他在 ACM Computing Surveys 杂志上合著了一篇论文，详细介绍了一个七层示意图，用于根据 AutoML 工具的自主级别来评估它们。

3个问题：

自动机器学习在过去十年中是如何发展的，AutoML系统的现状如何？
机器学习流程的哪些步骤最难自动化，为什么自动化它们如此具有挑战性？
您希望通过您在论文中概述的用于评估 AutoML 系统的七层框架实现什么目标？

文章

1、可别再说base plot不能图形语法！

R自带绘图包采用画家模式，难以实现灵活有序的图形生成。本文中Y叔介绍了基于图像语法的base plot生成以及相应的R包实现plotbb。对可视化感兴趣的读者非常推荐阅读！

2、GATK 的Somatic Mutation流程--肿瘤基因组测序数据分析专栏

本文介绍了GATK 的Somatic Mutation检测流程。

3、R包earth的多元自适应样条回归（MARS）以及对变量重要性的评估

多元自适应样条回归（Multivariate Adaptive Regression Splines，MARS）是一种非参数回归方法，它通过对数据进行分区，并在每个区间的预测变量值范围内分别构建线性模型或广义线性模型来实现，即一种分段回归形式。本文介绍了该方法的基本原理和通过实例评估变量重要性。

4、R语言快速制作学术论文三线表

三线表以其形式简洁、功能分明、阅读方便而在科技论文中被推荐使用。

本文主要使用table1包制作三线表，生成的三线表为html格式，可以直接复制到word中。

5、一个人能领导多少人？

这个问题没有简单的答案。虽然本文作者通常使用5-7个人的经验法则，但你可以看到这完全取决于情况。

工具

1、survminer：生存分析和可视化

2、rstatix：基础统计检验的管道友好框架

提供简单直观的管道友好框架，与“tidyverse”设计哲学相一致，用于执行基本统计检验，包括t检验、Wilcoxon检验、方差分析、Kruskal-Wallis和相关分析。

3、lexer：一个支持多语言扩展的JS版开源词法分析器

一个基于DFA法的支持多语言扩展的JS版开源词法分析器，代码精简，易于学习和使用。（@WGrape投稿）

4、annotables：用于注释/转换基因id的R数据包

grch38 %>% 
    dplyr::filter(biotype == "protein_coding" & chr == "1") %>% 
    dplyr::select(ensgene, symbol, chr, start, end, description) %>% 
    head %>% 
    knitr::kable(.)

5、styler：R代码格式化

R代码丑？就用它。我常用的一个R包，可以从文件、目录和包三个不同的水平格式化R代码。

6、docker与podman：容器与管理工具

容器化技术已经变革了云服务与软件应用开发和部署方式，也为可重复的数据分析提供强大的底层支撑。对技术感兴趣的读者一定不要错过容器技术。（知乎用户 @幻舞花火的投稿）

7、rsthemes：完整的RStudio IDE和语法主题

# 安装包
devtools::install_github("gadenbuie/rsthemes")

# 安装主题
rsthemes::install_rsthemes()

# 尝试主题
rsthemes::try_rsthemes()

资源

1、《生物信息就该这么学》专栏合集

2、李沐：深度学习论文精读

推荐学习深度学习的读者关注。

3、免疫学拾遗

赞赏

如果你想要支持本周刊，可以对推文进行赞赏或者提供的支付宝/微信二维码打赏。

感谢以下读者往期的赞赏：

张林
曾健明

生信爱好者周刊（第 5 期）：相关非因果

这里记录每周值得分享的生信相关内容，周日发布。

本杂志开源（GitHub: ShixiangWang/weekly），欢迎提交 issue，投稿或推荐生信相关内容。

GitHub 粉们可以通过 Watch 仓库的 Release（提前）关注发布内容。

讨论区的帖子《谁在招人？》，提供生信深造和就业信息，欢迎访问或发布学位攻读/工作/实习等岗位。

「本期专用讨论区」

封面图

智慧校园。（via）

本周话题：相关非因果

本期话题与今年的最后一个诺贝尔奖有关。

加州大学伯克利分校的David Card、麻省理工学院的Joshua D. Angrist和斯坦福大学Guido W. Imbens，共同获得了今年的诺贝尔经济学奖。

瑞典皇家科学院表彰他们在劳动经济学和从自然实验中分析因果关系方面做出的贡献。

初入生信的萌新，可能还在各种技术贴和教程里畅游，但如果稍有些科研经验，可能就会对因果话题产生疑惑和进行自己的探索。这是因为，当我们完成一项课题，所需要总结汇集产生的结论往往是因果，而绝大部分我们进行的数据分析只能产生相关。

相关非因果，因果必相关。相关到因果的过渡在如今的生物医学科研中往往困难重重。你与今天的话题有哪些疑惑和共鸣？欢迎在评论讨论区留言。

目前科研中你看到的主要的因果结论生成形式是依赖背景进行因果逻辑推断。在统计学方法中，通过贝叶斯体系可以直接从概率中推断因果。而其他领域，从相关到因果，可能真正产生一些根本性变革。

Judea Pearl与今年的诺贝尔获奖者颇有渊源，他因为开发因果推理的算法在AI上的贡献，而获得图灵奖。

不过Pearl却是其中两位获奖者的坚定反对者。
因为Pearl认为，他们的研究违反了因果推理的两个基本定律，即反事实定律和条件独立定律。

推荐感兴趣的读者看下《为什么：因果关系的新科学》一书，目前我也只是初步看了一点内容，从其他领域的系统理论中我们有可能获取当前科研进步的新力量。

生信科技动态

1、Bioc Asia 2021会议近期举行

从去年开始（没记错的话），Bioconductor每年针对亚洲区间举办年度会议（线上）。今年的会议会在11月1号-4号举行，会议安排请查看Schedule。除了会议报告，还有很多的workshops，新手读者朋友们看看是否有感兴趣的内容。

中文workshop：

(Day1) 陈金金 Jinjin Chen: “Gene-set Analysis Workshop”
(Day2) 孙建强 Jianqiang Sun: “Introduction to image recognition with deep learning”
(Day3) 孙建强 Jianqiang Sun: “Prediction of CRISPR guide RNA activity with deep learning”
(Day4) 周烺 Lang Chau: “Visualization and exploration of MSAs and associated data with ggmsa”

2、QB期刊将直播GWAS最新研究进展

2005年，Hoh及其同事首次成功利用基因组关联研究（Genome Wide Association Study, GWAS）鉴定了与年龄相关的黄斑变性主要基因。在随后的16年中，众多研究报道了数十万种遗传变异与数千种性状和疾病之间的可重复关联信号。世界各地开发了越来越多的生物库，参与者多达100万人，以期通过GWAS分析促进复杂性状的遗传研究。此外，已启动的许多联盟项目收集的各种类型数据对GWAS分析具有重要价值。这些丰富的数据给科学家们在数据管理、计算、分析、集成和解释方面带来了巨大的机遇和挑战。由Quantitative Biology （QB）期刊发起，美国耶鲁大学的赵宏宇教授，清华大学的侯琳教授，美国威斯康星大学麦迪逊分校的吕琼石教授和香港科技大学的杨灿教授共同组织了QB期刊2021年第二期的GWAS专辑（点击文末“阅读原文”查看本专辑所有文章）及本次网络研讨会。6位国内外专家将介绍GWAS最新科研进展和互联网时代的应用进展，并与参会专家一起展开深入交流。欢迎从事GWAS相关研究的老师和同学积极参与。（来源：公众号「QB期刊」）

本次会议由Quantitative Biology （QB）期刊编辑部主办，授权蔻享学术进行网络直播（https://www.koushare.com/frontiers/qb）。扫描加入下面微信群，将实时获取最新会议通知。

直播时间：2021年11月13日上午10：00 - 12：00

3、武大联合Elsevier创办生物医学期刊Cell Insight

Cell Insight 是一本开放获取双月刊，以打造“世界一流期刊”为目标，以“推动中国科技期刊高质量发展”为理念，重点报道生物医学领域的最新科学与技术成果。

Cell Insight由中科院院士、武汉大学舒红兵教授担任主编，病毒学国家重点实验室主任、武汉大学蓝柯教授担任执行主编，由来自中国、美国、加拿大、英国、澳大利亚、日本、意大利、比利时、韩国等全球著名学术机构的40余位学者担任编委。

Cell Insight 将提供专业且快速的论文审稿流程，论文投稿一周内决定是否送审，对送审稿件在二至四周内返回审稿意见，接受稿件 1 月内在线发表，同时在微信公众号加以推送。此外，Cell Insight 还对某些高水平、存在激烈竞争的稿件提供绿色通道快速发表。

Cell Insight 将于 2022 年 1 月正式出版第一期，创刊前三年所发表的文章均免除文章出版费。(来源：公众号「科研大匠」)

文章

1、一条指令，修改ggplot所有的字体

Y叔编写函数set_font()解决一次性字体设定。

g2 <- set_font(p, 
              family="Arial", 
              fontface="italic")

（来源：公众号「YuLabSMU」）

2、Python 3.10发布：优化错误调试，新增match语句等

更好的错误跟踪

Python3.10 新增两个特性，可以更好地处理错误，即更好的错误消息和用于调试的精确行号。以下列代码为例，代码中包含字典和函数，然而这段代码显示没有关闭字典。

some_dict = {1: "jack", 2: "john", 3: "james" ,
a_results = a_useful_function()

旧版本错误显示：

新版本错误显示：

Python 3.10 关于错误跟踪新特性将有助于加快调试速度，并减少初学者挫败感。

引入结构模式匹配

如果你已经使用过 C++ 等其他编程语言，或许你会期待 Python 有 switch 语句，这样就不必通过长的 if、 elif、 elif…. else 语句来完成任务。Python 3.10 的一个新特性是增加了结构模式匹配，或者换句话说，增加了 match case 语句，它的语法如下：

match subject:
    case <patt1>:
        <act1>
    case <patt2>:
        <act2>
    case <patt3>:
        <act3>
    case _:
        <action_default>

（来源：公众号「Python开发者」）

3、临床研究阴性阳性结果解读

对结果和研究的一些有益的思考策略。

阳性结果，思考：

P＜0.05就足够好吗？
获益程度有多大？
临床上，这一主要研究终点重要吗？
获得次要研究终点的支持了吗？
重要的亚组获益一致吗？
样本含量足够大？结论足够可信吗？
研究被提前终止了吗？
安全性问题会抵消获益吗？
疗效及安全性的均衡是患者特异性的吗？
研究设计及执行存在缺陷吗？
研究结果适用于我的患者吗？

阴性结果，思考：

有潜在获益的趋势吗？
把握度是否足够
主要研究终点是否合适(被准确定义)
研究对象是否合理？
治疗剂量是否合理？
研究执行过程是否有缺陷？
非劣效结论有意义吗？
亚组分析是否有积极信号？
次要研究终点有阳性发现吗？
改变分析方式有帮助吗？
有更充分的外部数据吗？
是否有充分的生物学依据支持这一治疗？

4、基于 KDE 的最佳 Linux 发行版

KDE 是目前最具定制性和最快速的桌面环境之一。虽然你可以随时安装 KDE，但最好选择一个 KDE 开箱即用的 Linux 发行版。

在这里，作者列出一些最好的基于 KDE 的 Linux 发行版。

例如，KDE Neon

5、王立铭：进化论是地球上唯一的成功学

虽然这是一篇推销文，但其中作者提及的几个观点值得大家阅读和思考。

在生物的自私本能和环境资源的相对匮乏这一对矛盾的推动下，进化履带上的四根链条——可遗传的变异、生存竞争、自然选择和生殖隔离——滚滚开动，在混乱的大自然中建立生命的秩序，并逐步自我完善和分叉，从一颗种子长成枝繁叶茂的生命之树。

6、8种方法可视化你的单细胞基因集打分

这期最后推荐的一篇文章以「生信技能树」的一篇近期推文收尾：校正批次效应后的数据，会掩盖部分真实的生物学差异。但校正批次效应后的数据是否能用于基因集富集分析，以及样本之间的批次效应是否会影响基因富集分析结果仍然是一个争论。文章重新审视了9种常见的功能集打分方法：GSEA、GSVA、PLAGE、Zscore、AddModuleScore、ssGSEA、AUCell、UCell和singscore。

工具

1、gggenes：ggplot2绘制基因结构图

2、shinyAce

shinyAce包使Shiny应用程序开发人员能够在他们的应用程序中使用Ace文本编辑器。

3、ggpubr - 基于ggplot2的publication ready图生成

“ggpubr”包提供了一些易于使用的函数，用于创建和定制基于“ggplot2”的出版准备图，包括点图、提琴图、条形图等。这个包中文搜索已经有非常非常多的介绍和使用推文了。

4、ggstatsplot - 基ggplot2于带有统计细节的图

对于发表文章非常推荐的一个绘图包，详细地展示统计细节而不仅仅只有显著性。支持常见的分析绘图。

5、flomo - 快速记录碎片知识与灵感的工具。

（@mugpeng投稿）

资源

1、biofast - 对生物信息学中常见任务的编程语言/实现进行基准测试

该仓库可以查看对于基本的生信处理任务，不同编程语言的计算性能。这对于初学者学习合适的编程语言可能提供帮助。

下面展示的是FASTQ解析的结果：

2、肿瘤免疫学

正在进行的肿瘤免疫学系统推文。（来源：公众号「OncoLab」）

3、类似GitBook在线文档创作平台汇总

4、Creating Beautiful Data Visualizations in R: a ggplot2 Crash Course（英文在线幻灯片）

详细的ggplot2介绍课件。

赞赏

如果你想要支持本周刊，可以对推文进行赞赏或者提供的支付宝/微信二维码打赏。

感谢以下往期赞赏/捐赠的读者：

Robin
张林

生信爱好者周刊（第 4 期）：生信有一天可以得诺贝尔奖吗

这里记录每周值得分享的生信相关内容，周日发布。

本杂志开源（GitHub: ShixiangWang/weekly），欢迎提交 issue，投稿或推荐生信相关内容。

GitHub 粉们可以通过 Watch 仓库的 Release（提前）关注发布内容。

讨论区的帖子《谁在招人？》，提供生信深造和就业信息，欢迎访问或发布学位攻读/工作/实习等岗位。

「本期专用讨论区」

封面图

光环。（via）

本周话题：生信有一天可以得诺贝尔奖吗

【2021年诺贝尔生理学或医学奖揭晓】北京时间10月4日下午，2021年诺贝尔生理学或医学奖揭晓。美国科学家David Julies、Ardem Patapoutian获奖，以表彰他们“发现温度和触觉的受体”。

人们对热、冷和触觉的感知能力对生存至关重要，支撑着我们与周围世界的互动。在日常生活中，我们认为这些感觉理所当然，但神经冲动是如何产生的，从而使温度和压力可以被感知？今年的诺贝尔奖得主解决了这个问题。

生信发展了几十年，为各类生物医学研究进展立下汗马功劳。但生信技术中一些核心的原创性方法、目前不断变更的测序手段是否能够在未来获得诺贝尔奖呢？你知道有哪些重要的生信方法和技术手段？你觉得它们能值一个诺贝尔奖吗？

生信科技动态

1、多款测序平台性能评估成果发布，华大智造测序仪可提供高质量WGS

近日，由生物分子资源设施协会（Association of Biomolecular Resource Facilities, ARBF）主导的ABRF NGS II期研究成果发表于Nature Biotechnology，文章题为“Performance assessment of DNA sequencing platforms in the ABRF Next-Generation Sequencing Study”。研究团队基于来自Illumina、Pacific Biosciences、Thermo Fisher Scientific、BGI、Oxford Nanopore Technologies和Genapsys的多款测序平台，在多个实验室对同一人类基因组家族、三个单独菌株和十种细菌的宏基因组混合物进行测序，并将各平台数据进行全方位、系统性比较，分析各个测序平台的性能差异和测序质量，以提供真实全面的参考证据。

数据显示，在短读长测序平台中，Illumina的HiSeq 4000和HiSeq X10平台提供了最一致、最高的基因组覆盖率，华大智造的BGISEQ-500、MGISEQ-2000平台提供了最低的测序错误率。在长读长测序平台中，PacBio CCS具有最高的基于参考的映射率和最低的非映射率。PacBio CCS和Oxford Nanopore的PromethION、MinION平台在重复序列丰富的区域和跨均聚物检测中均显示出最佳的序列定位性能。NovaSeq 6000使用2×250 bp读取化学是捕获已知INDEL事件的最强大的仪器。

2、基于结构分类预测EGFR突变型NSCLC的药物反应

近期，在Nature杂志上发表了一篇名为Structure-based classification predicts drug response in EGFR-mutant NSCLC的文章，描述了一种基于结构的方法来定义EGFR突变的功能群，这种方法可以有效地指导EGFR突变NSCLC患者的治疗和临床试验选择，并表明基于结构-功能的方法可以提高对不同癌基因靶向治疗药物敏感性的预测突变。

3、ecDNA与线性DNA的表观遗传差异研究进展

华大基因唐冲博士团队于近日在表观遗传与染色质研究权威期刊Epigenetics & Chromatin上发表题为Sequencing of methylase-accessible regions in integral circular extrachromosomal DNA reveals differences in chromatin structure的论文，开发出一种单分子层级研究ecDNA染色质开放性的新技术—— CCDA-seq。

4、ctDNA对NSCLC的BRAF抑制剂耐药机制探索

本文主要评估了ctDNA靶向测序的临床应用，作者选择了不同时期的患者样本进行ctDNA分析，结合KM分析观察BRAF突变及与其共发生的突变对疗效的影响，从而确定对BRAF靶向治疗耐药的因素和相关基因组改变，最终明确，对BRAF突变和其他共发生突变的连续检测在临床治疗策略的制定上是有意义的。

文章

1、富集分析的p值是怎么算出来的？

通常各种软件做GO富集性分析，都是使用超几何分布进行计算。超几何分布是偏态的，所以fisher.test默认的双侧检验，其实是使用单侧来计算p值，我们可以对数据进行测试，使用双侧和单侧的p值是一样的，不过会影响对置信区间的估计。

2、Sina图

在可视化分布时，箱线图可以隐藏双模态，而小提琴可以显示不存在的数据。Sina图，其中的点与密度成比例抖动，提供了一个很好的解决方案。ggforce::geom_sina提供了ggplot2的layer支持！

3、河流图

河流图（Streamg raph），有时候也叫做“主题河流图”（Theme River），是堆积面积图的一种变形，通过“流动”的形状来展示不同类别的数据随时间的变化情况。但不同于堆积面积图，河流图并不是将数据描绘在一个固定的、笔直的轴上（堆积图的基准线就是x轴），而是将数据分散到一个变化的中心基准线上（该基准线不一定是笔直的）。

4、浅谈Chip-seq/DNase-seq/ATAC-seq

在生物信息领域，测序技术的学习是必不可少的一环，要知道生物信息这门学科的起源就来自于各种各样的测序技术。这里谈一下Chip-seq、DNase-seq以及ATAC-seq这三种常见且比较相似的测序技术。

5、把你用R画的图（base或ggplot2）变成ASCII纯文本！

工具

1、vcfstats - 强大的vcf统计与作图工具

做生信免不了和vcf文件打交道，但是如何快速的统计其中的信息与作图并不是一件容易的事。vcfstats提供了一种快速提取vcf文件信息与作图的方式，强大，快速而且容易扩展。

2、UCSCXenaShiny - 基于UCSC Xena癌症数据库的R包和可视化Shiny应用

UCSCXenaShiny是一个交互式探索UCSCXena的R包。它主要是为了提供一个web应用程序（建立在Shiny框架和UCSCXenaTools包之上），用于下载、分析和可视化UCSCXena的数据集。

支持CRAN、Docker、Conda等下载、安装方式。

3、officeverse - 为生成office文档提供强大支持

4、rustdesk - 又一个强大的远程桌面软件

远程桌面软件，开箱即用，无需任何配置。

5、螺旋桨（PaddleHelix）

螺旋桨（PaddleHelix）是一个生物计算工具集，是用机器学习的方法，特别是深度神经网络，致力于促进以下领域的发展：

新药发现。提供1)大规模预训练模型:化合物和蛋白质; 2)多种应用:分子属性预测,药物靶点亲和力预测,和分子生成。
疫苗设计。提供RNA设计算法,包括LinearFold和LinearPartition。
精准医疗。提供药物联用的应用。

6、RectChr

RectChr主要用于基于Chr染色体水平上多层次的可视工具。

资源

1、bioinformatics-workflows

工作流管理器提供了一种简单直观的方法来简化管道开发。在这里，我们为选定的工作流管理器提供基本的概念验证实现。分析工作流是基于RNA-seq管道的一小部分，使用fastqc进行质量控制和鲑鱼进行转录物定量。

2、ggplot2绘图视频课程

3、最常用的R包整理

在实际工作中，每个数据科学项目各不相同，但基本都遵循一定的通用流程。具体如下：

数据导入
数据整理
数据转换
数据建模
数据可视化
统计推断
报告展示
自动化分析

本文列出每个步骤最有用的一些R包。

4、现代科研指北 - 图书

本书初稿写作于我处于学生与独立科研人员或转行的过渡期，也就是博士后阶段。在这一阶段身处海外的我意识到了现代科研的一些趋势与这个年龄段科研人员的种种迷茫，为了铭记，也为了启迪，我将这一阶段对于现代科研的一些思考整合为一本书。这本书是开源的，在初稿完成后开放协作，我也鼓励科研人员能记录自己的成长经历，如果实在不知从哪下手，可以参考这本书来整理。是否认可本书观点并不重要，但没有自己的科研思考过程对于科研人员是一种悲哀。

贡献者

@pwwang

赞赏

如果你想要支持本周刊，可以对推文进行赞赏或者提供的支付宝/微信二维码打赏。

感谢以下往期赞赏/捐赠的读者：

李淑娴
*书

生信爱好者周刊（第 3 期）：百年杨振宁

这里记录每周值得分享的生信相关内容，周日发布。

本杂志开源（GitHub: ShixiangWang/weekly），欢迎提交 issue，投稿或推荐生信相关内容。

GitHub 粉们可以通过 Watch 仓库的 Release（提前）关注发布内容。

讨论区的帖子《谁在招人？》，提供生信深造和就业信息，欢迎访问或发布学位攻读/工作/实习等岗位。

「本期专用讨论区」

封面图

对抗与对流。（via）

本周话题：百年杨振宁

2021年10月1日，杨振宁先生将迎来农历100周岁生日，学术界纷纷推出活动或文集祝贺杨先生百岁诞辰。《赛先生》自8月起陆续刊发系列重温杨振宁先生重要贡献的经典文章。9月22日起与《知识分子》联合推出 “百年风华杨振宁” 系列文章。邀请朱邦芬、潘建伟、施一公、饶毅等科学家及杨振宁先生学生为杨先生百岁诞辰送上祝福。

你认识杨振宁吗？知道他有哪些成果？哪些成果和品德让你钦佩？他的经历是否促进你对科学和生信科研的思考？🤔

欢迎读者在留言讨论区进行评论交流。

愿我们都能为国家、为生信、为自己奋斗百年！

生信科技动态

1、Science再次发布“全世界最前沿的125个科学问题”

其中生命科学领域的问题可以作为各位读者思考和以后攻克的方向。

What could help conservation of the oceans?
什么可以帮助保护海洋？
Can we stop ourselves from aging?
我们可以阻止自己衰老吗？
Why can only some cells become other cells?
为什么只有一些细胞会变成其他细胞？
Why are some genomes so big and others very small?
为什么有些基因组非常大而另一些却很小？
Will it be possible to cure all cancers?
有可能治愈所有癌症吗？
What genes make us uniquely human?
哪些基因使我们人类与众不同？
How do migratory animals know where they're going?
迁徙动物如何知道它们要去哪里？
How many species are there on Earth?
地球上有多少物种？
How do organisms evolve?
有机体是如何进化的？
Why did dinosaurs grow to be so big?
为什么恐龙长得如此之大？
Did ancient humans interbreed with other human-like ancestors?
远古人类是否曾与其他类人祖先杂交？
Why do humans get so attached to dogs and cats?
人类为什么会对猫狗如此着迷？
Will the world's population keep growing indefinitely?
世界人口会无限增长吗？
Why do we stop growing?
我们为什么会停止生长？
Is de-extinction possible?
能否复活灭绝生物？
Can humans hibernate?
人类可以冬眠吗？
Where do human emotions originate?
人类的情感源于何处？
Will humans look physically different in the future?
未来人类的外貌会有所不同吗？
Why were there species explosions and mass extinction?
为什么会发生物种大爆发和大灭绝？
How might genome editing be used to cure disease?
基因组编辑将如何用于治疗疾病？
Can a cell be artificially synthesized?
可以人工合成细胞吗？
How are biomolecules organized in cells to function orderly and effectively?
细胞内的生物分子是如何组织从而有序有效发挥作用的？

2、单细胞分析迈入多组学时代

一系列迅速发展的软件工具正在帮助研究人员分析多个庞大的组学数据集。过去十年见证了单细胞基因组学的爆炸式增长。描述基因表达的单细胞RNA测序 (RNA-seq)是最常用的技术。其他方法则详细描述了甲基化、遗传变异、蛋白质丰度和染色质可及性等过程。

3、Robust haplotype-resolved assembly of diploid individuals without parental data

常规单样本单倍型解析组装仍然是一个未解决的问题。在这里，我们描述了一种新算法，该算法结合了 PacBio HiFi 读数和 Hi-C 染色质相互作用数据，以生成单倍型解析的组装，而无需对亲本进行测序。应用于人类和其他脊椎动物样本，我们的算法始终优于现有的单样本组装管道，并生成与最佳基于谱系的组装质量相当的组装。

4、利用长读长测序数据解析遗传变异的深度学习算法NanoCaller

与短读长测序技术相比，长读长测序技术成本更低，reads长度更长，可以克服短读长测序无法解决的多个挑战性问题，已成功用于对不同物种的基因组进行测序。但与短读长测序数据相比，长读长测序的精准度较低，检测错误率也更高。有研究表明，利用基于深度学习的算法，在长读长测序数据上可以精确检测变异。根据单倍型数据的分阶段比对可提高变异识别的准确性，现有的三种算法（DeepVariant、Clairvoyante和Clair）在短读长和长读长数据上都能很好地运行单倍型数据比对，但这些算法在SNP检测中都忽略了来自远端单倍型SNP的重要信息。

近日，费城儿童医院王凯教授团队开发了一种新的深度学习算法--NanoCaller，可充分利用长读长测序在基因组区域中检测变异，并在Genome Biology上发表了题为NanoCaller for accurate detection of SNPs and indels in difficult-to-map regions from long-read sequencing by haplotype-aware deep neural networks的研究文章。NanoCaller可利用单倍型信息检测SNP，使用称为SNP的长reads进行定相，并通过局部重新排列检测InDel。研究团队利用NanoCaller检测了一个被广泛使用的基准基因组中的41个全新变体，这是此前其他方法无法实现可靠检测，有助于从长读长测序中发现复杂基因组区域的新变体。

5、Subtype-GAN: a deep learning approach for integrative cancer subtyping of multi-omics data

癌症亚型的发现有助于探索癌症发病机制，确定治疗中的临床可操作性，并提高患者的生存率。然而，由于多组学数据的多样性和复杂性，开发用于肿瘤分子亚型的集成聚类算法仍然具有挑战性。本文提出了 Subtype-GAN，这是一种基于多输入多输出神经网络的深度对抗学习方法，可以准确地对复杂的组学数据进行建模。通过从神经网络中提取潜在变量，Subtype-GAN 使用共识聚类和高斯混合模型来识别肿瘤样本的分子亚型。与其他最先进的子分型方法相比，Subtype-GAN 在由来自 10 种癌症类型的 4000 个 TCGA 肿瘤组成的基准数据集上取得了出色的表现。作者将 Subtype-GAN 应用于 BRCA 数据集，并自动获得了 1031 个 BRCA 肿瘤的亚型数量和亚型标签。通过详细分析，作者发现识别出的亚型具有临床意义，并且在特征空间中显示出不同的模式，证明了 Subtype-GAN 的实用性。

论文链接：https://doi.org/10.1093/bioinformatics/btab109
Github链接：https://github.com/haiyang1986/Subtype-GAN

6、DTI-Voodoo: machine learning over interaction networks and ontology-based background knowledge predicts drug–target interactions

预测DTI的方法可以利用药物的表型效应来识别潜在的药物靶点而间接进行，也可以是直接的利用分子信息直接预测结合亲和力。这两种方法都可以与有关交互网络的信息相结合。作者开发了DTI-Voodoo，将药物的分子特征和本体编码的表型效应与蛋白质-蛋白质相互作用网络相结合，并使用GCN来预测DTI。作者证明了药物效应特征可以利用相互作用网络中的信息，而分子特征则不能。DTI-Voodoo旨在预测给定蛋白质的候选药物；实验证明了DTI-Voodoo比最先进的DTI预测方法有显著的改进。

论文链接：https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btab548/6329632
代码链接：https://github.com/THinnerichs/DTI-VOODOO

7、Cathy Wu/Shirley Liu 团队建立多中心免疫肿瘤生物标志物开发平台

哈佛大学/丹特-法博癌症研究所Cathy Wu及X.Shirley Liu 团队在Clinical Cancer Research 期刊上发表了题为Cross-Site Concordance Evaluation of Tumor DNA and RNA Sequencing Platforms for the CIMAC-CIDC Network的文章。该研究建立并描述了免疫治疗临床试验中产生的跨中心多组学数据的整合分析平台及策略，并描述了建立多中心网络免疫肿瘤生物标志物开发的关键要素。其中包括平台建设、免疫分析检测的验证和协调、数据读取和集成平台以及多组学数据分析的策略。该研究也指出，DNA 和 RNA 平行测序能够显著提高肿瘤免疫治疗标志物筛选结果，可为精准诊断、精准治疗提供重要的参考信息。

#40

文章

1、绘制GC含量和测序深度（GC-Depth）分布图评估基因组质量

对于组装后的基因组序列，将组装基因组结果中的contigs/scaffolds序列分隔为一定长度的滑窗，统计每段滑窗内的各碱基占比，或者GC含量等，以查看组装结果中碱基分布是否均匀，基因组中存在多少比例的高GC区域等。据此，可在一定程度上推测物种基因组结构特征，组装中是否存在明显的错配，或判断测序数据中是否存在其他物种污染等。

2、Lessons learned in writing my first book

作者介绍了自己写第一本书的的经历感悟以及一些技巧分享。

3、Visualize the 'real' circular genome

circlize包提供了基因组的环形可视化方法。现在的问题是如何可视化一个“真正的”环形基因组，其中完整的圆圈对应于基因组，并且基因组的“末端”平滑地越过基因组的“起点”。

4、R tips: rlang中的expression操作符

生信菜鸟团的这篇推文简要介绍了rlang操作非标准计算的方式。

5、ggplot2的热图玩法

画热图的体系用的比较多的是pheatmap和ComplexHeatmap这两个包，前者胜在代码简单，功能强大，而后者胜在细节无穷无尽，只有你想不到，没有它做不到。ggplot2在画热图这件事上，是存在感不太强的。但有时候还必须得用它来画，以期和其他ggplot2的图严丝合缝的拼在一起。

因此我收集了一下ggplot2的成果，发现又解锁了y叔的一个新包aplot，以及前段时间刚出的ggheatmap（居然是大三的学生写的，后生可畏）。我写了三种方法，ggheatmap最为简单，可以直接去看方法3。

工具

1、typora - 最好用的Markdown编辑器

除了默认内置的几种主题，读者还可以通过https://theme.typora.io/从主题库中筛选自己喜欢的。

2、spiralize - 可视化螺旋数据

顾神新出品的精品R包。可以螺旋化沿阿基米德螺线可视化数据。它在可视化方面有两大优势：

它能够以高分辨率可视化具有很长轴的数据。
时间序列数据可以有效地揭示周期性模式。

作者在https://jokergoo.github.io/spiralize_vignettes/examples.html提供了非常多的实例，感兴趣的一定要看看！

3、jupyverse - 一组实现一个Jupyter服务器的FPS插件

4、ggheatmap - ggplot2的热图实现

本期文章有一篇相关推文。

5、可视化代码执行

【原载于《科技爱好者周刊（第 177 期）》】。

这个网站会将代码的执行流程，转成可视化图形，展示代码一步步是怎么执行的。目前支持 Python、Java、C、C++、JavaScript 和 Ruby 代码。

资源

1、数据科学小抄

我之前收集各类数据科学小抄，感兴趣的读者可以通过阿里云盘https://www.aliyundrive.com/s/688q5eGAKdE下载。

2、R中处理因果推断

包含如下内容：

00 Intro
01 Whole Game
02 Causal Diagrams
03 Introduction to Propensity Scores
04 Using Propensity Scores
05 Checking Propensity Scores
06 Fitting the outcome model
07 G-Computation
08 Tipping Point Sensitivity Analyses

3、Information is beautiful网站 - 一个非常多可视化案例的网站

该网站里面包含了各种各样好看的可视化图表，以及相关的介绍。

赞赏

如果你想要支持本周刊，可以对推文进行赞赏或者提供的支付宝/微信二维码打赏。

| | |
| ------------------------------------------------------------ | --------------------------------------------------...

Assets 2

18 Sep 12:25

ShixiangWang

issue-2

8346a8e

issue 2

生信爱好者周刊（第 2 期）：生信的境界与道路

这里记录每周值得分享的生信相关内容，周日发布。

本杂志开源（GitHub: ShixiangWang/weekly），欢迎提交 issue，投稿或推荐生信相关内容。

讨论区的帖子《谁在招人？》，提供生信深造和就业信息，欢迎访问或发布学位攻读/工作/实习等岗位。

「本期专用讨论区」

封面图

如果先做一个菜鸟。（via）

让别人看到你在学习～。

本周话题：生信的境界与道路

华中科技大学教授薛宇翻译生物信息学研究的5个层次水平并加入自己的理解：

0级（Level 0）：为建模、而建模（modeling for modeling’s sake）。简称：渣级。
1级（Level 1）：给数据、能分析。简称：菜鸟级。
2级（Level 2）：想新招、玩数据。简称：肉鸟级。
3级（Level 3）：玩数据、作发现。简称：顶级。
X级（Level X）：玩科学、讲政治。简称：神级。

希望每一位生信学习者都能从渣打到神级。

如果读者对本期话题感兴趣，欢迎到讨论区评论交流。

生信科技动态

1、第十届全国生物信息学与系统生物学学术大会

全国生物信息学与系统生物学学术大会自1998年首届召开以来，已成功举办九届，是中国生物信息学研究领域学术水平最高、影响最大的全国盛会。第十届全国生物信息学与系统生物学学术大会将于2021年10月25日至28日在四川省成都市召开。此次会议由中国生物信息学学会（筹）主办，四川省生物信息学学会承办，大会主题为“生物信息学前沿——人工智能大数据系统生物学与人类健康”。

2、未来科学大奖公布：香港大学袁国勇/裴伟士因SARS获生命科学奖

未来科学大奖（Future Science Prize）是由华裔科学家、企业家群体共同发起的民间科学奖项，设置“生命科学”和“物质科学”、“数学与计算机科学奖”三大奖项，单项奖金100万美元，于2016年首次颁发。旨在奖励在大中华地区（包含中国大陆地区、香港、澳门及台湾）取得杰出科技成果的科学家。

2021年未来科学大奖生命科学奖获奖者为：袁国勇（香港大学）、裴伟士（香港大学）。

获奖原因：他们发现了冠状病毒（SARS-CoV-1）是导致2003年全球重症急性呼吸综合征（SARS）的病原，以及由动物到人的传染链，为人类应对MERS和COVID-19冠状病毒引起的传染病产生了重大影响。

3、聚焦五大领域：浙江大学发布《重大领域交叉前沿方向2021》报告

以智能化为特征的第四次工业革命已经全面开启，会聚技术的不断涌现，正引领各领域创新突破性跃迁。学科交叉是这场变革的核心驱动力，主要表现为信息、生命、物质三大学科板块间的深度融合，最终将推动人类生产生活发生深刻变化。把握全球科技发展趋势，瞄准交叉前沿领域加快布局，对于抢抓创新竞争未来制高点具有重要意义。

很多内容应该可以更生信关联起来。

4、Nat. Comput. Sci. | 深度学习建模基因调控网络

【drugAI】单细胞测序技术的快速发展为生物学家研究细胞状态提供了前所未有的机会。而在批量测序数据中未发现的实验噪声会显着降低下游生物信息学分析结果的准确性。为了解决这个问题，人们利用深度学习通过模拟基因之间复杂的相互作用模式来过滤单细胞转录组数据中的噪声。先前的基于深度学习的方法虽然能更清晰的揭示细胞异质性，捕捉转录组学相似性和细胞之间的差异，但很难评估基因调控网络（GRN）结构或数据其他内部结构。而许多计算模型是将GRN推断和单细胞数据分析模型进行结合。然而，通常需要设计复杂的实验，并且还可能引入额外的噪声。此外，基于单细胞RNA测序（scRNA-seq）数据的方法也有明显的局限性。

针对上述问题，本文作者提出基于β-VAE框架的DeepSEM模型，可以联合嵌入基因表达数据，同时构建GRNs反映单细胞内基因相互作用的内部结构，而无需依赖任何额外信息，例如TF结合motif或单细胞ATAC测序（scATAC-seq）数据。作者在多个基准数据集上评估DeepSEM在各种单细胞任务中的性能都获得了不错的结果，并且由于VAE模型本身可以对潜在向量空间进行扰动来生成新的数据，因此在训练样本数据有限的情况下，仍能保证细胞类型分类的准确性。

5、吃下去的药被肠道细菌吸收了？可能会降低药效并改变肠道菌群

人体肠道自然包含许多不同种类的细菌群落，这些细菌对健康和疾病都很重要，它们被称为肠道微生物群。人与人之间的细菌种类组成差异很大，此前已有研究表明，肠道细菌的种类与肥胖、免疫反应和心理健康等多种疾病有关。

不仅如此，肠道细菌还可以通过生化反应来改变某些药物的特性，这一过程被称为生物转化。那么，与之相反，某些常用药物在肠道的累积是否会改变人体的肠道微生物群呢？

2021年9月8日，剑桥大学医学研究委员会毒理学部门和德国欧洲分子生物学实验室的研究人员在Nature上发表题为：Bioaccumulation of therapeutic drugs by human gut bacteria的研究论文。

这项研究首次表明，某些种类的肠道细菌会积累人体药物，并改变细菌的类型及其活动。这可能会直接改变药物的有效性，因为积累可能会减少药物对身体的可用性，同时也可能间接地改变细菌的功能和成分，因为可能会产生副作用。

6、上海交通大学王卫庆/曹亚南团队发表用于中国人群准确基因型插补的ChinaMAP参考Panel

研究团队基于中国代谢分析项目（ChinaMAP）的WGS数据构建了该高分辨率和群体特异性参考panel。与此前的中国样本的参考panel相比，ChinaMAP参考panel在样本量、测序深度、插补准确性、精确度和灵敏度方面表现出显著优势。ChinaMAP插补服务器（www.mbiobank.com）可以为中国和东亚人群的遗传研究提供最佳插补方法，有助于中国人群遗传研究中更全面的插补和更新颖的发现。

7、通过迁移学习将单细胞数据映射到参考图谱

大的单细胞地图集现在经常被生成，作为小范围研究分析的参考。然而，由于数据集之间的批处理效应、有限的计算资源可用性以及原始数据的共享限制，从参考数据中学习变得复杂。在这里，我们介绍了一种深度学习策略，用于在引用之上映射查询数据集，称为单细胞架构手术（scArches）。scArches使用迁移学习和参数优化来实现高效、分散、迭代的参考构建和新数据集的上下文化，而无需共享原始数据。使用来自小鼠大脑、胰腺、免疫和全生物地图集的例子，我们表明，尽管使用的参数比从头整合少四个数量级，但能保留生物状态信息，同时消除批效应。scArches可推广到多模态参考映射，允许对缺失的模态进行归因。最后，scArches保留了2019冠状病毒病（COVID-19）的疾病变异，当映射到健康参考时，可以发现特定疾病的细胞状态。scArches将通过迭代构建、更新、共享和有效使用参考地图集来促进合作项目。

8、基于机器学习的儿童遗传综合征评估模型

目前，机器学习技术在解释图像以诊断各种疾病方面显示出潜力。虽然面部特征的计算分析已广泛用于一般的安全应用，但尚未被用于医疗诊断。前期的初步研究结果表明，使用面部分析和机器学习技术识别与遗传综合征相关的面部畸形是可行的。但那些研究只是为了支持专业医疗机构对预先筛查的患者进行临床诊断，没有解决确定哪些儿童有出现遗传综合征的风险并应寻求专业治疗的关键需求，且其纳入的研究人群较为局限。

近日，美国华盛顿国立儿童医院的研究团队在The Lancet Digital Health期刊在线发表了题为Development and evaluation of a machine learning-based point-of-care screening tool for genetic syndromes in children: a multinational retrospective study的文章。研究团队开发出一种基于深度神经网络和面部统计模型的遗传病筛查技术，并评估了其在儿童遗传综合征预测层面的性能。根据多个国家的多中心数据分析表明，该深度神经网络学习模型能够在一般的儿科人群中识别任何遗传畸形，解释与种族、年龄和性别相关的表型变异性。

文章

1、在ggplot2散点图中自动添加回归系数或回归方程、R2、P值等

有时候使用ggplot2绘制散点图展示两组变量的关系时，同时也做了一些描述二者关系的统计，如相关性分析、回归分析等，并期望将相关系数或回归方程、R2、P值等也添加在ggplot2的散点图中，该如何实现呢？

2、学习如何分析肿瘤空间异质性

分析肿瘤空间异质性是历来研究的热点，但也是难点。因此，今天为大家深度解读一篇2021年6月发表在《Cancer Discovery》(IF=39.397；中科院1区)上的文章，学习作者如何利用公共数据探索空间异质性的分子特征。

3、生物网络中的小世界系数（small-world coefficient）及R语言计算

本文简介一种网络拓扑属性，小世界系数（small-world coefficient）。

4、构建基本shell脚本

本文介绍如何构建基本的Shell脚本，掌握Linux终端编程。

内容：

使用多个命令
创建脚本文件
显示消息
使用变量
输入输出重定向
管道
数学运算
退出脚本

5、Linux数据处理命令工具

step1 input.txt | less
step1 input.txt | step2 | less
step1 input.txt | step2 | step3 | less

Linux管道

本文参考学习《Bioinformatics. Data. Skills》，这里简要地整理下Linux用来处理数据文本的工具。

该书的获取方式见上期。

6、使用dplyr进行数据处理

delays <- flights %>%
    group_by(dest) %>%
    summarize(
        count = n(),
        dist = mean(distance, na.rm = TRUE),
        delay = mean(arr_delay, na.rm = TRUE)
    ) %>%
    filter(count > 20, dest != "HNL")

dplyr管道与数据操作

本文参考学习《R for Data Science》，这里介绍dplyr数据处理和编程基础。

7、单细胞RNAseq数据的矩阵分解

我有兴趣学习更多关于矩阵分解及其在scRNAseq数据中的应用。我想对Elana J. Fertig研究组的论文Enter the Matrix: Factorization Uncovers Knowledge from Omics进行深入学习。

工具

1、datar: dplyr in python

在生信分析中，R是很常用的语言，R中数据处理的包，特别是tidyverse开发的包，包括dplyr、tidyr、 forcats等，很受欢迎。他们的API设计简单易记，配合ggplot2，简直数据分析+作图的神组合。而python中，pandas虽然强大，但API繁多且不容易记住。datar将R中相关的包在python中进行了实现，使得python中的数据分析也可以用上dplyr的语法。datar不仅实现了管道操作，并且尽量遵循原包的API设计，对R熟悉的同学很容易上手。

本工具是作者本人分享，我简单的看了下项目仓库以及与作者交流，不仅发现tidyverse中极多有用功能被纳入，而且是纯Python实现的（与简单提供R接口不同）。非常厉害的工具，称得上Python中的tidyverse，推荐大家尝试使用！

from datar import f
from datar.dplyr import mutate, filter, if_else
from datar.tibble import tibble
# or
# from datar.all import f, mutate, filter, if_else, tibble

df = tibble(
    x=range(4),
    y=['zero', 'one', 'two', 'three']
)
df >> mutate(z=f.x)
"""# output
        x        y       z
  <int64> <object> <int64>
0       0     zero       0
1       1      one       1
2       2      two       2
3       3    three       3
"""

df >> mutate(z=if_else(f.x>1, 1, 0))
"""# output:
        x        y       z
  <int64> <object> <int64>
0       0     zero       0
1       1      one       0
2       2      two       1
3       3    three       1
"""

df >> filter(f.x>1)
"""# output:
        x        y
  <int64> <object>
0       2      two
1       3    three
"""

df >> mutate(z=if_else(f.x>1, 1, 0)) >> filter(f.z==1)
"""# output:
        x        y       z
  <int64> <object> <int64>
0       2      two       1
1       3    three       1
"""

2、eulerr

eulerr生成面积比例欧拉图，显示与圆或椭圆的集合关系(交、并、解)。欧拉图是维恩图，不要求所有集合的相互作用都存在（无论它们是空的还是空的），这意味着，根据输入，欧拉有时会产生维恩图，有时不会。

3、gt - 表格制作神器

使用gt包，任何人都可以使用R编程语言制作好看的表。gt的哲学是：我们可以用一组内聚的表部件来构造各种各样的有用的表。这包括表头、存根、列标签和跨组列标签、表主体和表脚。

4、gtExtras

gtExtras的目标是提供一些额外的辅助函数来帮助使用gt创建漂亮的表。这些函数通常是对样板文件的包装，或者添加了gt中尚未内置的功能。gt包是惊人的，确保去阅读官方文档。

主题

数据高亮

5、gtsummary - 准备好的演示数据总结和分析结果表

gtsummary包提供了一种优雅而灵活的方法来使用R编程语言创建可发布的分析和汇总表。gtsummary包总结了数据集、回归模型等等，使用了具有高度可定制功能的合理默认值。

6、mathpix - 图片转公式神器

![](https://gitee.com/ShixiangWang/ImageCollection/raw...

Assets 2

12 Sep 06:25

ShixiangWang

issue-1

f066725

issue 1

本周话题：生信是什么

生信是什么？你是如何理解它的？

无论你是一个新手还是老手，想必都有自己的看法。这个问题没有标准答案，可能会一直没有答案。这是个你需要一直学习、一直寻求突破的事业，它让你痛并快乐着，让你舍不得离开座位，让你肚子一圈圈变大。来吧，亲爱的朋友们。

对生信，这里不会给出教科书式的定义。如果你想要畅聊自己的看法，欢迎在GitHub讨论区发表自己的意见。

从个人的经历来看，生信主要有3大块内容，或者说它基本是由3个学科交叉形成的新的科学。

生物学
统计学
计算机

这里生物学是根、统计学是内核、计算机是外核。3者通其2，便能立足该领域。

Assets 2

Releases: openbiox/weekly

issue 10

生信爱好者周刊（第 10 期）：开放科学

封面图

本周话题：开放科学

生信科技动态

文章

工具

资源

赞赏

订阅

issue 9

生信爱好者周刊（第 9 期）：统计建模之道和术

封面图

本周话题：统计建模之道和术

生信科技动态

文章

工具

资源

赞赏

订阅

issue 8

生信爱好者周刊（第 8 期）：《沙丘》编剧、《权游》作者使用MS-DOS创作

封面图

本周话题：《沙丘》编剧、《权游》作者使用MS-DOS创作

生信科技动态

文章

工具

资源

赞赏

订阅

issue 7

生信爱好者周刊（第 7 期）：为何年轻便科研至死

封面图

本周话题：为何年轻便科研至死

生信科技动态

文章

工具

资源

赞赏

订阅

issue 6

生信爱好者周刊（第 6 期）：你会买“炸场”Macbook Pro搞生信吗？

封面图

本周话题：你会买“炸场”Macbook Pro搞生信吗？

生信科技动态

文章

工具

资源

赞赏

订阅

issue 5

生信爱好者周刊（第 5 期）：相关非因果

封面图

本周话题：相关非因果

生信科技动态

文章

工具

资源

赞赏

订阅

issue 4

生信爱好者周刊（第 4 期）：生信有一天可以得诺贝尔奖吗

封面图

本周话题：生信有一天可以得诺贝尔奖吗

生信科技动态

文章

工具

资源

贡献者

赞赏

订阅

issue 3

生信爱好者周刊（第 3 期）：百年杨振宁

封面图

本周话题：百年杨振宁

生信科技动态

文章

工具

资源