BIO 知识备忘录 by Wenhao 🦅🦅🦅

氨基酸（Amino Acid）：构成蛋白质的基本单位，每个氨基酸包含一个中心的碳原子（Cα），连接一个氢原子、一个氨基（-NH2）、一个羧基（-COOH）和一个特定的侧链。
氨基（Amino Group）：氨基酸中的组成部分，化学式为-NH2，是一个基本的含氮组。
羧基（Carboxyl Group）：氨基酸中的另一个组成部分，化学式为-COOH，表现为酸性。

这张图片展示了氨基酸的不同类型，根据其侧链的性质将其分为三类：

疏水性非极性侧链（Nonpolar side chains; hydrophobic）：
- 这些氨基酸的侧链不喜欢水（疏水性），通常在蛋白质的内部。
- 例子包括：甘氨酸 (Glycine, Gly, G)、丙氨酸 (Alanine, Ala, A)、缬氨酸 (Valine, Val, V)、亮氨酸 (Leucine, Leu, L)、异亮氨酸 (Isoleucine, Ile, I)、甲硫氨酸 (Methionine, Met, M)、苯丙氨酸 (Phenylalanine, Phe, F)、色氨酸 (Tryptophan, Trp, W)、脯氨酸 (Proline, Pro, P)。
亲水性极性侧链（Polar side chains; hydrophilic）：
- 这些氨基酸的侧链喜欢水（亲水性），通常在蛋白质的表面与水接触。
- 例子包括：丝氨酸 (Serine, Ser, S)、苏氨酸 (Threonine, Thr, T)、半胱氨酸 (Cysteine, Cys, C)、酪氨酸 (Tyrosine, Tyr, Y)、天冬酰胺 (Asparagine, Asn, N)、谷氨酰胺 (Glutamine, Gln, Q)。
带电侧链（Electrically charged side chains; hydrophilic）：
- 这些氨基酸的侧链带电荷（亲水性），根据电荷的性质进一步分为酸性（负电荷）和碱性（正电荷）。
- 酸性（负电荷）：天冬氨酸 (Aspartic acid, Asp, D)、谷氨酸 (Glutamic acid, Glu, E)。
- 碱性（正电荷）：赖氨酸 (Lysine, Lys, K)、精氨酸 (Arginine, Arg, R)、组氨酸 (Histidine, His, H)。

序列（Sequence）：指的是蛋白质或肽段中氨基酸的排列顺序，通常由一系列氨基酸的缩写字母表示。
蛋白质螺旋结构（Protein Helix Structure）：蛋白质的一种二级结构，通常指α-螺旋，它是由氨基酸残基通过氢键形成的紧密卷曲的结构。这种结构在许多蛋白质中都能找到，对蛋白质的稳定性和功能具有重要作用。
完整蛋白质（Intact Protein）：指的是未经切割或消化的蛋白质分子，保持其原始的三维结构和生物功能。
肽段（Peptide）：较短的氨基酸链，通常是在蛋白质消化过程中由特定酶（如胰蛋白酶）切割生成的。肽段比完整蛋白质小，更易于质谱分析。
肽中心（Peptide-Centric）：一种蛋白质组学分析方法，强调对分析肽段而非整个蛋白质的重点。此方法通常用于自底向上蛋白质组学分析，侧重于通过肽段的鉴定和定量来推断整体蛋白质的信息。

中心法则（Central Dogma）

DNA复制（DNA Replication）： 遗传信息首先通过DNA的复制过程传递给子代DNA。复制过程保证了细胞分裂时，每个子细胞都能获得完整的遗传信息。
转录（Transcription）：在细胞中，DNA序列被转录成mRNA的过程。这是蛋白质合成的第一步，涉及到从DNA信息转换成RNA的过程。遗传信息从DNA转录到信使RNA（mRNA）上。转录是指以DNA为模板，合成RNA分子。义链（Sense Strand）：与mRNA序列相同，但不作为转录模板，仅提供编码信息的参考。无义链（Antisense Strand）：作为转录模板，通过互补配对指导mRNA的合成。
翻译（Translation）：在细胞的核糖体上，mRNA模板被用来合成特定的蛋白质。这一过程涉及mRNA上的编码信息被翻译成氨基酸序列，进而形成蛋白质。
密码子（Codon）：mRNA上由三个核苷酸组成的单位，对应于一个特定的氨基酸。密码子在翻译过程中指导特定氨基酸的加入到正在形成的蛋白质链中

组成单体：

DNA序列：由四种脱氧核苷酸（腺嘌呤A、胞嘧啶C、鸟嘌呤G、胸腺嘧啶T）组成。DNA中的四种碱基通过氢键互相配对，腺嘌呤（A）与胸腺嘧啶（T）配对，胞嘧啶（C）与鸟嘌呤（G）配对。这种碱基配对使DNA复制过程中能够准确复制遗传信息。两条DNA链是反向平行的，一条链的5'端与另一条链的3'端相对。
RNA序列：由四种核糖核苷酸（腺嘌呤A、胞嘧啶C、鸟嘌呤G、尿嘧啶U）组成，尿嘧啶在RNA中代替了DNA中的胸腺嘧啶。
蛋白质序列：蛋白质由20种不同的氨基酸通过肽键连接而成。每个氨基酸都有特定的侧链，这些侧链决定了蛋白质的化学性质和功能。蛋白质可以通过多种方式被调控和修饰，如磷酸化、糖基化等，这些修饰影响蛋白质的功能和稳定性。

DNA和RNA的合成过程中的序列延伸方式只能从5'到3'，

DNA和RNA的核苷酸由一个磷酸基团、一个五碳糖（脱氧核糖或核糖）和一个碱基组成。磷酸基团连接在五碳糖的5'碳原子上，而碱基连接在1'碳原子上。3'碳原子上有一个羟基（-OH）。核苷酸添加反应：
在DNA或RNA合成过程中，新的核苷酸通过磷酸二酯键连接到正在延伸的核酸链上。这一反应发生在链的3'末端，即每次新的核苷酸都添加到3'羟基上。具体来说，新的核苷酸的5'磷酸基团与前一个核苷酸的3'羟基反应，形成一个新的磷酸二酯键，释放一个焦磷酸（PPi）分子。这个反应由DNA聚合酶（或RNA聚合酶）催化。
在翻译过程中，核糖体沿着mRNA的5'到3'方向移动。翻译从mRNA的5'端附近的起始密码子（通常是AUG）开始。核糖体从5'到3'方向移动，mRNA上新的密码子依次进入核糖体的A位点进行翻译。

特定化学键和蛋白质修饰

肽键（Peptide Bond）：连接两个氨基酸的羧基和氨基形成的共价键。这种键是通过一种脱水反应形成的，其中一个氨基酸的羧基与另一个氨基酸的氨基失去一个水分子而形成。
蛋白质翻译后修饰（Post-Translational Modification, PTM）：蛋白质在翻译后发生的化学修改，包括磷酸化、泛素化、糖基化等。这些修饰能够影响蛋白质的功能、稳定性、位置和相互作用。

蛋白质样本处理流程(Mass spect 前置工作)

1. 样本提取（亲水或疏水）

目的：从生物样品中提取蛋白质。
亲水样本提取：适用于细胞质蛋白或易溶于水的蛋白质。
疏水样本提取：适用于膜蛋白或不溶于水的蛋白质。

2. Reduction（还原）

目的：破坏蛋白质中的二硫键，使其完全展开，有助于后续分析。

3. Alkylation（烷基化）

目的：保护已还原的半胱氨酸残基，防止二硫键重新形成。

4. 脱盐

目的：去除样本中的盐分和小分子干扰物，避免其在后续质谱分析或其他分析手段中干扰蛋白质信号。

5. 质谱分析准备：干燥后的肽段重新溶解在适当的溶剂中（如0.1%甲酸溶液），准备进行液相色谱-质谱联用（LC-MS/MS）分析。

6. 质谱数据分析：通过LC-MS/MS获取质谱数据后，利用专业的软件（如Mascot、MaxQuant）进行数据分析和肽段鉴定。

液相色谱（LC）能够有效的将有机物待测样品中的有机物成分分离(肽段分离)，而质谱（MS）能够对分开的有机物逐个的分析，得到有机物分子量，结构（在某些情况下）和浓度（定量分析）的信息。质谱的基本原理是蛋白质经过蛋白酶的酶切消化后成肽段混合物，液相色谱进行肽分离，在质谱仪中肽段混合物电离形成带电离子(正电荷,质子)，质谱分析器的电场、磁场将具有特定质量与电荷比值（即质荷比，M/Z）的肽段离子分离开来，经过检测器收集分离的离子，确定每个离子的M/Z值。经过质量分析器可分析出每个肽段的M/Z，得到蛋白质所有肽段的M/Z图谱，即蛋白质的一级质谱峰图。离子选择装置自动选取强度较大肽段离子再次破碎和分析进行二级质谱分析，输出选取肽段的二级质谱峰图，通过和理论上蛋白质经过胰蛋白酶消化后产生的一级质谱峰图和二级质谱峰图进行比对而鉴定蛋白质。(每一个峰就是一个peptide)
肽段越长,带的电荷越多,产生的信号越多越复杂,最多看到九个信号(0-9)
已知m/z=50的峰,z=3,多肽的分子量为150-3=147(要将带的质子减去)

自底向上蛋白质组学分析方法：(bottom to up)

自底向上的蛋白质组学涉及到在质谱分析之前蛋白质的水解消化。术语自下而上意味着有关组成蛋白质的信息是由单独鉴定的片段肽重建的。对于自底向上的蛋白质组学流程图，采用凝胶法，通过二维电泳分离蛋白质混合物。在斑点可视化后，从凝胶中提取蛋白质，消化，并进行质谱分析，通过数据库搜索进一步鉴定。采用无凝胶法，将蛋白质混合物直接消化为多肽混合物，通过多维分离方法分离。然后用质谱分析肽。利用数据库搜索从生成的质谱中鉴定蛋白质。

自顶向下蛋白质组学分析方法：

自上而下的蛋白质组学可以从复杂的生物系统中描述完整的蛋白质。这种方法通常允许接近100%的序列覆盖和蛋白质形态的全部特征，蛋白质形态是由遗传变异、可变剪接和翻译后修饰组合而成的特定分子形式。串联质谱的裂解是通过电子俘获解离(ECD)或电子转移解离(ETD)完成的。蛋白质通常被电喷雾电离并在傅立叶变换离子回旋共振或四极离子阱质谱仪中捕获。

蛋白质多组学关键术语及其在蛋白质测序中的作用

Spectram 和 Spectra

定义：Spectram (通常指的是单数形式，但较少使用) 和 Spectra (复数形式) 指的是通过质谱仪生成的图谱，显示了不同质量的离子在质谱中的分布。
作用：在蛋白质测序中，质谱图被用来鉴定蛋白质样本中的肽段和蛋白质，通过测量它们的质量到电荷比（m/z）来进行。

Pepsin

定义：Pepsin 是一种消化酶，通常在蛋白质消化过程中用于辅助肽链的分解。
作用：在蛋白质测序中，pepsin 可用于在体外消化蛋白质，从而生成较小的肽段，这些肽段随后可以通过质谱进行分析。

Sequence

定义：Sequence 指的是蛋白质或肽段的氨基酸序列。
作用：蛋白质序列的确定是蛋白质测序的核心部分，通过比对实验得到的质谱数据与已知的蛋白质数据库，可以推断出未知样本的蛋白质序列。

Light Chain 和 Heavy Chain

定义：
- Light Chain：轻链，是构成某些类型蛋白质（如抗体）的较小的多肽链。
- Heavy Chain：重链，是同一蛋白质中较大的多肽链。
作用：在蛋白质测序中，特别是在研究抗体时，区分轻链和重链对于了解抗体的结构和功能至关重要。

In Solution 和 In Gel

定义：
- In Solution：指的是在溶液中进行的实验。(Trypesin)
- In Gel：指的是在凝胶（如聚丙烯酰胺凝胶）中进行的实验。(浓度不是很高,跑胶)
作用：这两种方式通常用于蛋白质或肽段的分离和净化，有助于随后的质谱分析。在溶液中的处理通常涉及到液相色谱，而凝胶通常用于电泳。
区别：
- In Solution 方法涉及将蛋白质或肽段直接在溶液中处理，适合于快速、直接的样品处理。
- In Gel 方法涉及将样品首先通过凝胶电泳分离，然后进行进一步的处理，有利于处理复杂或含杂质较多的样品。

Alignment

定义：Alignment 指的是序列比对，是将蛋白质或核酸序列与已知的数据库进行比对，以寻找相似的序列。
作用：在蛋白质测序中，通过比对可以帮助识别未知序列中的已知蛋白质或功能区域，这对于理解蛋白质的功能和结构至关重要。

m/z (Mass-to-Charge Ratio)

定义：m/z 是质量到电荷比的缩写，表示在质谱分析中检测到的离子的质量与其电荷数的比值。
作用：m/z 是质谱分析中最基本的测量指标，用于鉴定和区分不同的分子和离子。在蛋白质测序中，通过分析肽段或蛋白质的m/z值，可以推断其结构和组成。

Intensity

定义：在质谱图中，Intensity 指的是某个特定m/z值下，离子信号的强度。
作用：信号强度反映了在样品中该离子的相对丰度。在蛋白质测序中，通过比较不同肽段的信号强度，可以估计蛋白质或肽段的丰度，这对于定量分析和比较不同样本中蛋白质表达的差异非常重要。

UV 图与 TIC 图

在蛋白质多组学中，UV图和TIC图是两种常用的色谱分析图谱，它们在分析蛋白质的组成、结构和性质方面起着重要作用。

UV图（UV Chromatogram）：

UV图是通过紫外线吸收检测器记录样品在色谱柱中流动过程中紫外线吸收的变化而得到的图谱。在蛋白质多组学中，UV图主要用于检测蛋白质及其相关物质在不同波长下的吸光度变化。蛋白质在紫外区域（通常在200至280纳米范围内）有明显的吸收峰，这些峰可以用来监测蛋白质在色谱柱中的分离情况。UV图可以提供关于蛋白质含量、纯度和杂质含量的信息，因此在蛋白质分离纯化和定量分析中被广泛应用。

横轴（X轴）：通常表示色谱分析的时间或者色谱柱的洗脱时间。在色谱过程中，样品成分会根据其特性以不同的速率从色谱柱中洗脱出来，横轴上的时间表示这个洗脱过程。
纵轴（Y轴）：表示紫外线吸收度（或称为吸光度）。在UV图中，纵轴上的数值表示样品在不同波长下的吸光度值。蛋白质在UV区域有明显的吸收峰，通过检测这些吸收峰的强度可以了解样品中蛋白质的含量、纯度和杂质含量。

TIC图（Total Ion Chromatogram）：

TIC图是通过质谱检测器记录样品在色谱柱中流动过程中产生的离子总数随时间变化而得到的图谱。在蛋白质多组学中，TIC图主要用于监测样品中蛋白质及其降解产物的离子信号。通过质谱检测器，可以将样品中的蛋白质分子转化为离子，进而得到TIC图。TIC图可以提供关于样品中蛋白质的分子量、离子强度和离子分布等信息，对于鉴定蛋白质及其修饰、降解产物等具有重要意义。

横轴（X轴）：同样表示色谱分析的时间或者色谱柱的洗脱时间。在色谱过程中，样品成分会随着时间从色谱柱中洗脱出来，横轴上的时间反映了这个洗脱过程的时间变化。
纵轴（Y轴）：表示质谱信号的强度。TIC图中的纵轴上的数值表示样品中产生的总离子信号的强度。这些离子信号来自于质谱检测器对样品中蛋白质分子产生的离子进行检测，反映了样品中蛋白质及其相关物质的分布和丰度。

UV图和TIC图在蛋白质多组学中通常结合使用，通过色谱分离和质谱检测相结合的方式，全面地了解样品中蛋白质的组成、结构和性质。这些图谱可以为蛋白质研究提供关键的定性和定量信息，有助于深入理解蛋白质的功能和生物学特性。总的来说，UV图和TIC图都是通过记录样品在色谱过程中的变化来获取信息的，只不过UV图主要关注样品在紫外区域的吸光度变化，而TIC图则主要关注样品中产生的总离子信号的强度变化。通过这些图谱，可以了解样品中蛋白质的分离、组成和特性，为蛋白质多组学研究提供重要的数据支持。

在质谱检测中，离子的生成和检测速度通常比UV检测要慢，这可能导致TIC图中的峰出现时间相对较晚。离子化的过程需要一定的时间，而且离子信号的累积也需要一定的时间，因此TIC图中的峰出现时间可能相对延迟。

Epibiologics Antibody（上皮生物学抗体）

上皮生物学抗体是指专门针对上皮组织中蛋白质或多肽的特异性抗体。上皮细胞覆盖身体的内外表面，广泛存在于皮肤、呼吸道、消化道等部位。上皮生物学抗体在以下几个方面具有重要作用：

癌症研究和治疗：许多上皮来源的肿瘤，如乳腺癌、结肠癌等，可以通过识别特异性抗原的抗体进行标记，从而用于诊断和靶向治疗。
免疫检测：上皮生物学抗体可以用于检测上皮细胞表面特定抗原，帮助了解疾病进展和治疗效果。

Glycan（糖链）

糖链是蛋白质上的糖基化修饰部分，由多个单糖分子通过糖苷键连接而成。糖基化是蛋白质翻译后修饰（PTM）中最常见的形式之一，对蛋白质的稳定性、功能和细胞间相互作用具有重要影响。

结构和功能稳定性：糖基化可以影响蛋白质的折叠、稳定性和半衰期。
细胞识别和信号传导：糖链在细胞识别、信号传导和免疫应答中起关键作用。
疾病相关性：异常的糖基化与许多疾病相关，如癌症、糖尿病和神经退行性疾病。

Disulfide Bond（二硫键）

二硫键是由两个半胱氨酸残基之间的硫原子形成的共价键。二硫键在蛋白质的三维结构和功能稳定性方面起重要作用。

结构稳定性：二硫键帮助蛋白质维持其三维结构，防止蛋白质变性和降解。
蛋白质折叠：二硫键在蛋白质折叠过程中起调控作用，确保蛋白质正确折叠。
功能调控：二硫键可以调控蛋白质的活性，如酶的活性和受体的功能。

Hinge Region（铰链区）

铰链区是抗体分子中连接恒定区（C区）和可变区（V区）的灵活区域，允许抗体在结合抗原时灵活运动。

灵活性和结合性：铰链区的灵活性使抗体能够更好地结合抗原，增加结合效率。
效应功能：铰链区对抗体的效应功能（如与Fc受体结合和补体激活）具有重要作用，影响抗体的免疫效应。

Inter Chain（链间）

链间是指多肽链之间的相互作用或连接，尤其是指在多肽或蛋白质二级和三级结构中的链间二硫键或非共价相互作用。

蛋白质复合物形成：链间相互作用对于蛋白质复合物的形成和稳定至关重要，如抗体的重链和轻链之间的连接。
功能协调：链间相互作用可以调控蛋白质复合物的功能，如酶-底物复合物的形成和解离。

Intra Chain（链内）

链内是指同一多肽链内部的相互作用或连接，如链内二硫键或其他结构域之间的相互作用。

蛋白质折叠：链内相互作用对蛋白质的正确折叠和功能至关重要。
稳定性和活性：链内二硫键和其他相互作用可以增强蛋白质的稳定性和活性，防止变性和降解。

IgG1（免疫球蛋白G1）

IgG1是免疫球蛋白G（IgG）家族中的一个亚型，是人体血清中最主要的抗体类型之一，占IgG总量的70-75%。 IgG中一共有16个二硫键,链间二硫键最容易断,其次是铰链区中间上面那条,再是下面那条,最难的是最下面的那条。

中和作用：IgG1可以中和病毒、细菌毒素等病原体。
调理吞噬作用：IgG1通过与Fc受体结合，促进吞噬细胞识别和清除病原体。
补体激活：IgG1可以激活补体系统，增强免疫反应。

IgM的结构

免疫球蛋白 M 是第三种最常见的血清免疫球蛋白，有两种形式：

所有重链和轻链均相同的五聚体
单体（在 B 淋巴细胞中作为 B 细胞受体存在）

在 B 细胞表面，该分子以具有四链单元（两个 μ H 链和两个 L 链）的单体形式表达于质膜上。
在这种形式下，它是一种 B 细胞抗原受体，其中每个 H 链均含有额外的疏水结构域，用于锚定在膜上。
在血液中，IgM 由五个四链单位（五聚体）组成，这些单位通过 μ 链羧基末端的二硫键连接在一起。
五聚体结构中的五个单体均由两条轻链（κ 或 λ）和两条重链组成。然而，与 IgG 不同，IgM 单体中的重链由一个可变区和四个恒定区组成，其中额外的恒定区取代了铰链区。
J 链也与血液中的 IgM 相关，并在其从浆细胞分泌时启动其亚基的聚合。

打开二硫键的目的

结构解析：二硫键（-S-S-）是蛋白质二级、三级和四级结构的重要组成部分。它们在蛋白质折叠和维持稳定结构中起着关键作用。通过还原剂如二硫苏糖醇（DTT）或2-巯基乙醇打开二硫键，可以使蛋白质解折叠，从而更容易进行后续的结构解析。
质谱分析准备：质谱法（MS）用于蛋白质鉴定和定量分析时，蛋白质的解折叠和二硫键的还原是必要的步骤。这有助于提高酶切效率和质谱分析的精度。

打开二硫键后质谱得到轻重链分子量的目的

确定蛋白质亚基结构：在抗体等多亚基蛋白质中，轻链和重链通过二硫键连接。通过还原二硫键，可以分离轻链和重链，分别测定其分子量。这对于确定抗体的亚基组成和结构非常重要。
检测蛋白质修饰和变异：质谱可以精确测量蛋白质片段的分子量，从而检测蛋白质的翻译后修饰（如糖基化、磷酸化）和变异（如突变、缺失）。通过分离轻链和重链，可以更清晰地分析这些修饰和变异的分布情况。

在蛋白质多组学和生物化学中，“Da”代表道尔顿（Dalton），这是衡量原子和分子的质量单位。一个道尔顿等于一个质子的质量，即约1.66053906660 × 10^-27 千克。在蛋白质研究中，道尔顿常用来表示蛋白质或多肽链的分子量（也称为相对分子质量，Mr）。

CRO（Contract Research Organization，合同研究组织） 业务是指为医药、医疗器械和生物技术公司提供临床试验及其他相关研究服务的商业服务。CRO通过合同形式，与制药公司、科研机构等合作，承担药物研发过程中从临床前研究到临床试验各个阶段的任务。

Handover sheet（交接单） 是一种记录和传递信息的文件，通常在工作班次交接、项目管理、医疗护理以及其他需要明确职责和任务交接的场合中使用。

Quotation（引文或引用） 在学术写作、文学创作、演讲以及日常交流中都是一种常见的修辞手法。它是指引用他人说过的话、写过的文字或创作的作品，以支持自己的观点、增强说服力或提供背景信息。

图片中的数据列出了两种不同状态下的抗体（E03258_Ab2 和 E03263_degly_Ab2）测量的分子量（Da）。

字母表示氨基酸序列，每三个字母代表一个氨基酸。

IGHM_HUMAN：这是蛋白质的名称，其中IGHM表示免疫球蛋白重链μ，HUMAN表示这是人类（Homo sapiens）的序列。 Immunoglobulin heavy constant mu：这是蛋白质的描述信息，表示该序列是免疫球蛋白重链μ。

人类免疫球蛋白G（IgG） 中的重链序列具有特定的结构特征。重链的可变区（VH）通常从一个保守的氨基酸序列开始，以Q（谷氨酰胺）作为起始氨基酸，而恒定区（CH）在PGK（脯氨酸-甘氨酸-赖氨酸）处结束。

IgG_heavy_high_mass通常指的是在分析过程中检测到的IgG重链的高分子质量状态。这种状态可能是由于重链上有多个糖基化位点或其他翻译后修饰（post-translational modifications, PTMs）所引起的。这些修饰可能包括：

糖基化（Glycosylation）：糖基化是IgG重链上最常见的翻译后修饰，通常发生在恒定区（CH）的某些特定位点。这会增加分子的总体质量。
磷酸化（Phosphorylation）：磷酸化可以改变蛋白质的质量和电荷特性。
羟基化（Hydroxylation）：这种修饰也会导致分子质量的变化。

IgG_heavy_low_mass则指的是IgG重链的低分子质量状态。这通常表示该重链没有经过或仅经过少量的翻译后修饰。这种低质量状态的重链通常与高质量状态的重链相比，缺少一些修饰，如糖基化。在某些情况下，IgG重链的低质量状态还可能是由于蛋白质在体外处理过程中发生了降解，或者是样本中存在一些部分缺失的重链片段。

蛋白质组学分析流程

1. De Novo（从头测序）

从头测序（De Novo Sequencing） 是一种质谱数据分析方法，不依赖已知数据库，用于推断未知蛋白质或肽段的氨基酸序列。其步骤包括：

质谱数据采集：通过质谱仪测定蛋白质或肽段的质荷比（m/z），生成质谱图。
碎片离子分析：质谱图中显示的峰值代表不同的碎片离子。这些碎片源自肽段在特定键处的断裂，每个碎片离子的质荷比用于推断肽段的氨基酸序列。
序列推断：应用算法（如串联质谱中的扣减法）推断肽段的氨基酸序列。此方法不依赖已知序列数据库，因此适用于新发现或修饰的蛋白质。
错误纠正与验证：由于质谱数据可能存在噪声或误差，需要通过多次测量和比对来修正和验证序列的准确性。

2. Denovo Consolidation（从头测序整合）

从头测序整合（Denovo Consolidation） 是将多个从头测序结果进行汇总和优化的过程，以获得更精确的序列信息。其主要目的是减少错误并提高测序的覆盖度和准确性。通过整合多次测序的结果，可以更好地校正潜在的测序错误和不确定性。

3. Peptide Selection（肽段选择）

肽段选择（Peptide Selection） 涉及从质谱数据中选择符合特定标准的肽段。选择标准通常包括信号强度、碎片覆盖度、肽段长度和肽段的质量等。选定的肽段将用于后续的序列组装和比对，确保数据的可靠性和分析的准确性。

4. Sequence Assembly（序列组装）

序列组装（Sequence Assembly） 是将多个肽段序列拼接成完整的蛋白质序列的过程。其步骤包括：

肽段排序：根据肽段之间的重叠区域和特定的顺序信息，将肽段序列进行排序。
拼接算法：使用如重叠图、Hamiltonian路径等算法来找到最佳的序列拼接方案，以获得最长且最精确的蛋白质序列。
处理模糊区域：处理重叠不清晰或质量差的区域，可能需要结合额外的实验数据或生物信息学工具来解决。

5. Protein Alignment（蛋白质比对）

蛋白质比对（Protein Alignment） 是将组装好的蛋白质序列与已知的参考序列数据库进行比较的过程，旨在确定蛋白质的身份和功能。步骤包括：

序列比对工具：使用如BLAST、Clustal等工具，将目标序列与数据库中的已知序列进行比对。
得分计算：评估比对的匹配程度，通常使用相似性评分、序列覆盖率和期望值（E-value）等指标。
同源性分析：确定序列同源性，识别潜在的保守区域、功能域和可能的功能注释。

6. Sequence Refinement（序列精炼）

序列精炼（Sequence Refinement） 是对初步比对结果进行进一步修正和优化的过程。其目的是提高序列的准确性，解决数据中的模糊区域或错误。精炼过程可能包括重新比对、手动校正和使用更先进的算法进行调整。

7. I/L Differentiation（I/L 区分）

I/L 区分（Isoleucine/Leucine Differentiation） 是在质谱分析中区分异亮氨酸（Isoleucine, I）和亮氨酸（Leucine, L）的过程。这两种氨基酸在质量上无法区分，因此需要特定的分析工具或软件来区分它们。这一步对于准确的序列鉴定至关重要。

8. Peptide Mapping（肽段映射）

肽段映射（Peptide Mapping） 是将质谱检测到的肽段序列与参考蛋白质序列进行位置对照的过程，步骤包括：

肽段匹配：将实验测得的肽段与参考序列中的相应区域进行匹配，确定肽段在蛋白质中的位置。
覆盖度分析：评估肽段覆盖的蛋白质序列的比例，以确定分析的完整性。
功能性区域标识：识别肽段覆盖的功能性区域，如酶活性位点、结合位点等，这对蛋白质功能研究和修饰分析非常重要。

9. Region Annotation（区域注释）

区域注释（Region Annotation） 是对蛋白质序列中的特定功能区域进行标记和注释的过程。此步骤可能涉及标识酶活性位点、信号肽、跨膜区域、结合位点等。区域注释有助于理解蛋白质的生物功能和潜在的相互作用。

10. I/L Statistics（I/L 统计）

I/L 统计（Isoleucine/Leucine Statistics） 是对I/L 区分结果进行统计分析，以评估区分的准确性和可靠性。统计分析可以揭示I/L 区分的整体性能，并帮助优化分析方法。

11. Result Generation（结果生成）

结果生成（Result Generation） 是整合所有分析数据和结果的过程，生成最终的报告。报告通常包括定性和定量分析、统计数据、序列信息和功能注释等。结果生成是向研究人员或客户传达分析发现的重要步骤。

12. PEAKS Glycan（糖基化分析）

PEAKS Glycan（糖基化分析） 是一个专门用于分析蛋白质糖基化修饰的模块。糖基化是蛋白质的一种重要翻译后修饰，涉及将糖基添加到蛋白质上。PEAKS Glycan模块能够识别和量化糖基化位点和糖基类型，这对于研究蛋白质功能和疾病相关的糖基化变异至关重要。

基于排序的假设检验（Rank-Based Hypothesis Testing），也称为非参数假设检验，是一种不依赖于数据分布形式的统计检验方法。与传统的参数假设检验不同，基于排序的假设检验不需要数据服从某种特定的分布（例如正态分布），因此在处理非正态分布的数据时更加灵活和稳健。

Name		Name	Last commit message	Last commit date
Latest commit History 92 Commits
README.md		README.md
unknow_protein_identify.md		unknow_protein_identify.md

liyinred/Proteomics

Folders and files

Latest commit

History

Repository files navigation