Skip to content

Latest commit

 

History

History
executable file
·
76 lines (47 loc) · 2.83 KB

简单的笔记.md

File metadata and controls

executable file
·
76 lines (47 loc) · 2.83 KB

简单的笔记

PCA、TSNE都用于降维

PCA与TSNE 的区别:

  1. t-SNE保留下的属性信息更具有代表性-->最能体现样本间的差异
  2. t-SNE运行极慢,PCA相对更快

可视化高维数据时,常常使用PCA进行降维,再使用t-SNE

dot文件转换为pdf文件

# 方法一, 使用dot工具创建pdf文件
dot -Tpdf yourdot_name.dot -o yourpdf_name.pdf.
# 方法二,前提是有clf训练好的模型
from sklearn import tree
from sklearn.externals.six import StringIO 
import pydot # 这个模块anaconda貌似没有,需要额外安装
dot_data = StringIO()
tree.export_graphviz(clf, out_file=dot_data)
graph = pydot.graph_from_dot_data(dot_data.getvalue())
graph.write_pdf("name.pdf")

ARMA 模型

  1. 自回归滑动平均模型(Auto-Regressive and Moving Average Model,ARMA模型)是研究时间序列的重要方法,由自回归模型(AR模型)和滑动平均模型(MA模型)为基础“混合”构成。
    1. AR模型(auto regressive model)自回归模型
    2. MA模型(moving average model)滑动平均模型
  2. 通过绘制p的估计的偏自相关函数,使用q的估计的自相关函数,可以方便地在ARMA(p, q)模型中寻找适当的p和q值
  3. p-->AR;q-->MA

plot_acf与plot_pacf

  1. acf: 自相关函数;pacf:偏自相关函数
  2. 通过绘制pacf函数,可以确定AR(p)模型;通过绘制acf函数,可以确定MA(q)模型
  3. 自相关系数会很快衰减向0,则可以认为是平稳序列

ADF检验(精确判断)

单位根检验(Augmented Dickey-Fuller test,ADF检验),用于检验时间序列是否平稳,统计量对应的P值小于0.05,就可以确认该序列为平稳序列。

acorr_ljungbox自检验

白噪声检验,统计量的P值小于显著水平0.05,则可以以95%的置信水平拒绝原假设,认为序列为非白噪声检验(否则就是纯随机序列)

ARIMA模型

自回归综合移动平均值ARIMA(p,d,q)模型

ROC曲线

受试者工作特征曲线(receiver operating characteristic curve, ROC曲线),感受性曲线。

  1. 很容易查出任意界限值时的对疾病的识别能力
  2. 选择最佳的诊断界限值。ROC曲线越靠近左上角,试验的准确性就越高。
  3. 两种或两种以上不同诊断试验对疾病识别能力的比较。直观的比较两种诊断方式的优劣

关于模型的保存

在这里建议使用sklearn自带的方法进行保存from sklearn.externals import joblib

shuffle函数说明

from random import shuffle 自带的模块用于随机打乱list的数据 from numpy.random import shuffle 用于随机打乱array数组的数据

Lasso模型

它是一种压缩估计,通过构造一个罚函数得到一个较为精炼的模型,是一种处理具有复共线性数据的有偏估计