PCA、TSNE都用于降维
- t-SNE保留下的属性信息更具有代表性-->最能体现样本间的差异
- t-SNE运行极慢,PCA相对更快
可视化高维数据时,常常使用PCA进行降维,再使用t-SNE
# 方法一, 使用dot工具创建pdf文件
dot -Tpdf yourdot_name.dot -o yourpdf_name.pdf.
# 方法二,前提是有clf训练好的模型
from sklearn import tree
from sklearn.externals.six import StringIO
import pydot # 这个模块anaconda貌似没有,需要额外安装
dot_data = StringIO()
tree.export_graphviz(clf, out_file=dot_data)
graph = pydot.graph_from_dot_data(dot_data.getvalue())
graph.write_pdf("name.pdf")
- 自回归滑动平均模型(Auto-Regressive and Moving Average Model,ARMA模型)是研究时间序列的重要方法,由自回归模型(AR模型)和滑动平均模型(MA模型)为基础“混合”构成。
- AR模型(auto regressive model)自回归模型
- MA模型(moving average model)滑动平均模型
- 通过绘制p的估计的偏自相关函数,使用q的估计的自相关函数,可以方便地在ARMA(p, q)模型中寻找适当的p和q值
- p-->AR;q-->MA
- acf: 自相关函数;pacf:偏自相关函数
- 通过绘制pacf函数,可以确定AR(p)模型;通过绘制acf函数,可以确定MA(q)模型
- 自相关系数会很快衰减向0,则可以认为是平稳序列
单位根检验(Augmented Dickey-Fuller test,ADF检验),用于检验时间序列是否平稳,统计量对应的P值小于0.05,就可以确认该序列为平稳序列。
白噪声检验,统计量的P值小于显著水平0.05,则可以以95%的置信水平拒绝原假设,认为序列为非白噪声检验(否则就是纯随机序列)
自回归综合移动平均值ARIMA(p,d,q)模型
受试者工作特征曲线(receiver operating characteristic curve, ROC曲线),感受性曲线。
- 很容易查出任意界限值时的对疾病的识别能力
- 选择最佳的诊断界限值。ROC曲线越靠近左上角,试验的准确性就越高。
- 两种或两种以上不同诊断试验对疾病识别能力的比较。直观的比较两种诊断方式的优劣
在这里建议使用sklearn自带的方法进行保存from sklearn.externals import joblib
from random import shuffle
自带的模块用于随机打乱list的数据
from numpy.random import shuffle
用于随机打乱array数组的数据
它是一种压缩估计,通过构造一个罚函数得到一个较为精炼的模型,是一种处理具有复共线性数据的有偏估计