存档

2017年1月 的存档

【spark】【machine learning】机器学习算法效果评估方法————回归模型的评估

2017年1月17日 评论已被关闭

当从多个自变量预测连续输出变量时,使用回归分析。 可用指标: (MSE:均方误差;RMSE:均方根误差;MAE […]

【spark】【machine learning】机器学习算法效果评估方法————分类模型的评估

2017年1月17日 评论已被关闭

spark.mllib附带了许多机器学习算法,可用于学习和预测数据。当这些算法应用于构建机器学习模型时,需要根据某些标准来评估模型的性能,这取决于应用程序及其要求。 spark.mllib还提供了一套度量标准,用于评估机器学习模型的性能。
特定的机器学习算法属于更广泛类型的机器学习应用程序,如分类,回归,聚类等。这些类型中的每一种都具有良好的性能评估指标,本文章将详细介绍spark.mllib中当前可用的指标。

1. 分类模型评估(Classification model evaluation)

虽然存在许多不同类型的分类算法,但是分类模型的评估都具有相似的原理。在监督分类问题中,对于每个数据点存在真实输出和模型生成的预测输出。因此,每个数据点的结果可以分配到以下四个类别之一:

真阳性(TP) – 标签是阳性,预测也是阳性
真阴性(TN) – 标签为负值,预测
假阳性(FP) – 标签为阴性,但预测为阳性
假阴性(FN) – 标签为正,但预测为阴性
这四个数字是大多数分类器评估指标的基础。当评估分类器的用基本的纯准确度(即,预测正确或不正确)通常不能良好的评估分类器。其原因是因为数据集可能是高度不平衡的。