MAP(mean average precision,平均正确率值)
是常用于query模型的评估标准。AP(average precision)是一次query的评估值。MAP表示所有query的AP的均值
NDCG(Normalized Discounted Cumulative Gain,归一化折损累计增益)
上面我们也介绍了MAP评价指标,但是MAP认为是二元相关性(即对一个Item要么是感兴趣要么是不感兴趣的),而NDCG允许以实数形式进行相关性打分,这种关系类似分类和回归的关系.
NDCG这个名字可能比较吓人,但背后的思想却很简单.一个推荐系统返回一些item并形成一个列表,我们想要计算这个列表有多好,每一项都有一个相关的评分值,通常这些评分值是一个非负数,这就是gain(增益).此外对于这些没有用户反馈的项我们通常设置起增益为0.
- 推荐结果的相关性越大,DCG越大
- 相关性好的排在推荐列表前面的话,推荐效果越好,DCG越大.
Precision@K(精确率,又叫查准率)
精确率表示在所有为正的样本中,真正为正的样本概率
Recall@K(召回率,又叫查全率)
召回率表示在原样本的正样本中,最后被正确预测为正样本的概率
查准率就是说检索出的信息中有多少是用户真正感兴趣的.
查全率就是说用户真正感兴趣的信息有多少被我们预测到了
首先我们明确如下几个定力:
TP(True Positive) : 表示样本的真实类别为正,最后预测得到的结果也为正
FP(False Positive): 表示样本的真实类别为负,最后预测得到的结果为正
TN(True Negative): 表示样本的真实类别为负,最后预测得到的结果也为负
FN(False Nositive): 表示样本的真实类别为正,最后预测得到的结果为负
可以看到TP,TN是我们预测准确的样本,而FP,FN是我们预测错误的样本.
recall 和Precision是相互矛盾的.一般来说查准率高时查全率往往偏低,查全率高时查准率往往偏低. 在很多情形下,我们根据学习期的预测结果进行排序,排在前面的我们认为是最可能是正例的样本,排在后面的被认为是最不可能是正例的.根据此顺序我们可以每次计算出recall,precision.以查准率为纵轴,查全率为 横轴就得到了”P-R”曲线,
RMSE(root mean square error, 均方根误差)
MSE(mean square error, 均方误差)是预测值与真实值差的平方的期望
RMSE是MSE的算数平方根。均方根误差是用来衡量观测值同真实值之间的偏差,RMSE越小越好
MAE(Mean Average Error, 平均绝对误差)
表示预测值和实际值之间的绝对误差的平均值,越小越好
R2(R Squared,决定系数)
被人们称为最好的衡量线性回归法的指标。
越大越好,越接近1,越好,大于0.8就不错了
如果我们使用同一个算法模型,解决不同的问题,由于不同的数据集的量纲不同,MSE、RMSE等指标不能体现此模型针对不同问题所表现的优劣,也就无法判断模型更适合预测哪个问题。得到的性能度量都在[0, 1]之间,可以判断此模型更适合预测哪个问题。
Exp var
Logloss
二分类任务中常用的损失函数,在LR中,通过对似然函数取对数得到。也就是交叉熵损失函数。