关于机器学习的一些指标

今天聊聊机器学习相关的指标,作为一名产品经理,我们可以把模型的指标分为以下几类:

  • pm 不太关心的,比如 MSE、R 平方这些更多是工程师调参使用的
  • pm 要关心和业务相关的,比如准确率、精度、特异度

我们着重聊第二种,第一种则散落在各篇算法文章里。常见的指标很多,比如经典的混淆矩阵(Confusion Matrix)

关于机器学习的一些指标


为什么需要混淆矩阵呢,因为只有准确率是不对的。比如有些常见(癌症检测)我们不希望漏掉,因此希望尽量查全。所以 pm 需要按照业务的倾向性给予算法同学优化的方向

另外指标的设立,我们需要看到其背后的意义,每次跟领导汇报我们模型效果提升了多少是不是要把召回率、特异度一起说。但一次说两个很麻烦,这时你需要一个更优雅的指标:F1 Score 又叫平衡 F 分数

关于机器学习的一些指标


能够更好的反映出我们想要的效果。如果二者极度不平衡,如某一个值特别高、另一个值特别低时,得到的F1 Score值也特别低;只有二者都非常高,F1才会高。这样才符合我们对精准率和召回率的衡量标准。

另外在分类业务中,我们经常会指定一个阈值。在比较不同版本效果时,你会发现两边阈值不一样,这可怎么比呢。不是唯一变量啊 

这时我们需要另一个指标,AUC 。了解 AUC 我们需要先了解 ROC曲线。ROC 曲线描述TPR和FPR之间的关系。x轴是FPR,y轴是TPR。

TPR:预测为1,且预测对了的数量,占真实值为1的数据百分比。FPR:预测为1,但预测错了的数量,占真实值不为1的数据百分比。

AUC 则是曲线下的面积,有以下几类情况:

  • AUC = 1,是完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器。
  • 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
  • AUC = 0.5,跟随机猜测一样,模型没有预测价值。
  • AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

聊完这些指标之类,我其实想来谈谈指标的定义。

其实我们学到的指标,比如上面提到的。只是一个思考的结果。pm 应该掌握的是思考的框架,并根据业务环境去定义指标,而不是盲目的应用。

面过一个小朋友,我问他有一个模型效果很差,你怎么去解决这个事情。他回答我可能看一下数据集啊,是不是哪里有问题

这是一个自然反应,但其实我更在意的是“意向性” 比如到底什么效果差,怎么评价的?这个效果差真的影响业务吗,然后才是怎么去提升,评估提升的投入产出比

意向性要贯穿在我们工作的所有环节里,比如为什么做这个需求,为什么要这么设计

然后还有一个是,设计指标的时候不要被“指标”蒙蔽。重要的业务环节要细,洞察到其中的问题并发现改进的机会。然后是不要被束缚,要注意到世界是会持续变化的。像李小龙书里写的

一旦你有了性格,变有了自己僵化的套路,你的行为便会很呆板,总是在人的意料之内。

习武是这样,工作也是这样。共勉

遗留问题

  • 混淆矩阵的由来,为什么叫混淆?
  • 二战时的 ROC 曲线到底是怎么来的以及后续的演变。映射一下 auc 的物理意义
  • 机器学习和信息学还有哪些联系,为什么有这么多联系
  • 加一下 Top5 的说明
Sign in or Sign up Leave Comment