时常能看到一些大数据工程师的自嘲,说着自己是“调参师”,只知道喂数据、调参数、写周报。也能看到一些用户吐槽大厂的个性化推荐是人工智障,还不如创业团队。除去个人偏好的影响,这大概就是拥有数据资源的大厂逃不掉的“资源的诅咒”。

“资源的诅咒”是一个经济学概念,大致上是说拥有丰富资源的国家和地区,存在路径依赖,由于资源成本低,对资源的开发和利用效率不高,反而成为了低收入国家和地区。

理论上,数据是一种越多越好,具有网络效应,边际效用递增的资源,维度越多,覆盖越广,价值会越来越大。

实际上,消费者消费的是数据加工后的产出物,这个加工过程,有一些特点是需要讨论的。

维度增加,特征增加,算法复杂,意味着计算难度成倍增加,还会带来复杂模型侵蚀边界 (Complex Models Erode Boundaries)的问题,改变一个细节就改变了所有(Changing Anything Changes Everything)。

业务的复杂性,以及研发与业务的分离,也造成了一些工程师,也包括产品经理缺少对业务也就是“工艺”的理解,喂更多的数据,调整原有工艺里的参数,是“低成本”的选择。

在内容个性化领域,还有一个不可忽视的因素,就是内容版权的限制,一方面,工艺高超,缺少内容也是巧妇难为无米之炊;另一方面,大量质量不足的内容进入推荐池,反而造成了效果不佳,也是一种程度上的“资源的诅咒”。

最后推荐一篇「Hidden Technical Debt in Machine Learning Systems」,链接是对该文章的中文解读,值得一看。

标签:无

评论已关闭