大数据文摘出品
编译:小蒋、李可、狗小白、周素云
我们正处于AI创业热潮之中,机器学习专家的薪资水平水涨船高,投资者也乐于对AI初创公司慷慨解囊。AI的普及成为推动社会生产力标志,必将改变我们的生活。
但是,本文作者前谷歌工程师、Inovo.vc的CTO Ric Szopa认为,AI从业者的技能正在贬值。他从一个选择题入手告诉我们,AI工具、数据集、资金投入以及行业+AI的优势正在一步步弱化单一的AI基础技术优势。
先来做一道选择题。
Alice和Bob是两位AI创业者, 他们的公司筹集了大致相同的资金,并在同一个市场上展开了激烈的竞争。
Alice把大部分钱花来雇佣最好的工程师,请来了一批在人工智能研究方面经验丰富的博士。
而Bob选择雇用资质一般但还算能干的工程师,并将省下来的钱用于获得更好的数据。
如果是你,你会给谁投资?
当然是Bob。
为什么呢?
从本质上讲,机器学习的原理是从数据中获取信息,并将其转化为模型权重。更好的模型使得这个过程更有效(时间或者整体质量方面),但如果假设模型训练相对都比较充分,更好的数据肯定会产生更好的结果。
为了说明这一点,让我们再进行一个快速而简单的测试。
假设我创建了两个性能不太一样的卷积网络。“更好”的模型的最后一个全连接层有128个神经元,而“稍微差一点”的只有64个。我在不同大小的MNIST数据集的子集上训练它们,并绘制模型在测试集上的准确率与训练样本数的折线图。
蓝色是“更好”的模型,绿色是“稍微差一点”的模型
很显然,训练数据集大小具有积极影响(至少在模型开始过拟合和准确率达到稳定之前)。值得一提的是,在40000个样本上训练的“稍微差一点”模型的准确率比在30000个样本上训练的“更好”模型的准确率要高!
在我的小例子中,我们处理的是一个相对简单的问题,而且有一个比较全面的数据集。而在现实生活中,我们的条件并不是如此完美。在许多情况下,增加数据集经常会具有非常显著的效果。
事实上,Alice的工程师不仅仅是和Bob的工程师竞争。由于AI社区的开放文化及其对知识共享的重视,他们的竞争对手其实来自谷歌、Facebook、微软以及世界各地数千所大学的研究人员。
因此, 好的工程师虽然很重要的,但如果你是AI领域的话,数据的竞争优势会显得更为关键。
然而,更加重要的问题是,你如何才能保持自己的优势。
AI工具正越来越简单好用
2015年,当我还在谷歌工作,刚开始玩DistBelief,也就是后来我们所熟知的Tensorflow。当时这个工具太难用了,所以当时想让它在谷歌构建的系统之外运行完全是一个白日梦。
2016年末,我进行了一个概念验证的研究,在组织病理学图像中检测乳腺癌。当时我想使用迁移学习:采用谷歌当时最好的图像分类架构Inception,并在我的癌症数据上重新训练。我可以使用谷歌提供的一个经过预训练的初始权重,改变顶层结构来匹配我正在做的工作。
在TensorFlow上经过长时间的反复尝试,我终于找到了操作不同层的方法,让它基本上运作起来。这需要很大的毅力去阅读TensorFlow的资料。不过至少我不必太担心依赖关系,因为TensorFlow贴心地准备了Docker镜像。
来源:Medium
在2018年初,多亏了Keras(基于TensorFlow的一个框架),只需几行Python代码就能完成这个项目,而且使用它不需要你对自己正在做的事情有深入理解。但它仍然有个痛点:超参数调优。
如果你有一个深度学习模型,可以调节多个参数,如层数和大小等。在我写这些文字的时候(2019年初),谷歌和亚马逊提供了自动模型调优服务(Cloud AutoML,SageMaker)。
我预测手动调优迟早会灭绝,工程师们也会从这项繁琐的工作中解脱了。
总的趋势是,将困难的事变得容易,你无需深入理解就能实现更多的东西。过去的那些伟大工程现在听起来相当一般,所以我们不应该期望我们现在的成就在将来有多好。
听起来很欢欣鼓舞是不是,但是,对于那些在AI技术上投入巨资的公司和个人来说,这可以是个坏消息。目前来说,掌握某些AI技术还算是企业的竞争优势,因为一个称职的机器学习工程师需要花费大量的时间阅读论文,并需要扎实的数学背景。