存储 频道

谷歌AutoML实现大规模图像分类和对象检测

  【IT168 资讯】几个月前,谷歌引入了AutoML,这是一种自动化机器学习模型设计的方法。虽然机器人能够设计出与人类专家设计的神经网络相同的小型神经网络,但这些结果被限制在诸如cifar - 10和Penn Treebank这样的小型学术数据集上。那么,这个方法如何在诸如ImageNet图像分类和COCO对象检测等更具挑战性的数据集上执行呢?

  许多先进的机器学习架构都是由人类发明的,用来在学术竞赛中处理这些数据集。在学习可扩展图像识别的可转换架构中,我们将自动的应用到ImageNet图像分类和COCO对象检测数据集这两个计算机视觉中最受尊敬的大型学术数据集。

  为了能够将方法应用到ImageNet中,我们已经改变了方法,这对大规模数据集来说更易于处理:

  ·重新设计搜索空间,使自动化系统能够找到最好的图层,然后以灵活的方式多次堆叠,创建最终的网络。

  ·在cifar - 10上进行了架构搜索,并将最好的学习架构迁移到ImageNet图像分类和COCO对象检测上。

  通过这种方法,找到在cifar - 10上运行良好的非常好的层,在ImageNet分类和COCO对象检测中也工作得很好的。然后将这两层合起来形成了一种新的架构,称之为“NASNet”。


NASNet体系结构由两层组成:普通层(左)和还原层(右) 这两个层是由AutoML设计

  在ImageNet图像分类中,NASNet在验证集上达到了82.7%的预测精度,超过了之前所构建的所有初始模型。此外,NASNet比之前所有发布的结果都要出色地完成,并且与arxiv上公布的最好的结果不相上下。


在ImageNet图像分类中,NASNet和非常先进人类发明的模型在不同的模型尺寸上的准确性

  此外,NASNet还可以调整大小,以产生一组模型,这些模型在计算成本非常低的情况下取得了良好的准确性。例如,一个小版本的NASNet准确度达74%,比为移动平台提供的同等大小的非常先进的模型要高3.1%。最大的NASNet已经达到了非常先进的精度,同时将非常好的报告结果的计算成本减半。


 对象检测使用NASNet的Faster-RCNN

  谷歌也将从ImageNet的学习功能转移到对象检测。在实验中,结合ImageNet分类的特征与faster - rcnn框架,超越了先前发表的,非常先进的可预测性能。最大的模型map(平均准确率)达到了43.1%,比之前的版本好4%。

  NASNet在ImageNet和COCO上学习的图像特征可能会被用于许多计算机视觉应用。因此,研究人员将NASNet开源。将更大的机器学习社区建立在这些模型上,以解决还没有想到的许多计算机视觉问题。

0
相关文章