存储 频道

如何轻松利用GPU加速机器学习?

  【IT168评论】发布于今年10月份的英伟达RAPIDS开源软件,在GTC China 2018大会上再次被黄仁勋提及——作为英伟达AI软件生态中的重要一员。这是一款针对数据科学和机器学习的GPU加速平台,能够帮助数据科学家显著提高工作效率。

  GTC China 2018期间,英伟达解决方案架构与工程团队副总裁Marc Hamilton在媒体分享会上进一步详细介绍了RAPIDS开源GPU加速平台。

  利用GPU加速机器学习,为数据科学家助力

  Marc Hamilton指出,机器学习与深度学习有一个很大的不同是:深度学习擅长处理的是非结构化的数据,如语音、视频、图片等,但是机器学习更多是使用结构化的数据,如银行的信用卡消费记录、商店库存记录、电子病历等。

  长达6年的研发中,英伟达在使用GPU加速深度学习这方面成绩斐然,但许多机器学习算法却很难使用GPU进行加速。

  数据科学家在训练一个机器学习模型时,使用的数据量越多,得到的结果可能就越精准,但由于硬件的限制,模型训练所花费的时间也更长。因此在多数情况下,数据科学家处理一个机器学习项目时,往往要等待很长时间,这在很大程度上降低了工作效率。

  “数据分析和机器学习是高性能计算市场中最大的细分市场,不过目前尚未实现加速。” 此前在发布 RAPIDS 时,黄仁勋曾说:“得益于CUDA及其全球生态系统以及与开源社区紧密合作,我们创建了RAPIDS GPU加速平台。该平台已与全球最流行的数据科学库及工作流无缝整合,可加速机器学习。如同深度学习一样,我们正在不断地为机器学习提速。”

  RAPIDS可以在任何英伟达GPU上运行,为GPU加速数据分析和机器学习提供了一整套开源库,为数据科学家提供了他们需要用来在GPU上运行整个数据科学管线的工具。

  RAPIDS库由cuDF、cuML、cuGRAPH三部分组成,cuDF主要完成数据处理与数据准备,帮助科学家收集数据;cuML是GPU加速的传统机器学习库,支持XGBOOST、Kalman、K-means、KNN、DBScan等常见的机器学习算法;cuGRAPH是图表分析库的集合,据介绍,这部分将很快向数据科学家提供。

英伟达解决方案架构与工程团队副总裁Marc Hamilton

  “在人工智能行业中已经很多人在用机器学习了,RAPIDS不是一个新的算法,并不会教人们怎么编新的码,而是把已经写好的代码放在CUDA上跑。”Marc Hamilton表示,“人们用RAPIDS一般是出于两个原因:1.数据科学家,很希望自己的工作完成的更快一点。2.不需要学习怎么样用其它的软件,可以用已有的软件。而且因为它是开源的,所以如果有一些功能软件中没有的话,有技术能力的大公司也可以自己去写。”

  有效性经多方验证,成果显著

  据了解,最初的RAPIDS基准分析利用了XGBoost机器学习算法在NVIDIA DGX-2系统上进行训练,结果表明,与仅有CPU的系统相比,其速度能加快50倍,这可帮助数据科学家将训练时间从数天缩减到数小时。

  在GPU上运行RAPIDS对机器学习进行加速的方案,已经被多个行业领先者采用,并且获得了大量认可。

  平安科技使用RAPIDS以及GPU加速的PCA和DBSCAN之后,工作流程执行速度加快了 80 倍,从几天缩短到几小时(包括数据加载和训练时间),帮助该公司做出针对“流行性疫情”预测并完善预防计划。

  华大基因 (BGI) 的知识库中拥有超过1 PB的数据,该公司使用了XGBoost机器学习算法,对用于癌症患者个性化免疫治疗的靶向多肽进行分类。通过在NVIDIA DGX-1 AI超级计算机上运行RAPIDS 平台,华大基因的数据科学家团队将分析速度提高了17倍,并将多肽的分析范围扩大至数百万种。

  专注于数字化健康业务的碳云智能 (iCarbonX)使用数字化生理、基因组、代谢组以及宏基因组数据来研究微生物组。运用机器学习技术将微生物组特征和2型糖尿病关联起来,能提供个性化的消费者医疗服务(如饮食建议或治疗方案的制定),通过在Tencent Cloud P40服务器上部署 RAPIDS,该公司的数据分析速度加快了6倍。

  目前,RAPIDS开源库可从http://www.rapids.ai获得。

0
相关文章