存储 频道

雷鹏:从机缘巧合到一往情深的技术之路

  【IT168 专访】2017第八届中国数据库技术大会(DTCC2017)于2017年5月11-13日在北京举办。本届大会以“数据驱动·价值发现”为主题,汇集了来自互联网、电子商务、金融、电信、政府、行业协会等20多个领域的120多位技术专家,共同探讨Oracle、MySQL、NoSQL、云端数据库、智能数据平台、区块链、数据可视化、深度学习等领域的前瞻性热点话题与技术。

  5月13日,雷鹏在《数据加速存储》专场,雷鹏为业界人士分享了基于TerarkDB的加速存储引擎技术,会后,笔者对雷鹏进行了采访,雷鹏就可检索压缩技术、数据库技术市场发展、人工智能等方向展开了更多精彩分享。

  雷鹏,曾就职奇虎360,负责搜索引擎核心研发;之后就职Yahoo北研所,负责搜索广告,广告交易(Ad Exchange)等项目。在数据库,高性能计算,分布式,系统架构上都有很深的造诣。2015年底,创立了Terark公司。

  创建Terark公司:机缘巧合到一往情深

  对雷鹏来说,已经不是第一次参加DTCC大会,在近几年的数据库大会中,雷鹏都会针对每年的主题来做相关的分享。对于今年的大会,雷鹏说:“DTCC 是国内数据库同行的一次盛会,此次参展,见到了很多老朋友,也认识了很多新朋友。大家针对技术、产品、市场的交流非常深入,这次大会对我们的未来的发展很有帮助。”

  以雷鹏的职业经历,在大公司里做个高管是完全有可能的,但在2015年,他选择了创业,在问及原因的时候,雷鹏说“我之前在大公司工作的时候,不可避免会用到数据库,并且数据的尺寸总会比内存大,性能往往不能令人满意,后来研究了一下数据库压缩(块压缩)的原理,直觉上认为这并不是一种好的解决方案。事后一旦想起这个问题,往往彻夜难眠,后来因为机缘巧合,接触到了自动机和Succinct技术,往后就一发不可收拾,越钻越深,后来就创立了Terark公司。”

  据了解,TerarkDB是基于我们的可检索压缩技术(CO-index和PA-zip)研发的一款存储引擎,完全摒弃了传统数据库的块压缩技术,而使用全局压缩,压缩率非常高,压缩后的数据可以直接访问,所以只需要很少的内存,就可以达到非常高的随机读性能。

  正是因为存储引擎是数据库的核心技术,存储引擎的性能,很大程度上决定了数据库最终的性能,TerarkDB 存储引擎兼容RocksDB 接口,适用范围非常广,所有使用了 RocksDB 的应用或上层数据库,都可以无缝切换到 TerarkDB。可以轻松快速集成到MongoDB,MySQL等数据库,适用于多种大数据应用。

  数据量暴增推动行业发展

  雷鹏认为,由于数据的产生速度不断加快,那么使用更少的资源,来存储和访问更大量的数据,必然是这个行业的根本需求。目前巨头企业的代表除了传统的IOE(IBM, Oracle, EMC),还有新兴的亚马逊、阿里云、谷歌等。

  正是由于国内的信息大爆发,使得国内企业对数据技术的需求非常之高,这个行业在国内的发展势头更加迅猛。Terark 全新的技术对于这个行业有重大的意义。不仅仅得到了硅谷 YCombinator 孵化器的认可,也得到了阿里云的认可。

  创建一家公司,谈何容易。对于创业者来说,创业的路上总有一些艰辛与波折的路要走,对于雷鹏的公司来说,同样如此。雷鹏吐露,目前公司面临的最大的困难是技术到市场的匹配,找到适合的场景和客户,并且扩大用户量。另外,Terark公司针对大型客户范围主要针对云企业、数据库企业、互联网企业。针对小型用户中,主要通过现有的云市场(比如青云)来支持他们的数据库需求。目前服务的客户最大的是阿里云,另外硅谷和国内的几家巨头企业也在洽谈中。

  谈到公司未来的发展,雷鹏表示,目前计划先把核心存储引擎做好做精,下一步推广到世界,让硅谷的公司也能使用中国的核心数据产品。未来,也会非常重视生态合作。技术上,我们已经融入RocksDB 的生态系统。商务上,我们也已经启动了与国内外大公司的合作,主要包括云厂商和数据库厂商。

0
相关文章