- 机器学习实践心得:数据平台设计与搭建
机器学习作为近几年的一项热门技术,不仅凭借众多“人工智能”产品而为人所熟知,更是从根本上增能了传统的互联网产品。下文将基于本人所负责的个推大数据平台搭建工作,与大家分享个推数据平台架构方面的经验以及踩过的一些坑。
谢涛 · 2018-07-18 15:48 - 分布式之抉择分布式锁——多个方位比较
无论是redis还是zookpeer,其实可靠性都存在一点问题。但是,zookpeer的分布式锁的可靠性比redis强太多!但是,zookpeer读写性能不如redis,存在着性能瓶颈。大家在生产上使用,可自行进行评估使用。
谢涛 · 2018-07-16 17:27 - 分享一个Python中机器学习的特征选择工具
特征选择,即在数据集中查找和选择最有用的特征的过程,是机器学习的关键步骤。不必要的特征会降低训练速度、模型的可解释性,最重要的是会降低测试集的泛化性能。
谢涛 · 2018-07-16 10:15 - 必须理解的分布式系统中雷同集群技术及原理
在当今信息爆炸的时代,单台计算机已经无法负载日益增长的业务发展,虽然也有性能强大的超级计算机,但是这种高端机不仅费用高昂,也不灵活,一般的企业是负担不起的,而且也损失不起,那么将一群廉价的普通计算机组合起来,让它们协同工作就像一台超级计算机一样地对外提供服务,就成了顺其自然的设想
谢涛 · 2018-07-13 20:58 - 开发经验分享:电商促销后台的逻辑详述
电商所谓营销,归根结底都是订单金额的变化;如果我们清楚的知道订单金额的计算流程是怎样的,那么我们只需要顺着系统的计算流程做促销,就不用担心各种促销类型之间产生重叠或者冲突的情况了。当我们知道这个关系后,就可以将营销活动区分为三种类型:改商品价格、改商品小计价格、改订单价格,因为无论什么营销归根结底都是可以描述成改价格。
谢涛 · 2018-07-13 20:11 - 详解新硬件环境下日志模块的设计与演进
本文根据朱阅岸老师于第九届中国数据库技术大会(DTCC 2018)的现场演讲《新硬件环境下日志模块的设计与演进》内容整理而成。
谢涛 · 2018-07-12 15:51 - 分布式服务框架Zookeeper入门看这篇就够了
官方文档上这么解释zookeeper,它是一个分布式服务框架,是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。
谢涛 · 2018-07-12 14:28 - 新同有开启战略转型 联手伙伴共建存储生态
存储生态启航,同有科技与天津飞腾、天津麒麟达成战略合作为了推动中国存储产业自主可控发展的进程及存储技术的变革,加速云计算、人工智能、物联网等应用领域技术开拓,同有科技与天津飞腾、天津麒麟签署战略合作协议,建立战略合作伙伴关系。
张存 · 2018-07-10 22:00 - 究竟什么是装饰器?python中的装饰器介绍
在了解装饰器之前,我们需要知道什么闭包是什么鬼! 闭包:在一个函数内定义了一个函数f,并且这个函数f引用外部变量,在把这个函数f当做返回值返回。
谢涛 · 2018-07-10 18:04 - 分布式存储ceph 对象存储配置zone同步
Ceph天生带两地三中心概念,我们要去的双活就是两个数据中心,Ceph两数据中心可以在一个集群也可以在不同的集群中。
谢涛 · 2018-07-05 17:24 - 知识分享:Oracle的三种高可用集群方案
多个Oracle服务器组成一个共享的Cache,而这些Oracle服务器共享一个基于网络的存储。这个系统可以容忍单机/或是多机失败。不过系统内部的多个节点需要高速网络互连,基本上也就是要全部东西放在在一个机房内,或者说一个数据中心内。如果机房出故障,比如网络不通,那就坏了。所以仅仅用RAC还是满足不了一般互联网公司的重要业务的需要,重要业务需要多机房来容忍单个机房的事故
谢涛 · 2018-07-03 13:52 - 技术经验分享:漫谈OceanBase 列式存储
列式存储主要的目的有两个:大部分OLAP查询只需要读取部分列而不是全部列数据,列式存储可以避免读取无用数据;将同一列的数据在物理上存放在一起,能够极大地提高数据压缩率。
谢涛 · 2018-06-30 11:00 - 恢复时间目标(RTO)和恢复点目标(RPO)的差异
如今,灾难以多种形式出现。破坏、盗窃、遗失或自然灾害都会使企业的应用程序崩溃并破坏其数据。在理想的情况下,企业的数据保护基础设施可以立即在故障点时间恢复所有的应用程序和数据。企业可以立即切换故障应用程序,并连续复制其数据以实现接近零的损失。但是这些操作耗费资源并且很昂贵。实际上,IT部门需要根据预算、资源和应用优先级来设置不同的恢复时间和恢复点目标。
谢涛 · 2018-06-14 17:06 - 高性能计算知识: 深度解析Lustre体系结构
Lustre架构是一种集群存储体系结构,其核心组件就是Lustre文件系统。该文件系统可在Linux操作系统上运行,并提供了符合POSIX标准的UNIX文件系统接口。
谢涛 · 2018-06-07 21:44 - 专家分享:京东分布式存储建设之路(JFS)
在项目中你经常会遇到,有一些图片、视频或者文本需要存储,你希望它不丢失的同时还要能提供高速读写的能力。对于京东来说,这样的需求每天都在发生着,而且要求会更高,因为这些可能是用户的订单数据,你希望即使在写的时候断电了、磁盘坏了,你的数据还在;你希望即使服务器故障了、交换机坏了甚至机房挂了,用户还能正常访问;你希望在大促来临时即使用户访问量倍级增长,它依然能提供高速读写。
谢涛 · 2018-05-29 09:33 - 存储架构对比:NAS与SAN的差异与使用案例
有些文章在比较网络连接存储(NAS)与存储区域网络(SAN)这两种流行的存储架构时,并没有说明全部内容。其实NAS和SAN是互补的,并具有竞争性,可以满足组织中不同的需求,并提供使用案例。许多大型组织都拥有这两种存储架构。
谢涛 · 2018-05-18 18:00 - 数据科学家需要掌握的10个基本统计技术
无论您在数据的科学性问题上持哪种看法,都无法忽视数据的持续重要性,也不能轻视分析、组织和情境化数据的能力。 根据大量的就业数据和员工反馈信息统计,在“25个最佳美国就业机会”排行榜中,数据科学家排名第一。毫无疑问,数据科学家所做的具体工作内容将会进一步拓展。随着机器学习等技术变得越来越普遍,深度学习等新兴领域对研究人员和工程师的需求得到了巨大的推动,数据科学家们在创新和技术进步的浪潮中再次崭露头角。
谢涛 · 2017-11-16 12:41