尊龙AG旗舰厅app腾讯大数据总体架构图首次对外公开|初美智佳子|!

  腾讯作为国内体量最大的互联网公司之一✿✿ღ◈,业务涵盖用户日常生活的方方面面✿✿ღ◈,面对如此巨大业务数据量✿✿ღ◈,如果不能对数据进行专业化处理并高效有序地存初美智佳子✿✿ღ◈、管✿✿ღ◈、用✿✿ღ◈,如果不能使数据产生应有的价值✿✿ღ◈,那么数据资产将会成为数据垃圾✿✿ღ◈,成为社会和企业的负担✿✿ღ◈。

  大数据平台作为腾讯底层的基础设施之一✿✿ღ◈,每天必须处理千万级规模的离线数据任务及十万亿级别的实时计算✿✿ღ◈,否则无法满足业务每天数以亿计的数据分析计算的需求✿✿ღ◈。

  项目立项的时候我们曾有过激烈讨论✿✿ღ◈,是自主研发还是使用开源✿✿ღ◈,“To be, or not to be: that is the question”✿✿ღ◈。当时业务需求比较迫切✿✿ღ◈,2009年上半年✿✿ღ◈,QQ空间引入了“开心农场”业务✿✿ღ◈,开启了疯狂增长的模式✿✿ღ◈,业务部门的同事看着几乎是垂直的增长曲线笑逐颜开✿✿ღ◈,我们看着曲线却笑不出来✿✿ღ◈。如何能快速构建全新的数据仓库✿✿ღ◈,满足业务快速增长的计算需求✿✿ღ◈,我们在努力寻找答案✿✿ღ◈。

  在2008~2009年✿✿ღ◈,开源在国内还没大行其道✿✿ღ◈,很多程序员都有一种偏见✿✿ღ◈,觉得使用开源都是没什么技术含量的✿✿ღ◈。几乎所有的程序员心里都有一个梦想和追求✿✿ღ◈,希望能自己实现一套顶尖的系统✿✿ღ◈,从而在中国乃至世界的软件行业扬名立万✿✿ღ◈。但是盘点了业务的需求以及对比了那时候团队能力和所能调配的人力之后✿✿ღ◈,我们发现实现这么一套系统✿✿ღ◈,无异于登天✿✿ღ◈。完全自主研发新一代的数据仓库是难以攀爬的珠峰✿✿ღ◈。

  此路不通✿✿ღ◈,只能改走开源路线✿✿ღ◈。其实开源有很多好处✿✿ღ◈,它有着丰富的社区资源和社区生态尊龙凯时✿✿ღ◈,有着庞大的各路代码贡献者✿✿ღ◈,使用开源的系统✿✿ღ◈,相当于利用了全世界的资源✿✿ღ◈,利用了全世界的程序员的智慧✿✿ღ◈。使用开源项目✿✿ღ◈,能快速搭建适应业务需求的平台✿✿ღ◈。

  但开源对于我们来说也并不容易✿✿ღ◈。首先✿✿ღ◈,技术栈不一样✿✿ღ◈,我们原来是C/C++技术栈✿✿ღ◈,是做计费系统的✿✿ღ◈,而大数据开源基本以Java为主✿✿ღ◈,需要从头去学✿✿ღ◈,幸好语言的差异并不是很难克服✿✿ღ◈,我们边学习边招聘有大数据经验的开发者✿✿ღ◈,慢慢地做了起来✿✿ღ◈;另外初美智佳子✿✿ღ◈,大数据生态是很庞大的✿✿ღ◈,每一个项目都不足以达到企业级的需求✿✿ღ◈,每一个项目都要进行大量的优化✿✿ღ◈,才能符合我们可用性方面的需求✿✿ღ◈。

  从最初的蹒跚学步到现在尊龙AG旗舰厅app✿✿ღ◈,腾讯大数据走过了十余年✿✿ღ◈,历经三代技术演进✿✿ღ◈。第一代是“拿来主义”✿✿ღ◈,拿来就用✿✿ღ◈,但部分系统比如HDFS(Hadoop Distributed File System, Hadoop分布式文件系统)尊龙凯时官方网站✿✿ღ◈,✿✿ღ◈、Hive等因为性能✿✿ღ◈、功能不能满足需求✿✿ღ◈,我们对核心模块进行了定制化的优化✿✿ღ◈;第二代是有限自主研发的阶段✿✿ღ◈,我们对部分核心平台进行参考性的自主研发✿✿ღ◈,重构实时采集系统✿✿ღ◈,同时对底层实时计算引擎Storm使用Java进行重写等✿✿ღ◈;第三代是纯自主研发的阶段尊龙AG旗舰厅app✿✿ღ◈,第三代的核心平台—高性能分布式机器学习平台Angel✿✿ღ◈,是腾讯和北大等高校联合研发初美智佳子✿✿ღ◈,具有完全知识产权✿✿ღ◈。

  我们一直是开源的受益者✿✿ღ◈,从Hadoop到Spark到Storm……我们的发展离不开社区✿✿ღ◈,我们弱小的时候依赖开源社区✿✿ღ◈,我们成长后又积极回馈社区✿✿ღ◈。其实早在2014年初美智佳子✿✿ღ◈,我们就把腾讯自己的Hive版本进行开源✿✿ღ◈,它对Oracle语法兼容等特性广受欢迎✿✿ღ◈。我们第三代最核心的高性能分布式机器学习平台Angel在2017年就开源了✿✿ღ◈,2018年还进一步捐献给Linux基金会✿✿ღ◈。2019年✿✿ღ◈,我们一口气开源了四大平台✿✿ღ◈:实时数据采集平台TubeMQ(捐献给Apache社区)✿✿ღ◈、资源管理平台TKEStack✿✿ღ◈、分布式数据库TBase以及腾讯版本的OpenJDK—Kona JDK✿✿ღ◈。我们有几十个项目的PMC和提交者及更大量的贡献者✿✿ღ◈,每天都为社区贡献代码✿✿ღ◈。

  通过开源进行技术上的协同✿✿ღ◈,可聚拢人才✿✿ღ◈,一个好的项目能吸引很多优秀的开发者尊龙AG旗舰厅app✿✿ღ◈,有利于形成一个优良的技术生态✿✿ღ◈,有利于推动技术进步✿✿ღ◈。这也是我们选择开源的原因初美智佳子✿✿ღ◈。

  来自开源✿✿ღ◈、回馈开源✿✿ღ◈、坚持开源✿✿ღ◈,这可以说是腾讯大数据平台十年发展的技术理念✿✿ღ◈。另外一个技术理念是✿✿ღ◈:一切要为业务所用✿✿ღ◈。

  我们固执地认为✿✿ღ◈,技术如果不能为业务所用✿✿ღ◈,那它就是毫无价值的✿✿ღ◈。我们自主研发的Angel项目✿✿ღ◈,出发点也是因为当时开源社区里面没有符合我们业务需求的机器学习平台✿✿ღ◈,自主研发是因为对业务有价值✿✿ღ◈,而不是因为它在技术上很有挑战性以及我们要证明自己技术很牛✿✿ღ◈。Angel自2017年开源后有超过一百多个公司和组织使用✿✿ღ◈,包括华为✿✿ღ◈、小米✿✿ღ◈、OPPO✿✿ღ◈、新浪微博✿✿ღ◈、拼多多等✿✿ღ◈,发挥了Angel在腾讯以外的价值✿✿ღ◈。

  TDW主要以Hadoop为基础构建✿✿ღ◈,我们主要做了两方面的优化✿✿ღ◈:其一扩大了集群规模✿✿ღ◈,包括增强了集群拓展性✿✿ღ◈,优化了调度性能✿✿ღ◈,增强了容灾能力✿✿ღ◈,通过差异化存储降低了存储成本✿✿ღ◈;其二是利用周边生态降低应用门槛✿✿ღ◈,建设配套的调度与开发平台✿✿ღ◈,兼容Oracle的语法✿✿ღ◈,以及集成PostgreSQL数据库以提升小数据量的分析性能✿✿ღ◈。第一代平台总结起来就是✿✿ღ◈,技术上主要满足离线计算需求✿✿ღ◈,技术挑战主要在不断扩展和优化集群规模✿✿ღ◈,单集群规模从几十台到几百台尊龙AG旗舰厅app✿✿ღ◈,再到几千台不断突破✿✿ღ◈。

  第二代架构从2012~2014年尊龙AG旗舰厅app✿✿ღ◈,在承载离线计算的基础上✿✿ღ◈,扩展了平台能力✿✿ღ◈,支持实时计算的需求✿✿ღ◈,如图3所示✿✿ღ◈。

  在第一代离线计算平台基础之上✿✿ღ◈,我们融合Storm和Spark构建了第二代实时计算平台✿✿ღ◈。主要的演进如下✿✿ღ◈。

  4)支持资源和任务调度方面✿✿ღ◈,平台支持离线与在线混合部署✿✿ღ◈,任务容器化✿✿ღ◈,资源管理的维度支持CPU✿✿ღ◈、内存✿✿ღ◈,以及网络与I/O✿✿ღ◈,进一步提升了平台轻量化✿✿ღ◈、敏捷性与灵活性✿✿ღ◈,极大提升了平台利用率✿✿ღ◈,降低了成本✿✿ღ◈。

  第三代架构从2015~2019年✿✿ღ◈,在通用大数据计算外✿✿ღ◈,开始支持机器学习✿✿ღ◈、深度学习等AI场景✿✿ღ◈,Big Data与AI在平台层面逐步融合✿✿ღ◈,如图4所示✿✿ღ◈。

  在第二代实时计算平台基础上✿✿ღ◈,自主研发了机器学习平台Angel✿✿ღ◈,并以Angel为核心构建第三代机器学习计算平台生态✿✿ღ◈。主要演进如下✿✿ღ◈。

  1)我们与北京大学合作✿✿ღ◈,自主研发了高性能分布式机器学习平台尊龙AG旗舰厅app✿✿ღ◈。该平台支持十亿至百亿维度模型✿✿ღ◈,支持数据并行及模型并行✿✿ღ◈,支持在线训练✿✿ღ◈。同时✿✿ღ◈,它除了支持传统的机器学习之外✿✿ღ◈,还扩展支持深度学习✿✿ღ◈、图计算等功能✿✿ღ◈,具有全栈的AI能力✿✿ღ◈。它具有友好的编程接口✿✿ღ◈、丰富的算法库✿✿ღ◈,并在上层构建了一站式开发运营环境✿✿ღ◈,支持业界多种流行计算框架尊龙AG旗舰厅app✿✿ღ◈。Angel于2017年6月全面开源✿✿ღ◈,2018年捐献给Linux基金会✿✿ღ◈,2019年12月20日从Linux基金会旗下AI领域顶级基金会—LF AI基金会(Linux Foundation Artificial Intelligence Foundation)正式毕业✿✿ღ◈,成为中国首个从LF AI基金会毕业的开源项目✿✿ღ◈,意味着Angel得到全球技术专家的认可✿✿ღ◈,成为世界顶级的AI开源项目之一✿✿ღ◈。

  截至2019年✿✿ღ◈,腾讯大数据走过十年✿✿ღ◈,并且还在不断演进中✿✿ღ◈,我们正在探寻下一代计算平台之路✿✿ღ◈,我们在探索批流融合✿✿ღ◈,我们在探索云原生大数据✿✿ღ◈,我们也在尝试AI✿✿ღ◈、大数据及云计算结合和软硬件结合✿✿ღ◈,我们还在研究数据湖和隐私计算等前沿技术……大数据初美智佳子✿✿ღ◈、人工智能和云计算✿✿ღ◈,正在成为支撑业务发展的基础设施✿✿ღ◈,下一代✿✿ღ◈,会更精彩初美智佳子✿✿ღ◈。

  我们先来看看这张图✿✿ღ◈,这是某公司使用的大数据平台架构图✿✿ღ◈,大部分公司应该都差不多✿✿ღ◈:从这张大数据的整体架构图上看来✿✿ღ◈,大数据的核心层应该是✿✿ღ◈:数据采集层✿✿ღ◈、数据存储与分析层尊龙凯时登录✿✿ღ◈,✿✿ღ◈、数据共享层✿✿ღ◈、数据应用层✿✿ღ◈,可能叫法有所不同✿✿ღ◈,本质上的角色都大同小异✿✿ღ◈。所以我下面就按这张架构图上的线索✿✿ღ◈,慢慢来剖析一下✿✿ღ◈,大数据的核心技术都包括什么✿✿ღ◈。一✿✿ღ◈、数据采集数据采集的任...

  在企业的IT系统中✿✿ღ◈,由于业务模式和应用环境的复杂多样性✿✿ღ◈,企业在设计IT架构的时候大多是封闭的✿✿ღ◈,自成一体的✿✿ღ◈。不论哪种IT架构都是业务驱动IT✿✿ღ◈,以业务服务为基础来实现的IT系统更灵活✿✿ღ◈、更易用尊龙AG旗舰厅app✿✿ღ◈,可更快地应对企业业务需求的变化✿✿ღ◈。因此✿✿ღ◈,要快速响应市场或客户灵活多变的需求✿✿ღ◈,需要企业的开发运维工程师保障IT生态系统的可用和稳定✿✿ღ◈。

TOP