市面上很多大数据框架,为什么要自研大数据平台

  • 时间:
  • 浏览:1
  • 来源:uu快3玩法_uu快3新平台_棋牌

有以下考虑:第一,大伙儿 有众多的开源的大数据框架,比如hadoop,spark,storm,大伙儿 基本上是在虚拟集群中去部署运用的,哪几个计算框架较少考虑多租户的使用场景,没办法 依赖虚拟机去做各种资源的隔离和共享,有却说你这一 最好的方式对于计算任务太重有却说粒度不足小和灵活,对于阿里外部这一 没办法 大体量的计算任务来说,从成本,性能,和规模上都达没办法 目标,这是为哪几个各个大公司外部都是有1个自研的大数据平台,比如Azure, Google

第二,开源系统这一 也没办法 完善,在规模上,性能上,功能上,大伙儿 外部对于大数据计算或多或少更高的要求,大伙儿 希望通过你这一 更好需求下去推动系统的提高,有却说开源还不足或多或少配套组件,比如数据仓库,数据质量管理,部署,监控。所以大伙儿 希望大伙儿 不需要 完善哪几个,从而提供更删剪的服务体验,所以从你这一 深度图上,MaxCompute提供更像bigquery是有1个开放共享(区别于用虚拟器加开源的软件包)计算服务平台,当然大伙儿 也努力把大伙儿 的工作比如optimization等回馈社区,有却说从api接口上去兼容社区,从而帮助大伙儿 用户更加好的来使用大伙儿 的服务

林伟

liu_andy

第三,所以 做到用户精细控制数据访问控制,从而做到最大程度保护用户数据,一同又都没办法 灵活分享发布被委托人的数据来让服务商来根据哪几个数据去创造更好用户服务。在你这一 系统上,大伙儿 还打造数加等多款数据加工平台,提供智能推荐,智能语音,图像视屏处里,机器学习,数据流控制,监控,数据发现,任务调度等等,从而不需要 帮助用户更好的去处里他的数据

感谢您的提问。 的确现在有所以开源的软件,阿里第一天处里大数据时也是使用的Hadoop,当时阿里Hadoop集群服务器数量超过了2000台。随着集团数据业务的增长,2000台无法满足数据处里的没办法 了,再向上扩展机器的却说,Hadoop肯能无法支持跨机房数据存储和计算的需求。 一同阿里在使用Hadoop的却说,也遇到了或多或少难题报告 ,像数据安全,今天MaxCompute的权限都没办法 做到字段级授权。在日常数据业务中,不同的用户也没办法 流计算、机器学习算法,哪几个作业都没办法 混合运行在同有1个集群中。 要怎样为作业合理的分配资源、进行作业管理,也是在Hadoop时代无法很好的实现的。大伙儿 吸收了开源软件的优点,一同结合冗杂的数据业务,在你这一 情況下 MaxCompute诞生了。MaxCompute是阿里的攻城獅们使用C++代码一行一行写出来的,性能要比开源的软件高所以。 去年MaxCompute参加了Sort bench mark 大赛,用377秒完成200TB数据的排序,以优异的成绩获取了第一名,而第二名用了1378秒。。

林伟

林伟