本篇分享来自Martei在Spark AI Submit 2020的开场分享。

马铁是谁

什么!你不知道马铁是谁?Martei Zaharia(说实话,不知道谁给起的中文名字叫马铁,随着叫就是了),现任Databricks的CTO,也许Databricks你也不是很熟,Spark总是听过的吧?可以说Spark就出自Martei之手,项目开源后组了个公司专门基于Spark提供企业服务

先来看看Martei大神在LinkedIn的简历,你就知道他的靠山有多牛了:

  • 2003-2007,就读于滑铁卢大学(加拿大前三的大学)
  • 2007-2012,就读于加州伯克利读博,其中07年在google实习3个月,08年在facebook实习一年.
  • 2015-2016,在MIT麻省理工任副教授。
  • 2016-至今,在斯坦福任副教授。
  • 从09年最先加入Apache,成为hadoop的commiter,14年最先成为apache spark的VP,13年最先担任Databricks的CTO。

可以说想要学习现在最先进的分布式知识,follow下马铁的twitter就行了。

Spark的已往10年

转头再来说说本次的分享,显示回忆了Spark的生长历程,然后先容了当前Spark 3.0的主要特征,先容Spark相关的生态组件。中心有玉人先容了koalas的使用以及3.0相关的特征展示。最后Martei推荐了《Learning Spark》第二版这本书。最后展望Spark的未来示意会连续优化 Spark 在探索数据剖析和生产应用上的易用性,厚实Spark生态系统。

  • 2007年Martei攻读博士,主要的研究偏向是p2p系统。
  • 2008年在雅虎和facebook最先接触数据中心,涉及到分布式与大数据盘算。惋惜那时的分布式盘算主要是依赖于MapReduce,编写难题,缺乏交互式的查询,也不支持机械学习。
  • 2009回到伯克利最先研究分布式机械学习框架,最先了Spark相关的事情。
  • 2010年开源了第一版的Spark。
  • 2010-2011年针对社区的需求,最先了交互式查询、Streaming流处置、R和SQL API的支持等事情。
  • 2012-2015年,厚实了Spark的生态,支持更多的API,好比Python、R、SQL;支持更多的组件库,如机械学习、图盘算、流盘算;支持更高级的API,好比DataFrame、Spark SQL等。

至今为止,有68%的用户在notebook中使用Python操作Spark;跨越90%的API通过Spark SQL来执行。

总结已往的Spark开源10年历程,获得最大的履历就是:

  • 1 产物的易用性,无论是数据探索照样生产应用
  • 2 API的最佳实践,好比组件、测试、模块化。

Spark 3.0

最近Spark公布了3.0版本,跨越3400多次升级特征,46%与SQL相关:

最主要的特征有:

  • 1 AQE,自适应查询设计。好比动态调整分区数、动态调整join算法、自动处置数据倾斜问题
  • 2 动态分区裁剪
  • 3 编译器速率优化
  • 4 优化器代码提醒
  • 5 ANSI SQL的支持
  • 6 Python API的优化
  • 7 R API的优化
  • 8 新的流处置UI、更易用的流指标统计、SQL使用文档、Data Source V2 API、GPU加速等。

相关的特征再上一篇也有先容过,详情前一篇文章:Spark 3.0 新特征

Spark的生态

好比:

  • 1 基于pandas API挪用Spark的Koalas
  • 2 支持批流一体化的Delta Lake
  • 3 Sklearn、Hyperort、Joblib等基于Spark的分布式扩展方案
  • 4 用于大规模基因剖析的GLOW
  • 5 用于GPU加速的python库rapids
  • 6 用于可视化的tableau, qlik, looker, redash等

参考

  • Martei的LinkedIn:https://www.linkedin.com/in/mateizaharia/

最后关注民众号,可以直接旁观文中视频,回复 learning spark 就可以获得对应的电子书。

,

AllbetGmaing下载

欢迎进入AllbetGmaing下载(Allbet Game):www.aLLbetgame.us,欧博官网是欧博集团的官方网站。欧博官网开放Allbet注册、Allbe代理、Allbet电脑客户端、Allbet手机版下载等业务。

Allbet Gaming声明:该文看法仅代表作者自己,与阳光在线无关。转载请注明:allbet gaming开户:来自马铁大神的Spark10年回忆录
发布评论

分享到:

欧博网址多少:8条有趣又适用的HR治理定律!拿走不谢!
你是第一个吃螃蟹的人
发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。