Spark应用是用来做什么的?

Spark应用是用来做什么的?,第1张

Spark因其自身优势,发展势头迅猛,目前几乎所有一站式大数据平台都已集成了Spark,很多行业也都正在用Spark来改善他们的业务,以下是Spark在一些行业的具体用途:

保险行业:通过使用Spark的机器学习功能来处理和分析所有索赔,优化索赔报销流程。

医疗保健:使用Spark Core,Streaming和SQL构建病人护理系统。

零售业:使用Spark分析销售点数据和优惠券使用情况。

互联网:使用Spark的ML功能来识别虚假的配置文件,并增强他们向客户展示的产品匹配。

银行业:使用机器学习模型来预测某些金融产品的零售的资料。

政府:分析地理,时间和财政支出。

科学研究:通过时间,深度,地理分析地震事件来预测未来的事件。

投资银行:分析日内股价以预测未来的价格走势。

地理空间分析:按时间和地理分析Uber旅行,以预测未来的需求和定价。

航空公司:建立预测航空旅行延误的模型。

设备:预测建筑物超过临界温度的可能性

Spark是处理海量数据的快速通用引擎。作为大数据处理技术,Spark经常会被人们拿来与Hadoop比较。

Hadoop已经成了大数据技术的事实标准,Hadoop MapReduce也非常适合于对大规模数据集合进行批处理操作,但是其本身还存在一些缺陷。具体表现在:

1、Hadoop MapRedue的表达能力有限。所有计算都需要转换成Map和 Reduce两个操作,不能适用于所有场景,对于复杂的数据处理过程难以描述。

2、磁盘I/O开销大。Hadoop MapReduce要求每个步骤间的数据序列化到磁盘,所以I/O成本很高,导致交互分析和迭代算法开销很大,而几乎所有的最优化和机器学习都是迭代的。所以,Hadoop MapReduce不适合于交互分析和机器学习。

3、计算延迟高。如果想要完成比较复杂的工作,就必须将一系列的MapReduce作业串联起来然后顺序执行这些作业。每一个作业都是高时延的,而且只有在前一个作业完成之后下一个作业才能开始启动。因此,Hadoop MapReduce不能胜任比较复杂的、多阶段的计算服务。

Spark借鉴Hadoop MapReduce技术发展而来,继承了其分布式并行计算的优点的同时,改进了MapReduce的许多缺陷。具体优势如下:

1、Spark提供广泛的数据集操作类型(20+种),支持Java,Python和Scala API,支持交互式的Python和Scala的shell。比Hadoop更加通用。

2、Spark提供Cache机制来支持需要反复迭代的计算或者多次数据共享,减少数据读取的I/O开销。Spark使用内存缓存来提升性能,因此进行交互式分析也足够快速,缓存同时提升了迭代算法的性能,这使得Spark非常适合数据理论任务,特别是机器学习。

3、Spark提供了内存计算,把中间结果放到内存中,带来了更高的迭代运算效率。通过支持有向无环图(DAG)的分布式并行计算的编程框架,减少迭代过程中数据需要写入磁盘的需求,提高处理效率。

此外,Spark还能与Hadoop无缝衔接,Spark可以使用YARN作为它的集群管理器,可以读取HDFS、HBase等一切Hadoop的数据。

Spark在最近几年发展迅速,相较于其他大数据平台或框架,Spark的代码库最为活跃。截止目前,最新发布的版本为Spark330。

也有许多数据治理工具,为了实现实时、通用的数据治理而采用Spark技术。以飞算推出的SoData数据机器人为例,是一套实时+批次、批流一体、高效的数据开发治理工具,能够帮助企业快速实现数据应用。

相较于传统数据加工流程,SoData数据机器人实现了流批一体数据同步机制,基于Spark和Flink框架进行深度二次开发,实现数据采集、集成、转换、装载、加工、落盘全流程实时+批次处理的极致体验,秒级延迟,稳定高效平均延迟5-10s,快速响应企业数据应用需求。

除了具备Spark数据处理的优势,SoData数据机器人的Spark体系还支持从各种数据源执行SQL生成Spark字典表,边开发边调试的Spark-SQL开发,支持任意结果集输出到各类数据库。可视化的运维、开发方式也能在极大降低数据开发、治理、应用门槛的同时,提升效率。

在某综合医院的信息化建设中,SoData数据机器人曾在5分钟内完成原本需要8-9小时才能完成的数据迁移工作。

目前,SoData数据机器人已应用于金融、医疗、能源等多个行业,将持续通过创新技术,为各行业组织机构带来更优质、快速的数据开发、治理、应用体验。

DJIGO4App。大疆Spark可使用移动设备与DJIGO4App控制飞行器。大疆djigo4是一款专为大疆无人机开发的控制app,它可以通过无人机进行高清摄影,还可以进行实时图像查看,功能非常强大,有需要的可以到当易网下载体验。

ResourceManager:是集群所有应用程序的资源管理器,能够管理集群的计算资源并为每个Application分配,它是一个纯粹的调度器。 NodeManager:是每一台slave机器的代理,执行应用程序,并监控应用程序的资源使用情况。 Application Master:每一个应用程序都会有一个Application Master,它的主要职责是向RM申请资源、在每个NodeManager上启动executors、监控和跟踪应用程序的进程等。

这里写描述

执行过程:

(1)客户端提交Application到RM,这个过程做的工作有判断集群资源是否满足需求、读取配置文件、设置环境变量、设置Application名字等等;

(2)RM在某一台NodeManager上启动Application Master,AM所在的机器是YARN分配的,事先是不知道的;

(3)AM初始化SparkContext,开始驱动程序,这个NodeManager便是Driver;

(4)AM向ResourceManager申请资源,并在每台NodeManager上启动相应的executors;

(5)初始化后的SparkContext中的通信模块可以通过AKKA与NodeManager上的容器进行通信。

比以前的更多的理解:

(1)Application Master所在的NodeManager是Yarn随机分配的,不是在主节点上,下图是实验室集群上跑得一个Spark程序,tseg0是主节点,tseg1~tseg4是workers,IP1010324029指的是tseg3:

这里写描述

(2)在上图还可以看出,executor的容器和AM容器是可以共存的,它们的封装都是容器;

(3)AM是Yarn启动的第一个容器;

(4)AM所在的NodeManager就是平常说的Driver端,因为这个AM启动了SparkContext,之前实验室说的“谁初始化的SparkContext谁就是Driver端”一直理解错了,以为这句话是相对于机器说的,但其实是相对于Cluster和Client的集群模式来说的(不知道其他模式Mesos、standalone是不是也是这样)。

(5)在Application提交到RM上之后,Client就可以关闭了,集群会继续运行提交的程序,在实际使用时,有时候会看到这样一种现象,关闭Client会导致程序终止,其实这个Application还没有提交上去,关闭Client打断了提交的过程,Application当然不会运行。

这里写描述

(1)Client Application会初始化SparkContext,这是Driver端;

(2)提交Application到RM;

(3)应该是在RM所在的机器上启动AM(

?不确定

);

(4)AM向RM申请资源,并启动NodeManager上的Executors;

(5)Executors与SparkContext初始化后的通信模块保持通信,因为是与Client端通信,所以Client不能关闭。

(1)SparkContext初始化不同,这也导致了Driver所在位置的不同,YarnCluster的Driver是在集群的某一台NM上,但是Yarn-Client就是在RM在机器上; (2)而Driver会和Executors进行通信,这也导致了Yarn_cluster在提交App之后可以关闭Client,而Yarn-Client不可以; (3)最后再来说应用场景,Yarn-Cluster适合生产环境,Yarn-Client适合交互和调试。

之前实验室配过Hadoop多用户

,最近因为培训Spark,又得在这个基础上再能够运行Spark。做的工作很简单,就是把Spark以及Spark依赖的环境scp过去,然后再改一下相应的配置就可以了。猜想的不同用户运行Spark On Yarn Cluster如下图所示,无非就是多增加了一个用户Client,因为ResourceManager是唯一的,所以不同用户CLient提交的Spark Application在集群上运行都是一样的。

欢迎分享,转载请注明来源:品搜搜测评网

原文地址:https://pinsoso.cn/shuma/952728.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-08-19
下一篇2023-08-19

随机推荐

  • 天气丹三个版本的区别

    天气丹三个版本的没有区别。虽然它们的叫法不同,但是套盒中的爽肤水和乳液在成分以及含量上都是一模一样的,所以三个版本的天气丹是不分好坏的。天气丹套盒适应的肤质比较广泛,干性肌肤使用以后能够很好的补水保湿,油性皮肤使用以后能够很好的控油祛痘,因

    2024-04-15
    28400
  • 夏季宝宝防蚊用什么好啊?

     一般用喷雾剂、蚊香、防蚊液,但这些产品的成分都是化学品,在燃烧时也会形成烟雾微粒,很容易造成咳嗽、胸闷反应,甚至诱发哮喘。不适合婴幼儿使用。相对这几种来说,防蚊液对人体的伤害最小。  土方法方便又实用  用八角、茴香洗澡:去厨房的调味罐里

    2024-04-15
    23000
  • 护肤品哪个牌子补水效果最好 让你的肌肤时刻充盈水润

    护肤品是我们日常护理肌肤最常使用到的一种产品,现在市面上的护肤品品牌众多,很多人都挑花了眼,一般情况下,选取补水的护肤品比较好,那么护肤品哪个牌子补水效果最好?让你的肌肤时刻充盈水润。护肤品哪个牌子补水效果最好别人推荐的好的护肤品不

    2024-04-15
    36300
  • 一瓶神仙水230ml成本

    -ll神仙水230ml :1520元一瓶精华水80MI:560元眼霜15MI:640元一套加起来在2720左右,敬请参考:Sk2明星产品:1、SK-II环采臻皙钻白精华露这款精华人称它为"小灯泡"。提取自日本杏的珍稀精萃及Pixel-Whi

    2024-04-15
    39300
  • 妮维雅洗面奶真假辨别_妮维雅男士洗面奶真假鉴别

    妮维雅洗面奶产品因为其销量还是非常不错的,同时用户的评价也是也一直处于高星,所以假货也无可避免的就出现在大家的视野之中,下面我们就来看看关于妮维雅洗面奶真假对比。妮维雅洗面奶真假辨别从包装的印刷上看:这方面区分最大的就是产品的背面,

    2024-04-15
    25700
  • 这几件SK-ii使用的先后顺序

    上面回答的不对,清莹露最先使用,因为它相当于水。神仙水使用之前必须用水垫底的,要不然会干。用完清莹露再用神仙水。然后是眼霜,然后是精华露。因为精华是帮助吸收之后的乳液的,最后是乳液。sk2使用顺序和方法:步骤一、洁颜产品首先我们可以使用sk

    2024-04-15
    35300
  • 兰蔻的产品怎么样?哪些值得买?

    ❤兰蔻小黑瓶眼霜,当时跟风入手这款兰蔻小黑瓶眼霜,大概400RMB。用了一段时间,发现确实不错。眼霜质地细腻清爽,易推开,滋润效果很好,吸收也非常快,每次使用我都会将双手搓热,轻轻敷于眼上促进眼部血液循环,效果更佳。而且这款产品真的对去除黑

    2024-04-15
    26400

发表评论

登录后才能评论
保存