请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

两个问题关于Direct方式

1. 第二种方式,SparkStreaming是如何从kafka里获取数据的,没太理解

官网解释是: this approach periodically queries Kafka for the latest offsets in each topic+partition, and accordingly defines the offset ranges to process in each batch.

是自己主动去kafka里周期性地取的意思吗?老师能稍微再解释下这第二种方式吗?

2. offset这个偏移量以及offset range偏移量的范围具体含义是什么,有点没听明白了,看了官网也没咋清楚,后面老师您又提到了消费的偏移量,那这么说offset应该是kafka里的,难道是指生产的馒头?是的话,那在具体业务场景里,这个偏移量又指的什么?

正在回答

1回答

Michael_PK 2017-11-10 15:40:04

是根据偏移量去kafka获取!偏移量就是kafka中已经被消费掉的一个记录。你可以搜索databricks官网,它有这个方式的详细介绍

0 回复 有任何疑惑可以回复我~
  • 提问者 Echo鑫 #1
    那老师,
    1. 如果第二种是根据偏移量去Kafka里获取数据,那第一种recevier的方式就是直接从kafka里获取数据吗?如果这样的话,这个recevier是不是就相当于是个消费者?
    2. 这两种方式整合kafka,kafka和spark的启动顺序是不是不用像整合Flume那要区分开来,都是先启动kafka,再进行spark任务执行?
    回复 有任何疑惑可以回复我~ 2017-11-10 16:45:41
  • Michael_PK 回复 提问者 Echo鑫 #2
    第一种有reciever接收,第二种direct的没有receiver,然后从高可靠方面来说,direct靠谱
    回复 有任何疑惑可以回复我~ 2017-11-10 17:04:20
  • 提问者 Echo鑫 回复 Michael_PK #3
    第一种是通过reciever直接获取kafka里的数据,相当于个消费者,而第二种是通过偏移量去kafka里获取数据,是这样吗?
    回复 有任何疑惑可以回复我~ 2017-11-10 17:47:58
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信