• news_banner

ဝန်ဆောင်မှု

Spark Streaming ဒေတာ သန့်ရှင်းရေး ယန္တရား
(၁) DStream နှင့် RDD
ကျွန်ုပ်တို့သိသည့်အတိုင်း Spark Streaming တွက်ချက်မှုသည် Spark Core ပေါ်တွင်အခြေခံပြီး Spark Core ၏အဓိကအချက်မှာ RDD ဖြစ်ပြီး၊ ထို့ကြောင့် Spark Streaming သည် RDD နှင့်လည်းဆက်စပ်နေရပါမည်။သို့သော် Spark Streaming သည် အသုံးပြုသူများအား RDD ကို တိုက်ရိုက်အသုံးပြုခွင့်မပြုသော်လည်း DStream အယူအဆများ အစုံလိုက်၊ DStream နှင့် RDD တို့သည် ပါဝင်သည့် ဆက်ဆံရေးများဖြစ်သည်၊ ၎င်းကို Java ရှိအလှဆင်ပုံစံအဖြစ် သင်နားလည်နိုင်သည်၊ ဆိုလိုသည်မှာ DStream သည် RDD ၏ မြှင့်တင်မှုတစ်ခုဖြစ်သည်၊ သို့သော်၊ အပြုအမူသည် RDD နှင့်ဆင်တူသည်။
DStream နှင့် RDD နှစ်ခုလုံးတွင် အခြေအနေများစွာရှိသည်။
(1) မြေပုံ၊ reduceByKey စသည်တို့ကဲ့သို့သော အလားတူအသွင်ပြောင်းလုပ်ဆောင်ချက်များ ရှိသည်၊သာမက Window၊ mapWithStated စသည်ဖြင့် အချို့သောထူးခြားသောလုပ်ဆောင်ချက်များလည်းရှိသည်။
(၂) အားလုံးတွင် foreachRDD၊ count ကဲ့သို့သော Action action များရှိသည်။
ပရိုဂရမ်းမင်းပုံစံသည် တသမတ်တည်းဖြစ်သည်။
(ခ) Spark Streaming တွင် DStream ၏နိဒါန်း
DStream တွင် အတန်းများစွာ ပါဝင်ပါသည်။
(1) DirectKafkaInputStream ကဲ့သို့ သီးခြား InputDStream ကဲ့သို့သော ဒေတာရင်းမြစ်အတန်းများ၊
(၂) ကူးပြောင်းခြင်းအတန်းများ၊ ပုံမှန်အားဖြင့် MappedDStream၊ ShuffledDStream
(၃) ForEachDStream ကဲ့သို့သော ပုံမှန်အားဖြင့် အထွက်အတန်းများ
အထက်ဖော်ပြပါအချက်များမှအစ (input) မှ အဆုံး (output) မှ ဒေတာများကို DStream စနစ်ဖြင့် လုပ်ဆောင်သည်၊ ဆိုလိုသည်မှာ အသုံးပြုသူသည် ပုံမှန်အားဖြင့် RDDs များကို တိုက်ရိုက်ထုတ်လုပ်ပြီး ခြယ်လှယ်ခြင်းမပြုနိုင်ပါ၊ ဆိုလိုသည်မှာ DStream တွင် အခွင့်အလမ်းနှင့် တာဝန်များရှိသည်။ RDDs ၏ဘဝသံသရာအတွက်တာဝန်ရှိသည်။
တစ်နည်းဆိုရသော် Spark Streaming တစ်ခုရှိသည်။အလိုအလျောက်ရှင်းလင်းခြင်း။လုပ်ဆောင်ချက်။
(iii) Spark Streaming တွင် RDD မျိုးဆက်၏ လုပ်ငန်းစဉ်
Spark Streaming တွင် RDDs ၏ဘဝစီးဆင်းမှုသည် အောက်ပါအတိုင်း ကြမ်းတမ်းသည်။
(1) InputDStream တွင် KafkaRDD ကိုထုတ်ပေးသည့် DirectKafkaInputStream ကဲ့သို့သော လက်ခံရရှိသည့်ဒေတာကို RDD အဖြစ်သို့ ပြောင်းလဲပါသည်။
(2) ထို့နောက် MappedDStream နှင့် အခြားဒေတာကူးပြောင်းခြင်းမှတဆင့်၊ ဤအချိန်ကို ပြောင်းလဲခြင်းအတွက် မြေပုံနည်းလမ်းနှင့် သက်ဆိုင်သော RDD ဟုခေါ်သည်
(၃) အထွက်အဆင့် လုပ်ဆောင်ချက်တွင်၊ RDD ကို ဖော်ထုတ်သည့်အခါတွင်၊ အသုံးပြုသူကို သက်ဆိုင်ရာ သိုလှောင်မှု၊ အခြား တွက်ချက်မှုများနှင့် အခြားလုပ်ဆောင်ချက်များကို လုပ်ဆောင်ခွင့်ပေးနိုင်သည်။