應用程序接收消息從事件中心。下麵是消息收到事件中心和加載到dataframe一列
姓名,性別,身份證
山姆,m, 001
- - - - - -
時間,x, y, z,長,lat
160年,22歲,45歲,51歲,83年,56
230年、82年、95年,48歲,18歲,26歲
- - - - - -
事件,a, b, c
034年,1、5、6
073、4、2、8
每個消息可能包含3個數據集由五個破折號——分離
dataset1:
姓名,性別,身份證
山姆,m, 001
姓名,性別,身份證是dataset1頭信息
dataset2:
時間,x, y, z,長,lat
160年,22歲,45歲,51歲,83年,56
230年、82年、95年,48歲,18歲,26歲
時間,x, y, z,長,lat dataset2頭信息
dataset3:
事件,a, b, c
034年,1、5、6
073、4、2、8
事件,a, b, c是dataset3的頭信息
應用程序是一個火花流和批次等多個消息到一個dataframe。例如與一列dataframe負荷三個消息從事件中心下麵的樣子
姓名,性別,身份證
山姆,m, 001
- - - - - -
時間,x, y, z,長,lat
160年,22歲,45歲,51歲,83年,56
230年、82年、95年,48歲,18歲,26歲
- - - - - -
事件,a, b, c
034年,1、5、6
073、4、2、8
姓名,性別,身份證
珍妮特,002
- - - - - -
時間,x, y, z,長,lat
08年839年,22日,81年,91年,23歲
74年110年,42歲,68年,31日,45
姓名,性別,身份證
羅斯,m, 003
- - - - - -
時間,x, y, z,長,lat
209年,33歲,10,11,61年,47歲
230年、82年、95年,48歲,18歲,26歲
246、91、82、92、98
56歲的230、03、62 02,42歲
- - - - - -
事件,a, b, c
034年,4、1 0
092、9、8、3
數據集與頭信息事件,a, b, c可能是也可能不是出現在消息中可以看到消息和珍妮特的名字在上麵。
目標是結合相關數據集1和2的具體信息。dataset3排除在外。結果應該類似於:
時間x y z長lat名字性別id
山姆83 001 160 22 45 51 56
山姆001 230 82 95 48 18 26
珍妮特23 f 002 839 22 08年81 91
珍妮特·f 002 110 42 68 31 74 45
羅斯61 003 209 33 10 11 47歲
羅斯003 230 82 95 48 18 26
羅斯28 003 246 91 82 92 98
羅斯62 003 230 03年56 02 42
如何使用scala實現這一目標?