取消
顯示的結果
而不是尋找
你的意思是:

在單個文件解析和合並多個數據集

Sandesh87
新的貢獻者三世

應用程序接收消息從事件中心。下麵是消息收到事件中心和加載到dataframe一列

姓名,性別,身份證

山姆,m, 001

- - - - - -

時間,x, y, z,長,lat

160年,22歲,45歲,51歲,83年,56

230年、82年、95年,48歲,18歲,26歲

- - - - - -

事件,a, b, c

034年,1、5、6

073、4、2、8

每個消息可能包含3個數據集由五個破折號——分離

dataset1:

姓名,性別,身份證

山姆,m, 001

姓名,性別,身份證是dataset1頭信息

dataset2:

時間,x, y, z,長,lat

160年,22歲,45歲,51歲,83年,56

230年、82年、95年,48歲,18歲,26歲

時間,x, y, z,長,lat dataset2頭信息

dataset3:

事件,a, b, c

034年,1、5、6

073、4、2、8

事件,a, b, c是dataset3的頭信息

應用程序是一個火花流和批次等多個消息到一個dataframe。例如與一列dataframe負荷三個消息從事件中心下麵的樣子

姓名,性別,身份證

山姆,m, 001

- - - - - -

時間,x, y, z,長,lat

160年,22歲,45歲,51歲,83年,56

230年、82年、95年,48歲,18歲,26歲

- - - - - -

事件,a, b, c

034年,1、5、6

073、4、2、8

姓名,性別,身份證

珍妮特,002

- - - - - -

時間,x, y, z,長,lat

08年839年,22日,81年,91年,23歲

74年110年,42歲,68年,31日,45

姓名,性別,身份證

羅斯,m, 003

- - - - - -

時間,x, y, z,長,lat

209年,33歲,10,11,61年,47歲

230年、82年、95年,48歲,18歲,26歲

246、91、82、92、98

56歲的230、03、62 02,42歲

- - - - - -

事件,a, b, c

034年,4、1 0

092、9、8、3

數據集與頭信息事件,a, b, c可能是也可能不是出現在消息中可以看到消息和珍妮特的名字在上麵。

目標是結合相關數據集1和2的具體信息。dataset3排除在外。結果應該類似於:

時間x y z長lat名字性別id

山姆83 001 160 22 45 51 56

山姆001 230 82 95 48 18 26

珍妮特23 f 002 839 22 08年81 91

珍妮特·f 002 110 42 68 31 74 45

羅斯61 003 209 33 10 11 47歲

羅斯003 230 82 95 48 18 26

羅斯28 003 246 91 82 92 98

羅斯62 003 230 03年56 02 42

如何使用scala實現這一目標?

3回複3

匿名
不適用

我想說不要用可怕的/不模式引發的數據。用火花規模和數據模式。也許嚐試修複任何創建這些消息。

Sandesh87
新的貢獻者三世

感謝反饋,但我不能控製是通過事件中心。隻是這樣的消息,不能撤消

Vartika
主持人
主持人

嗨@Sandesh Puligundla

希望一切都好!

隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map