過濾條件在火花dataframe工作如何?-磚- 29298

senthilkumar · ‎01-16-2017

我有一個表在hbase 1數十億記錄。我想過濾記錄基於某些條件(按日期)。

例如:

Dataframe.filter (col(日期)= = = todayDate)

過濾器將應用在從表中所有記錄將被加載到內存或我將過濾記錄?

muk1 · ‎12-19-2018

你好@senthil庫馬爾

通過外部值過濾器(或地方)轉換可以使用“點燃”功能在以下方式:

Dataframe.filter(坳(日期)= =點燃(todayDate))

不知道如果´,幫助。小心dataframe模式的推導。如果你有,你列的字符串類型然後嚐試通過一個字符串。如果你正在與時間戳“todayDate”一個時間戳,等等。

你應該以同樣的方式導入“點燃”功能當你導入“上校”功能:

從pyspark.sql。功能導入點燃,上校

這是在python中。我不能說如果這適用於scala。變量todayDate可以改變變量的循環。讓´s說

dates_list =(“25-03-1990”、“25-04-1990”、“25-05-1990”)在dates_list todayDate: Dataframe.filter(坳(日期)= =點燃(todayDate)) # # # #你想做轉換或行動

我認為有一個更好的方法激發函數,但是我沒有機會看。

過濾器將應用在從表中所有記錄將被加載到內存或我將過濾記錄?

我想從數據文件讀已經與dataframe“dataframe”。Apache火花不修改數據,它隻是跟蹤轉換和行動是你想做的事情在他們然後過程所需的計算輸出你選擇。這是完成了重新分配(和執行人)和懶惰的評估。我可以´t找到“溫柔介紹apache火花”這有助於理解這些概念。這個鏈接可以幫助:https://databricks-prod-cloudfront.cloud.m.eheci.com/public/4027ec902e239c93eaaa8714f173bcfc/3463..。

祝你好運! !

muk ! !