再保險:如何添加新列值dataframe b…頁2 -磚- 29941

supriya · ‎01-22-2016

我需要在dataframe創建新列的數據。

例子:

= sqlContext val測試。createDataFrame (Seq ((4 l,引發我j k), (5 l, l m n), (6 l, mapreduce“火花”),(7 l,“apache hadoop”), (11 l a b c d e火花),(12 l,“b d”), (13 l,“火花f g h”), (14 l, hadoop mapreduce)))。toDF (“id”、“文本”)

val元組=列表((0.9 0 l), (4 l, 3.0), (0.12 6 l), (7 l, 0.7), (0.15 l, 11), (12 l, 6.1), (13 l, 1.8)) val抽樣:抽樣[(長,雙)]= sparkContext.parallelize ((tuples.toSeq))

這個元組ID和平均價值。現在我想添加新列命名平均和增加價值的行代表ID和genrate新Dataframe或抽樣。

jackAKAkarthik · ‎01-09-2017

@Raela王怎麼添加一個時間戳dataframe動態中的每一行。

= new java.util.Date val日期

val AppendDF = existingDF。withColumn (“new_column_name”,列日期)

不是為我工作。

你能幫助嗎?

supriya · ‎01-09-2017

@jack AKA戀人:添加一個時間戳dataframe動態:

進口org.apache.spark.sql.functions。_ val AppendDF = customerDF.withColumn (“new_column_name current_timestamp ())

我認為這是為你工作。

jackAKAkarthik · ‎01-09-2017

@supriya

謝謝你的幫助。它工作。

jackAKAkarthik · ‎01-12-2017

@supriya

我怎麼能在這current_timestamp()在一個字符串類型作為我的蜂巢版本較低(0.13),無法加載到表中時間戳。

jackAKAkarthik · ‎01-12-2017

@Raela王

我怎麼能把current_timestamp()一個字符串在scala中,我已經嚐試了一些但沒有運氣。

磚

如何添加新列值在dataframe代表惟一的id嗎