文本數據類型不支持和數據有巨大d…-磚- 11875

patdev · ‎01-15-2023

你好所有的,

我有醫學領域數據文件的一個領域是巨大的文本字段的數據不是大問題是databrick不支持文本數據類型,這樣我怎麼能把數據。以各種方式我試著轉換,但到目前為止沒有成功。

我試著導入數據(大約250萬條記錄),但一旦遷移到三角洲表就85毫升的記錄,因為它打破了在多行文本域…

正確的方法是什麼! !請指導。

Chaitanya_Raju · ‎01-15-2023

嗨@Pat Dev

創建增量表中的列類型為字符串,並在導入數據表,這個列的值分成多行,是這樣? ?

什麼是值的字符串的最大長度列?

快樂學習! !

patdev · ‎01-16-2023

你好,

謝謝你的回複,。

我試著從csv文件導入到三角洲表!並定義表,然後導入文件表。

列命名注意postgres的文本格式。我從那裏導出到csv和進口三角洲。

因為在源數據類型文本,所有記錄的長度是不一樣的。所以我試著導入varchar(8000)或nvarchar (max) f或databrick字符串。但仍數據分成多行這不是可用來查詢。

什麼是適當的方法或解決方案。

謝謝

謝爾 · ‎01-15-2023

你能分享的示例代碼片段嗎?

patdev · ‎01-16-2023

你好,

這是我跟隨這個過程:

1從postgres導出為csv文件

2 s3的文件遷移到安全位置

3使用下麵的代碼來創建表和移動數據:

代碼:

%的sql

設置spark.databricks.delta.schema.autoMerge.enabled = true;

創建表如果不存在catlog.schema.tablename;

複製到catlog.schema.tablename

從(SELECT * s3: / /桶/ test.csv)

FILEFORMAT = CSV

FORMAT_OPTIONS (“mergeSchema”=“真實”,“頭”=“真正的”)

列的一個名叫文本是文本格式,包含大量數據,但是當它試圖在三角洲表導入創建多行查詢也使得它無法使用。

謝謝

磚