取消
顯示的結果
而不是尋找
你的意思是:

文本數據類型不支持和數據有巨大的數據以文本提出如何把它結束了

patdev
新的貢獻者三世

你好所有的,

我有醫學領域數據文件的一個領域是巨大的文本字段的數據不是大問題是databrick不支持文本數據類型,這樣我怎麼能把數據。以各種方式我試著轉換,但到目前為止沒有成功。

我試著導入數據(大約250萬條記錄),但一旦遷移到三角洲表就85毫升的記錄,因為它打破了在多行文本域…

正確的方法是什麼! !請指導。

9回複9

Chaitanya_Raju
尊敬的貢獻者

嗨@Pat Dev

創建增量表中的列類型為字符串,並在導入數據表,這個列的值分成多行,是這樣? ?

什麼是值的字符串的最大長度列?

快樂學習! !

patdev
新的貢獻者三世

你好,

謝謝你的回複,。

我試著從csv文件導入到三角洲表!並定義表,然後導入文件表。

列命名注意postgres的文本格式。我從那裏導出到csv和進口三角洲。

因為在源數據類型文本,所有記錄的長度是不一樣的。所以我試著導入varchar(8000)或nvarchar (max) f或databrick字符串。但仍數據分成多行這不是可用來查詢。

什麼是適當的方法或解決方案。

謝謝

謝爾
重視貢獻二世

你能分享的示例代碼片段嗎?

patdev
新的貢獻者三世

你好,

這是我跟隨這個過程:

1從postgres導出為csv文件

2 s3的文件遷移到安全位置

3使用下麵的代碼來創建表和移動數據:

代碼:

%的sql

設置spark.databricks.delta.schema.autoMerge.enabled = true;

創建表如果不存在catlog.schema.tablename;

複製到catlog.schema.tablename

從(SELECT * s3: / /桶/ test.csv)

FILEFORMAT = CSV

FORMAT_OPTIONS (“mergeSchema”=“真實”,“頭”=“真正的”)

列的一個名叫文本是文本格式,包含大量數據,但是當它試圖在三角洲表導入創建多行查詢也使得它無法使用。

謝謝

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map