取消
顯示的結果
而不是尋找
你的意思是:

引發多少記錄用於推斷模式嗎?整個文件或隻是第一個“X”數量的記錄?

User15787040559
新的貢獻者三世

視情況而定。

如果指定的模式將是零,否則它會做一個完整的文件掃描不適合處理大數據大規模。

CSV文件Dataframe讀者https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.DataFrameReader.csv.html?h..。samplingRatio會讓你改變你的樣本數據推理。

1回複1

Anand_Ladda
尊敬的貢獻者二世

表示有辦法管理模式被抽樣推斷的數據量。然而作為生產工作負載的最佳實踐的最好顯式地定義模式一致性、重複性和魯棒性的管道。它還有助於實現有效的數據質量檢查使用功能模式執行和期望在三角洲住表

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map