嗨
我們試圖生成虛假數據來運行我們的測試。例如,我們有一個管道,創建了一個黃金6層事實表形式潛在源表在我們的銀層。我們想要生成數據的方式承認表之間的關係,因此當我們運行實際和預期的測試,結果比賽沒有這個引用完整性被堅持,不會協調的結果。我們想要記錄比datagen工具似乎很多依賴產生0和1 (https://github.com/databrickslabs/dbldatagen)。有誰有成功實現這樣一個解決方案嗎?顯然缺少主鍵和外鍵在ddl很難生成數據就像在RDBMS中。我們也看一代方法如hackolade Idera和其他工具,允許您從一個模型生成手動生成但我們希望這是蔡先生管道的一部分。
你好尼克,
在這種情況下,我認為最好的方法是使用數據構建的主要表主鍵生成器dbldatagen或其他數據生成器然後建立的表需要從這些基本表refrerential完整性
在高級別上可以創建假表/數據
:Table_A: PK_Col Col1、Col2 col3
Table_B:: PK_Col, Col1、Col2 col3
.......
然後可以創建一個派生表Table_C關聯到table_A通過限製其外鍵table_A PK(在我們的例子中PK_Col)
這樣我們會有相關數據包括引用完整性
問候
嗨@Nick_Hughes
這可能是遲到你的場景——但希望其他麵臨類似問題會發現它有用。
您可以指定如何生成數據“dbldatagen”使用規則的數據生成規範。如果指定數據生成規則,您可以生成各種各樣的數據。
文檔(位於https://databrickslabs.github.io/dbldatagen/public_docs/index.html)提供了許多例子。
有一個例子類似於你的請求(多與交叉引用表)位於:https://databrickslabs.github.io/dbldatagen/public_docs/multi_table_data.html
如果你隻看到1和0當規則指定,或者隻是有建議的方法來提高——隨時打開頁麵的主要問題中的一個問題在GitHub網站https://github.com/databrickslabs/dbldatagen
問候羅南·斯托克斯(磚)