你好,我們正在構建自定義數據磚容器(https://docs.m.eheci.com/clusters/custom-containers.html)。容器構建過程中我們也安裝依賴和python腳本源代碼。我們現在想要運行這些腳本的一些工作,理想也提供命令行參數。然而,當創造就業機會,沒有見過一個容器內引用的代碼?什麼好主意嗎?
@Thijs van den Berg:
創建在磚的工作時,你可以參考代碼容器內使用dbutils模塊。這裏有一個例子如何引用一個Python文件myscript.py位於/ opt / myapp目錄的容器:
導入操作係統dbutils.fs.cp(“文件:/ opt / myapp / myscript。py”、“dbfs: / mnt / my-mount-point myscript.py”)操作係統。係統(“python / dbfs / mnt / my-mount-point / myscript。py __arg1最長長度”)
在這個例子中,我們首先複製myscript.py文件從容器文件係統使用dbutils.fs.cp DBFS掛載點()方法。然後我們運行Python腳本使用os.system()方法並傳遞命令行參數。您還可以使用databricks-cli自動化創造就業和DBFS上傳的文件。這裏有一個例子:
磚fs cp / opt / myapp / myscript。py dbfs: / mnt / my-mount-point / myscript。py磚工作創造的名字“我的工作”——python-task“python / dbfs / mnt / my-mount-point / myscript。py __arg1最長長度”——max-retries 0
下麵的例子使用了databricks-cli複製myscript.py文件DBFS和Python,然後創建一個新的工作任務和命令行參數運行腳本。
我希望這可以幫助!讓我知道如果你有任何進一步的問題。