兩個星期前
我有代碼文件(.hql)在s3中運行在蜂巢。但是現在,我需要在磚集群上運行它們。我可以將文件重命名為. sql和添加評論”——磚筆記本源”的文件將他們視為單細胞筆記本。但是我沒有得到直接運行該文件數據磚。我也沒有看到任何方式將多個文件從s3磚工作空間運行筆記本隻支持在兩個方麵——工作區或Git。
@Kratik您可以使用Python從目錄中讀取這些文件和文件的內容在一個變量中。
您可以使用這個變量在火花sql語句如下:
% python文件的讀文件sql_contents =內容spark.sql (sql_contents)
附上這一方法,可以使用它在一個for循環遍曆所有的文件你有在你的目錄。
兩個星期前——最後一次編輯兩個星期前
這是一個選擇。但我覺得這不是最好的方法。以防有一些垃圾字符或特殊字符,可能有東西幾率損壞或文件完全不讀。
還我的每個SQL有多個變量,需要在運行時作為參數傳遞。所以我更願意作為一個文件運行它們。
嗨,你可以連接到S3和得到的文件,然後運行它,:https://docs.m.eheci.com/storage/amazon-s3.html讓我們知道如果這有助於預計或別的東西嗎?
請標記@Debayan與你的下一個評論會通知我。謝謝!
@Debayan
你建議的方法是用於訪問S3在筆記本上的文件。我目標實現的是執行文件直接在S3磚集群上的筆記本。顯然認識到SQL文件作為數據磚的筆記本,我將添加評論——磚筆記本的來源。
我的每個SQL文件有多個變量,需要在運行時傳遞。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。