取消
顯示的結果
而不是尋找
你的意思是:

Apache火花熟練

SamAWS
新的貢獻者二世

最好的方法是什麼精通Apache火花?

1接受解決方案

接受的解決方案

Kaniz
社區經理
社區經理

@SamAWS,

成為精通Apache火花™,明顯在磚社區利用可用資源,遵循這些步驟:

  1. 開始使用磚社區:

    • 注冊一個磚社區帳戶如果你沒了。
    • 探索磚平台接口來熟悉它的布局和功能。Beplay体育安卓版本
  2. 訪問學習資源:

    • 磚提供了豐富的文檔和教程,涵蓋範圍廣泛的主題與Apache引發™。
    • 利用磚“工作區”訪問筆記本和學習資料。從提供的例子和教程開始。
  3. 互動筆記本:

    • 磚的筆記本是一個強大的學習方法和試驗火花。
    • 首先運行簡單的代碼片段來理解基本的火花的DataFrame API和抽樣(彈性分布式數據集)。
  4. 在線課程和認證:

    • 磚提供在線課程和認證,可以顯著加速您的學習過程。
    • 把課程火花必需品,數據工程,機器學習與火花,等等。
  5. 來自社區的協作和學習:

    • 磚社區有一個活躍的論壇,你可以提問,分享見解,從其他用戶。
    • 參與社區解決問題並討論最佳實踐。
  6. 實踐項目:

    • 使用你學過的東西,在實際項目工作。磚允許您創建和管理集群來處理數據。
  7. 性能優化:

    • 深入引發的性能優化技術。磚為監測和分析火花工作提供了工具。
  8. 高級的主題:

    • 一旦你熟悉了基礎,探索更高級的主題,如結構化流、圖像處理和深度學習與火花。
  9. 保持更新:

    • 按照磚的官方博客,發布說明保持更新最新的特性和增強功能。
  10. 網絡:

    • 參加磚在線研討會、會議和聚會聯係專業人士和其他數據從他們的經驗中學習。

記住,成為精通Apache火花™需要時間和實踐。磚社區提供了一個優秀的學習平台,實驗,增長你的火花技能。Beplay体育安卓版本祝你好運在你的學習之旅!

在原帖子查看解決方案

4回複4

Kaniz
社區經理
社區經理

@SamAWS,

成為精通Apache火花™,明顯在磚社區利用可用資源,遵循這些步驟:

  1. 開始使用磚社區:

    • 注冊一個磚社區帳戶如果你沒了。
    • 探索磚平台接口來熟悉它的布局和功能。Beplay体育安卓版本
  2. 訪問學習資源:

    • 磚提供了豐富的文檔和教程,涵蓋範圍廣泛的主題與Apache引發™。
    • 利用磚“工作區”訪問筆記本和學習資料。從提供的例子和教程開始。
  3. 互動筆記本:

    • 磚的筆記本是一個強大的學習方法和試驗火花。
    • 首先運行簡單的代碼片段來理解基本的火花的DataFrame API和抽樣(彈性分布式數據集)。
  4. 在線課程和認證:

    • 磚提供在線課程和認證,可以顯著加速您的學習過程。
    • 把課程火花必需品,數據工程,機器學習與火花,等等。
  5. 來自社區的協作和學習:

    • 磚社區有一個活躍的論壇,你可以提問,分享見解,從其他用戶。
    • 參與社區解決問題並討論最佳實踐。
  6. 實踐項目:

    • 使用你學過的東西,在實際項目工作。磚允許您創建和管理集群來處理數據。
  7. 性能優化:

    • 深入引發的性能優化技術。磚為監測和分析火花工作提供了工具。
  8. 高級的主題:

    • 一旦你熟悉了基礎,探索更高級的主題,如結構化流、圖像處理和深度學習與火花。
  9. 保持更新:

    • 按照磚的官方博客,發布說明保持更新最新的特性和增強功能。
  10. 網絡:

    • 參加磚在線研討會、會議和聚會聯係專業人士和其他數據從他們的經驗中學習。

記住,成為精通Apache火花™需要時間和實踐。磚社區提供了一個優秀的學習平台,實驗,增長你的火花技能。Beplay体育安卓版本祝你好運在你的學習之旅!

SamAWS
新的貢獻者二世

非常感謝你回答我的問題。
基於你的經驗。我應該使用Scala或Python數據工程?

SamAWS
新的貢獻者二世

謝謝你的快速反應。

Kaniz
社區經理
社區經理

@SamAWS,Scala和Python數據工程之間的選擇取決於多種因素,如特定的用例,團隊的專業知識,和任務的性質。

這是兩種語言的對比基礎上提供的信息:

1。Scala * * * *:
- Scala是產於Apache火花™的生態係統,這磚是建立在。這意味著Scala可以提供更好的性能和獲得的最新特性引發API (https://docs.m.eheci.com/getting-started/dataframes-scala.html))。
——可以使用Scala磚SDK提供了一個全麵的開發環境和工具如IntelliJ IDEA((文檔:sdk-java) (https://docs.m.eheci.com/dev-tools/sdk-java.html))。
——然而,Scala有一些限製,比如Scala udf沒有被包含在特定的預覽和不支持加密數據在某些管道(https://docs.google.com/document/d/1UEIUrz22w8TiwAo-q1ZMbDv_m4AlEkHvJ6QPE6OUUQY/))。

2。Python * * * *:
Python是廣泛應用於數據科學社區和一個豐富的生態係統,數據操作和分析庫和工具(https://docs.m.eheci.com/languages/index.html)。
——Python可用於ETL和數據在磚工程任務,提供一個健壯的ETL經驗(https://docs.m.eheci.com/introduction/index.html))。
——支持Python UDF和推薦給特定的任務,Scala UDF不是([文檔UDF問題統一目錄):https://docs.google.com/document/d/1UEIUrz22w8TiwAo-q1ZMbDv_m4AlEkHvJ6QPE6OUUQY/))。

總之,兩種語言都支持,可以有效地用於數據工程磚,Scala和Python之間的選擇將取決於您的項目的具體要求和約束。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map