跳轉到主要內容
工程的博客

磚❤️擁抱的臉

培訓和調優快40%的大型語言模型
分享這篇文章

生成AI已經在全世界流行風暴。作為數據和AI公司,我們一直在這旅程開放源碼的發布大型語言模型多莉內部,以及眾包數據集研究和商業使用許可使用微調,databricks-dolly-15k。模型和數據集都可以擁抱臉上。我們學到了很多在整個過程中,今天我們興奮地宣布我們的第一個正式提交的擁抱臉代碼庫,允許用戶輕鬆地創建一個擁抱麵臨來自Apache火花™數據集dataframe。

“這是高興見到磚釋放模型和數據集的社區,現在我們看到他們延長工作直接擁抱開源承諾的臉。火花是一種最高效的引擎處理數據規模,很高興看到,用戶現在可以受益於這種技術更有效地調整模型從擁抱的臉。”
——Clem Delange,擁抱的臉CEO

擁抱的臉得到一流的火花的支持

在過去幾周,我們得到了許多來自用戶的請求要求一種更簡單的方法將他們的火花dataframe加載到一個擁抱麵臨數據集,可以用於模型培訓或調優。今天的發布之前,獲取數據從一個火花dataframe變成一個擁抱麵臨數據集,用戶必須為拚花文件寫數據,然後點擁抱麵臨數據集這些文件重新加載它們。例如:

數據集進口load_datasettrain_df = train.write。拚花(train_dbfs_path模式=“覆蓋”)train_test = load_dataset (“鋪”data_file = {“訓練”:f / dbfs{train_dbfs_path}/ * .parquet”,“測試”:f / dbfs{test_dbfs_path}/ * .parquet”})# 16 gb = = 22分鍾

這不僅是繁瑣的,但它也意味著數據被寫入到磁盤,然後再讀。最重要的是,這些數據會rematerialized一旦加載回數據集,這樣會浪費更多的資源和,因此,更多的時間和成本。使用這種方法,我們看到一個相對較小的數據集(16 gb)花了22分鍾從火花dataframe拚花,然後回到擁抱麵臨數據集。

最新的擁抱臉釋放,我們讓用戶更簡單的完成相同的任務,隻需調用數據集的新“from_spark”功能:

數據導入數據集df=(一些火花dataframeδ加載df)數據集=Dataset.from_spark (df)#16GB==12最小值

這允許用戶使用火花有效負載為培訓或微調模型和轉換數據,然後方便地映射火花dataframe變成超級簡單的擁抱麵臨數據集成到他們的培訓管道。這將節省成本和速度從火花和優化內存映射和智能緩存擁抱麵臨數據集。這些改進降低我們的示例16 gb數據集的處理時間超過40%,從22分鍾降至隻有12分鍾。

為什麼這很重要?

我們過渡到這個新的人工智能模式,組織將需要使用他們的極有價值的數據,以增加他們的人工智能模型,如果他們想在其特定領域獲得最佳性能。這幾乎肯定會需要在數據轉換的形式工作,和這樣做有效的大型數據集是火花是做設計的。將引發與擁抱的臉給你引發的成本效益和性能,同時保留擁抱臉提供管道集成。

開源的繼續支持

我們看到這個版本的新途徑,進一步導致開源社區,我們相信擁抱的臉確實非常好,因為它已經成為了事實上的開源模型的存儲庫和數據集。這隻是許多貢獻的第一。我們已經計劃增加通過火花流支持數據集加載更快。

為了成為最好的平台,用戶進入人工智能的世界,我們努力提供Beplay体育安卓版本最好的工具來成功地訓練,調整和部署模型。不僅會繼續導致擁抱的臉,但我們也開始釋放改善我們其他的開源項目。最近的一次MLflow釋放增加了對《變形金剛》的支持庫,OpenAI集成和Langchain支持。我們還宣布人工智能功能在磚SQL,讓用戶方便地集成OpenAI(或將來自己的部署模型)到他們的查詢。最糟糕的是,我們也發布了PyTorch經銷商為火花來簡化分布式PyTorch培訓磚。

我們也會探索llm的世界裏,包括如何建立、訓練和部署自己的,數據+人工智能峰會。注冊在這裏加入我們幾乎或麵對麵!

更多地了解生成人工智能為自己以及如何利用llm,看我們的按需網絡研討會在這裏

免費試著磚

相關的帖子

看到所有開源的帖子
Baidu
map