我是按照這個筆記本發現從這個文章。我試圖微調模型與單個節點和多個gpu,所以我一切跑到“運行本地培訓”部分,但從那裏我跳過“運行分布式訓練與多個gpu在單個節點上”。當我運行第一塊,我得到這個錯誤:
培訓期間RuntimeError: TorchDistributor失敗。查看詳細的錯誤message. stdout日誌”
下麵是我看到的全部輸出代碼塊:
' ' '
我們用4 gpu
開始當地培訓4流程
警告:__main__:
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *
OMP_NUM_THREADS環境變量設置為每個流程是1在默認情況下,為了避免您的係統過載,請進一步調優應用程序中的變量最優性能。
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *
2023-08-22 19:31:47.794586:我tensorflow /核心/平台/Beplay体育安卓版本 cpu_feature_guard。答:193]這個TensorFlow二進製優化oneAPI深層神經網絡庫(oneDNN)使用以下性能關鍵的操作:CPU指令AVX2菲利普-馬薩
使他們在其他操作,重建TensorFlow與相應的編譯器標誌。
2023-08-22 19:31:47.809864:我tensorflow /核心/平台/Beplay体育安卓版本 cpu_feature_guard。答:193]這個TensorFlow二進製優化oneAPI深層神經網絡庫(oneDNN)使用以下性能關鍵的操作:CPU指令AVX2菲利普-馬薩
使他們在其他操作,重建TensorFlow與相應的編譯器標誌。
2023-08-22 19:31:47.824423:我tensorflow /核心/平台/Beplay体育安卓版本 cpu_feature_guard。答:193]這個TensorFlow二進製優化oneAPI深層神經網絡庫(oneDNN)使用以下性能關鍵的操作:CPU指令AVX2菲利普-馬薩
使他們在其他操作,重建TensorFlow與相應的編譯器標誌。
2023-08-22 19:31:47.828933:我tensorflow /核心/平台/Beplay体育安卓版本 cpu_feature_guard。答:193]這個TensorFlow二進製優化oneAPI深層神經網絡庫(oneDNN)使用以下性能關鍵的操作:CPU指令AVX2菲利普-馬薩
使他們在其他操作,重建TensorFlow與相應的編譯器標誌。
/磚/ python / lib / python3.10 /網站/變壓器/優化。py: 407: FutureWarning:這個實現AdamW的棄用,在未來的版本將被刪除。使用torch.optim PyTorch實現。AdamW相反,或設置禁用這個警告no_deprecation_warning = True
warnings.warn (
/磚/ python / lib / python3.10 /網站/變壓器/優化。py: 407: FutureWarning:這個實現AdamW的棄用,在未來的版本將被刪除。使用torch.optim PyTorch實現。AdamW相反,或設置禁用這個警告no_deprecation_warning = True
warnings.warn (
/磚/ python / lib / python3.10 /網站/變壓器/優化。py: 407: FutureWarning:這個實現AdamW的棄用,在未來的版本將被刪除。使用torch.optim PyTorch實現。AdamW相反,或設置禁用這個警告no_deprecation_warning = True
warnings.warn (
/磚/ python / lib / python3.10 /網站/變壓器/優化。py: 407: FutureWarning:這個實現AdamW的棄用,在未來的版本將被刪除。使用torch.optim PyTorch實現。AdamW相反,或設置禁用這個警告no_deprecation_warning = True
warnings.warn (
你使用DistilBertTokenizerFast記號賦予器。請注意,快速分詞器,使用“__call__”方法的速度比使用方法來編碼文本之後,調用“墊”方法得到的編碼。
你使用DistilBertTokenizerFast記號賦予器。請注意,快速分詞器,使用“__call__”方法的速度比使用方法來編碼文本之後,調用“墊”方法得到的編碼。
你使用DistilBertTokenizerFast記號賦予器。請注意,快速分詞器,使用“__call__”方法的速度比使用方法來編碼文本之後,調用“墊”方法得到的編碼。
回溯(最近的電話):
文件“/ tmp / tmpz1ss252g /火車。py”, 8號線,在<模塊>
輸出= train_fn (* args)
文件“命令- 2821949673242075 > <”,在train_model線46歲
文件“/磚/ python / lib / python3.10 /網站/變壓器/教練。py”, 1664行,在火車
返回inner_training_loop (
文件“/磚/ python / lib / python3.10 /網站/變壓器/教練。在_inner_training_loop py”, 1855行
自我。控製= self.callback_handler。on_train_begin (args,自我。狀態,self.control)
文件“/磚/ python / lib / python3.10 /網站/變壓器/ trainer_callback。在on_train_begin py”, 353行
回歸自我。call_event (“on_train_begin”、參數、狀態、控製)
文件“/磚/ python / lib / python3.10 /網站/變壓器/ trainer_callback。在call_event py”, 397行
結果= getattr(回調、事件)(
文件“/磚/ python / lib / python3.10 /網站/變壓器/集成。在on_train_begin py”, 1021行
自我。設置(參數、狀態模型)
文件“/磚/ python / lib / python3.10 /網站/變壓器/集成。py”,第990行設置
self._ml_flow.start_run (run_name = args.run_name,嵌套= self._nested_run)
文件“/磚/ python / lib / python3.10 /網站/ mlflow /跟蹤/流利。在start_run py”, 363行
active_run_obj = client.create_run (
文件“/磚/ python / lib / python3.10 /網站/ mlflow /跟蹤/客戶端。在create_run py”, 326行
self._tracking_client返回。create_run (experiment_id start_time、標簽、run_name)
文件“/磚/ python / lib / python3.10 /網站/ mlflow /跟蹤/ _tracking_service /客戶端。在create_run py”, 133行
返回self.store.create_run (
文件“/磚/ python / lib / python3.10 /網站/ mlflow /存儲/跟蹤/ rest_store。在create_run py”, 178行
response_proto =自我。_call_endpoint (CreateRun req_body)
文件“/磚/ python / lib / python3.10 /網站/ mlflow /存儲/跟蹤/ rest_store。在_call_endpoint py”線59歲
端點,返回call_endpoint (self.get_host_creds()方法,json_body, response_proto)
文件“/磚/ python / lib / python3.10 /網站/ mlflow / databricks_utils跑龍套。在get_databricks_host_creds py”, 422行
配置= provider.get_config ()
文件“/磚/ python / lib / python3.10 /網站/ databricks_cli /配置/提供者。在get_config py”, 134行
提高InvalidConfigurationError.for_profile(沒有)
databricks_cli.utils。InvalidConfigurationError:你還沒有配置CLI !請配置通過輸入“/ tmp / tmpz1ss252g /火車。py配置”
警告:torch.distributed.elastic.multiprocessing。api: 2572年收盤SIGTERM信號發送過程
警告:torch.distributed.elastic.multiprocessing。api: 2573年收盤SIGTERM信號發送過程
警告:torch.distributed.elastic.multiprocessing。api: 2574年收盤SIGTERM信號發送過程
錯誤:torch.distributed.elastic.multiprocessing。api:失敗(exitcode: 1) local_rank: 0(二進製:pid: 2571) / local_disk0 / .ephemeral_nfs / env / pythonenv - 3 - b3dff80 - 496 - 9684 - 4 - c7d b04a17a299d3 / bin / python
回溯(最近的電話):
文件“/ usr / lib / python3.10 / runpy。在_run_module_as_main py”, 196行
返回_run_code(代碼、main_globals沒有,
文件“/ usr / lib / python3.10 / runpy。在_run_code py”, 86行
run_globals exec(代碼)
文件“/磚/ python / lib / python3.10 /網站/火炬/分布式運行。py”, 766行,在<模塊>
main ()
文件“/磚/ python / lib / python3.10 /網站/火炬/分布式/彈性/多處理/錯誤/ __init__。py”, 346行,在包裝
返回f (* args, * * kwargs)
文件“/磚/ python / lib / python3.10 /網站/火炬/分布式運行。py”, 762行,在主
運行(args)
文件“/磚/ python / lib / python3.10 /網站/火炬/分布式運行。py”, 753行,在運行
elastic_launch (
文件“/磚/ python / lib / python3.10 /網站/火炬/分布式/發射器/ api。在__call__ py”, 132行
返回launch_agent(自我。_config,自我。_entrypoint、列表(args))
文件“/磚/ python / lib / python3.10 /網站/火炬/分布式/發射器/ api。在launch_agent py”, 246行
提高ChildFailedError (
torch.distributed.elastic.multiprocessing.errors.ChildFailedError:
= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =
/ tmp / tmpz1ss252g /火車。py失敗
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
故障:
< NO_OTHER_FAILURES >
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
根本原因(首次發現失敗):
[0]:
時間:2023 - 08 - 22 - _19:31:58
主持人:0821 - 144503 - em46c4jc 10 - 52 - 237 - 200
等級:0 (local_rank: 0)
exitcode: 1 (pid: 2571)
error_file: < N / A >
回溯:啟用回溯看到:https://pytorch.org/docs/stable/elastic/errors.html
= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =
' ' '
我需要讓更多的回溯看到更多的錯誤?我需要配置CLI,不管那是什麼意思?有什麼非常明顯我隻是失蹤?
我使用g5.12xlarge 4 GPU,和我的磚的運行時版本的13.2毫升(包括Apache火花3.4.0,GPU, Scala 2.12)”。我從磚中運行這個筆記本。