這就跟你問聲好!我有幾個小並行運行的工作,我希望他們在同一集群上運行:
——任務類型Python腳本:我發送這樣的參數運行pyspark腳本。
——工作計算集群創建UI)(複製JSON數據磚工作
我怎樣才能實現,如果我發送5的工作他們都運行在相同的實例集群而不是實例5集群?
{“num_workers”: 2,“cluster_name”:“”,“spark_version”:“12.2.x-scala2.12”、“spark_conf”: {},“aws_attributes”: {“first_on_demand”: 1、“可用性”:“SPOT_WITH_FALLBACK”、“zone_id”:“us-east-1d”、“instance_profile_arn”:“xxxx”、“spot_bid_price_percent”: 80年,“ebs_volume_type”:“GENERAL_PURPOSE_SSD”、“ebs_volume_count”: 1、“ebs_volume_size”: 100},“node_type_id”:“c5.2xlarge”、“driver_node_type_id”:“m5a。大”、“ssh_public_keys”: [],“spark_env_vars ": {},“enable_elastic_disk”:假的,”cluster_source”:“工作”、“init_scripts”: [],“data_security_mode”:“沒有一個”}
謝謝!
不幸的是,集群並行運行多個作業使用單一工作不支持(還)。新磚的可能性創造工作,協調多個崗位。然而這些工作將仍然使用自己的集群(配置)。
在實例化的時候一個集群需要更長的時間比執行一個實際的工作,你可以考慮使用“通用”集群。取決於你的用例也可以重寫/配置5工作到一個5的工作任務。