如果您想分析特定集群上節點之間的網絡流量,可以在集群上安裝tcpdump,並使用它將網絡數據包詳細信息轉儲到pcap文件中。然後可以將pcap文件下載到本地機器進行分析。
創建tcpdump init腳本
在集群上的筆記本上運行這個示例腳本以創建init腳本。
%python dbutils.fs.put("dbfs://databricks//tcp_dump.sh",""" #!/bin/bash DB_CLUSTER_ID = $ (echo $主機名| awk - f”——“‘{打印1美元”——“2”,“3美元}”)如果[[!-d /dbfs/databricks/tcpdump/${DB_CLUSTER_ID}]];那麼sudo mkdir -p /dbfs/databricks/tcpdump/${DB_CLUSTER_ID} fi BASEDIR="/dbfs/databricks/tcpdump/${DB_CLUSTER_ID}" mkdir -p ${BASEDIR} MYIP=$(ip route get 10 | awk '{print $NF;exit}') echo "正在啟動tcpdump" sudo tcpdump -w ${BASEDIR}/trace_%Y_%m_%d_%H_% m_% S_${MYIP}。pcap -W 1000 -G 1800 -C 200 & echo " initiinitialtcpdump """", True)
記住初始化腳本的路徑。在配置集群時將需要它。
配置init腳本
按照文檔配置集群範圍的初始化腳本(AWS|Azure|GCP).
指定初始化腳本的路徑。使用在示例腳本中使用的相同路徑(dbfs: / /磚/ < path-to-init-script > / tcp_dump.sh)
初始化腳本配置完成後,需要重啟集群。
定位pcap文件
一旦集群啟動,它就會自動開始創建pcap文件,其中包含記錄的網絡信息。
pcap文件位於該文件夾中dbfs: / /磚/ tcpdump / $ {< cluster-id >}.
下載pcap文件
將pcap文件下載到本地主機進行分析。
有多種方法可以將文件下載到本地計算機。其中一個選項是Databricks CLI (AWS|Azure).