pyspark.SparkContext¶
-
類
pyspark。
SparkContext
( 主:可選(str) =沒有,瀏覽器名稱:可選(str) =沒有,sparkHome:可選(str) =沒有,pyFiles:可選列表(str) = None,環境:可選(Dict (str,任何]]=沒有,batchSize: int = 0,序列化器:pyspark.serializers。序列化器= CloudPickleSerializer (),設計:可選(pyspark.conf。SparkConf] =沒有,(py4j.java_gateway網關:可選。JavaGateway] =沒有,(py4j.java_gateway jsc:可選。JavaObject] =沒有,profiler_cls: [pyspark.profiler類型。BasicProfiler] = <類“pyspark.profiler.BasicProfiler”>,udf_profiler_cls: [pyspark.profiler類型。UDFBasicProfiler] = <類“pyspark.profiler.UDFBasicProfiler”> ) ¶ -
主要入口點火花的功能。SparkContext代表連接火花集群,並可用於創建
抽樣
和廣播變量集群。當你創建一個新的SparkContext,至少掌握和應用程序名稱應該設置,通過這裏的命名參數或通過相依。
- 參數
-
- 主 str,可選
-
集群要連接的URL(例如,便:/ /主持人:港口,火花:/ /主持人:港口,當地[4])。
- 瀏覽器名稱 str,可選
-
一個名字為你工作,集群web UI上顯示。
- sparkHome str,可選
-
火花集群節點上安裝的位置。
- pyFiles 列表中,選
-
收藏的. zip或. py文件發送到集群和添加到PYTHONPATH環境。這些可以在本地文件係統路徑或HDFS, HTTP、HTTPS、FTP url。
- 環境 東西,可選
-
字典的工作節點上設置環境變量。
- batchSize int,可選
-
Python對象的數量表示為一個Java對象。設置1禁用批處理,0自動選擇基於對象大小批量大小,或1使用無限批量大小
-
序列化器
pyspark.serializers.Serializer
、可選 -
抽樣的序列化器。
-
相依
pyspark.SparkConf
、可選 -
一個對象設置引發屬性。
-
網關
py4j.java_gateway.JavaGateway
、可選 -
使用現有的網關和JVM,否則一個新的JVM將被實例化。這隻是內部使用。
-
約翰遜航天中心
py4j.java_gateway.JavaObject
、可選 -
JavaSparkContext實例。這隻是內部使用。
- profiler_cls 類型,可選
-
一個類的自定義配置(默認是分析器使用
pyspark.profiler.BasicProfiler
)。 - udf_profiler_cls 類型,可選
-
類的自定義分析器udf分析(默認是使用
pyspark.profiler.UDFBasicProfiler
)。
筆記
隻有一個
SparkContext
應該每個JVM活躍。你必須stop ()活動SparkContext
在創建一個新的。SparkContext
實例不支持跨多個過程的分享,和PySpark並不能保證多處理執行。使用線程的並發處理的目的。例子
> > >從pyspark.context進口SparkContext> > >sc=SparkContext(“本地”,“測試”)> > >星際2=SparkContext(“本地”,“test2”)回溯(最近的電話):…ValueError:…
方法
蓄電池
(價值[accum_param])創建一個
蓄電池
用給定的初始值,使用一個給定的AccumulatorParam
helper對象定義如何添加值的數據類型。addArchive
(路徑)添加一個檔案下載這個火花每一個節點上工作。
addClusterWideLibraryToPath
(庫名)addFile
(路徑(遞歸)添加一個文件下載,這引發的工作在每一個節點。
addIsolatedLibraryPath
(庫名).egg, . zip或. jar庫的路徑添加到係統。路徑,and add it to _python_includes for passing it to executor.
addPyFile
(路徑)添加一個. py或zip依賴這SparkContext上執行所有任務。
binaryFiles
(路徑[minPartitions])從HDFS讀取二進製文件的目錄,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI作為一個字節數組。
binaryRecords
(recordLength路徑)加載數據從一個平坦的二進製文件,假設每個記錄是一組數字與指定的數值格式(見ByteBuffer),和每個記錄的字節數是恒定的。
廣播
(值)廣播一個隻讀變量到集群,返回
廣播
對象閱讀它在分布式功能。取消所有的工作計劃或正在運行。
cancelJobGroup
(groupId)取消指定集團積極工作。
dump_profiles
(路徑)概要文件轉儲數據目錄路徑
emptyRDD
()創建一個抽樣沒有分區或元素。
返回目錄抽樣檢查點。
getConf
()getLocalProperty
(關鍵)當地房地產在這個線程,或null如果是失蹤。
getOrCreate
([設計])獲取或實例化一個SparkContext並注冊它作為一個單例對象。
hadoopFile
(路徑、inputFormatClass keyClass…)讀一個“老”具有任意鍵和值的Hadoop InputFormat類HDFS,本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。
hadoopRDD
(keyClass inputFormatClass valueClass)讀一個“老”具有任意鍵和值的Hadoop InputFormat類,從任意Hadoop配置,這是作為一個Python字典傳遞
init_batched_serializer
(數據(,numSlices))Init成批序列化器和數據並行處理成一個抽樣numSlices批量大小。
newAPIHadoopFile
(路徑、inputFormatClass…)閱讀的新API具有任意鍵和值的Hadoop InputFormat類從HDFS,本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。
newAPIHadoopRDD
(keyClass inputFormatClass…)閱讀的新API具有任意鍵和值的Hadoop InputFormat類,從任意Hadoop配置,這是作為一個Python字典傳遞
並行化
(c [, numSlices])分配一個本地Python集合形成一個抽樣。
pickleFile
(名字[minPartitions])加載一個抽樣之前保存使用
RDD.saveAsPickleFile ()
方法。範圍
(開始、結束步驟,numSlices])創建一個新的包含元素從抽樣的int開始來結束(獨家),增加了一步每一個元素。
runJob
(抽樣,partitionFunc[,分區,…))執行給定partitionFunc指定的分區上,返回結果的數組元素。
sequenceFile
(路徑,valueClass keyClass…))讀了Hadoop SequenceFile任意鍵和值可寫的類從HDFS,本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。
setCheckpointDir
(目錄名)設置的目錄抽樣將檢查點。
設置一個人類可讀的描述當前的工作。
setJobGroup
(groupId,描述[…])分配一個組ID的所有工作開始由這個線程,直到組ID設置為不同的值或清除。
setLocalProperty
(關鍵字,值)設置本地屬性影響工作從這個線程提交,如火花公平調度器池。
setLogLevel
(logLevel)控製我們的logLevel。
setSystemProperty
(關鍵字,值)設置一個Java係統屬性,如spark.executor.memory。
打印配置文件數據發送到stdout
獲得用戶的SPARK_USER SparkContext運行。
返回
StatusTracker
對象停止
()關閉SparkContext。
文本文件
(名稱、minPartitions use_unicode])從HDFS讀取一個文本文件,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI,並返回一個字符串抽樣。
聯盟
(抽樣)建立聯盟的抽樣的列表。
wholeTextFiles
(道路、minPartitions…)從HDFS讀取文本文件的目錄,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。
屬性
火花的惟一標識符的應用程序。
默認最小數量的分區Hadoop抽樣時由用戶
默認級別的並行使用時由用戶(如。
返回時代火花上下文時就開始了。
返回的URL由這個SparkContext SparkUI實例開始
火花的版本運行該應用程序。