pyspark.SparkContext

pyspark。 SparkContext ( 主:可選(str) =沒有,瀏覽器名稱:可選(str) =沒有,sparkHome:可選(str) =沒有,pyFiles:可選列表(str) = None,環境:可選(Dict (str,任何]]=沒有,batchSize: int = 0,序列化器:pyspark.serializers。序列化器= CloudPickleSerializer (),設計:可選(pyspark.conf。SparkConf] =沒有,(py4j.java_gateway網關:可選。JavaGateway] =沒有,(py4j.java_gateway jsc:可選。JavaObject] =沒有,profiler_cls: [pyspark.profiler類型。BasicProfiler] = <類“pyspark.profiler.BasicProfiler”>,udf_profiler_cls: [pyspark.profiler類型。UDFBasicProfiler] = <類“pyspark.profiler.UDFBasicProfiler”> )

主要入口點火花的功能。SparkContext代表連接火花集群,並可用於創建抽樣和廣播變量集群。

當你創建一個新的SparkContext,至少掌握和應用程序名稱應該設置,通過這裏的命名參數或通過相依

參數
str,可選

集群要連接的URL(例如,便:/ /主持人:港口,火花:/ /主持人:港口,當地[4])。

瀏覽器名稱 str,可選

一個名字為你工作,集群web UI上顯示。

sparkHome str,可選

火花集群節點上安裝的位置。

pyFiles 列表中,選

收藏的. zip或. py文件發送到集群和添加到PYTHONPATH環境。這些可以在本地文件係統路徑或HDFS, HTTP、HTTPS、FTP url。

環境 東西,可選

字典的工作節點上設置環境變量。

batchSize int,可選

Python對象的數量表示為一個Java對象。設置1禁用批處理,0自動選擇基於對象大小批量大小,或1使用無限批量大小

序列化器 pyspark.serializers.Serializer、可選

抽樣的序列化器。

相依 pyspark.SparkConf、可選

一個對象設置引發屬性。

網關 py4j.java_gateway.JavaGateway、可選

使用現有的網關和JVM,否則一個新的JVM將被實例化。這隻是內部使用。

約翰遜航天中心 py4j.java_gateway.JavaObject、可選

JavaSparkContext實例。這隻是內部使用。

profiler_cls 類型,可選

一個類的自定義配置(默認是分析器使用pyspark.profiler.BasicProfiler)。

udf_profiler_cls 類型,可選

類的自定義分析器udf分析(默認是使用pyspark.profiler.UDFBasicProfiler)。

筆記

隻有一個SparkContext應該每個JVM活躍。你必須stop ()活動SparkContext在創建一個新的。

SparkContext實例不支持跨多個過程的分享,和PySpark並不能保證多處理執行。使用線程的並發處理的目的。

例子

> > >pyspark.context進口SparkContext> > >sc=SparkContext(“本地”,“測試”)> > >星際2=SparkContext(“本地”,“test2”)回溯(最近的電話):ValueError:

方法

蓄電池(價值[accum_param])

創建一個蓄電池用給定的初始值,使用一個給定的AccumulatorParamhelper對象定義如何添加值的數據類型。

addArchive(路徑)

添加一個檔案下載這個火花每一個節點上工作。

addClusterWideLibraryToPath(庫名)

addFile(路徑(遞歸)

添加一個文件下載,這引發的工作在每一個節點。

addIsolatedLibraryPath(庫名)

.egg, . zip或. jar庫的路徑添加到係統。路徑,and add it to _python_includes for passing it to executor.

addPyFile(路徑)

添加一個. py或zip依賴這SparkContext上執行所有任務。

binaryFiles(路徑[minPartitions])

從HDFS讀取二進製文件的目錄,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI作為一個字節數組。

binaryRecords(recordLength路徑)

加載數據從一個平坦的二進製文件,假設每個記錄是一組數字與指定的數值格式(見ByteBuffer),和每個記錄的字節數是恒定的。

廣播(值)

廣播一個隻讀變量到集群,返回廣播對象閱讀它在分布式功能。

cancelAllJobs()

取消所有的工作計劃或正在運行。

cancelJobGroup(groupId)

取消指定集團積極工作。

dump_profiles(路徑)

概要文件轉儲數據目錄路徑

emptyRDD()

創建一個抽樣沒有分區或元素。

getCheckpointDir()

返回目錄抽樣檢查點。

getConf()

getLocalProperty(關鍵)

當地房地產在這個線程,或null如果是失蹤。

getOrCreate([設計])

獲取或實例化一個SparkContext並注冊它作為一個單例對象。

hadoopFile(路徑、inputFormatClass keyClass…)

讀一個“老”具有任意鍵和值的Hadoop InputFormat類HDFS,本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。

hadoopRDD(keyClass inputFormatClass valueClass)

讀一個“老”具有任意鍵和值的Hadoop InputFormat類,從任意Hadoop配置,這是作為一個Python字典傳遞

init_batched_serializer(數據(,numSlices))

Init成批序列化器和數據並行處理成一個抽樣numSlices批量大小。

newAPIHadoopFile(路徑、inputFormatClass…)

閱讀的新API具有任意鍵和值的Hadoop InputFormat類從HDFS,本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。

newAPIHadoopRDD(keyClass inputFormatClass…)

閱讀的新API具有任意鍵和值的Hadoop InputFormat類,從任意Hadoop配置,這是作為一個Python字典傳遞

並行化(c [, numSlices])

分配一個本地Python集合形成一個抽樣。

pickleFile(名字[minPartitions])

加載一個抽樣之前保存使用RDD.saveAsPickleFile ()方法。

範圍(開始、結束步驟,numSlices])

創建一個新的包含元素從抽樣的int開始結束(獨家),增加了一步每一個元素。

runJob(抽樣,partitionFunc[,分區,…))

執行給定partitionFunc指定的分區上,返回結果的數組元素。

sequenceFile(路徑,valueClass keyClass…))

讀了Hadoop SequenceFile任意鍵和值可寫的類從HDFS,本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。

setCheckpointDir(目錄名)

設置的目錄抽樣將檢查點。

setJobDescription(值)

設置一個人類可讀的描述當前的工作。

setJobGroup(groupId,描述[…])

分配一個組ID的所有工作開始由這個線程,直到組ID設置為不同的值或清除。

setLocalProperty(關鍵字,值)

設置本地屬性影響工作從這個線程提交,如火花公平調度器池。

setLogLevel(logLevel)

控製我們的logLevel。

setSystemProperty(關鍵字,值)

設置一個Java係統屬性,如spark.executor.memory。

show_profiles()

打印配置文件數據發送到stdout

sparkUser()

獲得用戶的SPARK_USER SparkContext運行。

statusTracker()

返回StatusTracker對象

停止()

關閉SparkContext。

文本文件(名稱、minPartitions use_unicode])

從HDFS讀取一個文本文件,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI,並返回一個字符串抽樣。

聯盟(抽樣)

建立聯盟的抽樣的列表。

wholeTextFiles(道路、minPartitions…)

從HDFS讀取文本文件的目錄,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。

屬性

PACKAGE_EXTENSIONS

applicationId

火花的惟一標識符的應用程序。

defaultMinPartitions

默認最小數量的分區Hadoop抽樣時由用戶

defaultParallelism

默認級別的並行使用時由用戶(如。

資源

開始時間

返回時代火花上下文時就開始了。

uiWebUrl

返回的URL由這個SparkContext SparkUI實例開始

版本

火花的版本運行該應用程序。