용어집

酸트랜잭션

트랜잭션이란무엇입니까?데이터베이스와데이터스토리지시스템이라는맥락에서트랜잭션이란한단위의작업으로취급되는모든작업을말합니다。트랜잭션은완전히완료되기도하고전혀완료되지않을수도있으며,스토리지시스템을한결같은상태로둡니다。고전적예는다음과같습니다。{. .}

AdaGrad

경사하강법(梯度下降)은머신러닝과딥러닝알고리즘에서가장보편적으로쓰이는최적화방식입니다。머신러닝모델을교육하는데쓰입니다。경사하강법의유형{. .}

대체데이터

대체데이터란무엇입니까?대체데이터(替代數據)는남들이사용하지않는,비일반적인정보출처를가리키는대안적(替代)데이터소스를사용해수집한정보입니다。대체데이터를분석하면업계의평범한데이터소스가제공할수있는범위를벗어난인사이트를{. .}

이상치탐지

이상치탐지(異常檢測)은나머지관측결과와는통계적으로달라의심을유발할수있는드문이벤트나관측결과를알아보는기법입니다。그러한”변칙”행동은보통신용카드사기행위,시스템오류나사이버공격등일종의문제점으로해석될때가많습니다。{. .}

Apache蜂巢

Apache Hive란무엇입니까?Apache蜂巢™는데이터웨어하우스소프트웨어의일종으로SQL을사용해분산된스토리지에상주하는대규모데이터세트의읽기,쓰기및관리를지원하는{. .}

Apache撚角羚

什麼是阿帕奇庫杜?Apache Kudu是為Apache Hadoop開發的免費、開源的柱狀存儲係統。它是一個用於支持低延遲隨機訪問的結構化數據的引擎{. .}

Apache麒麟

什麼是阿帕奇麒麟?Apache Kylin是一個用於交互式大數據分析的分布式開源在線分析處理(OLAP)引擎。Apache Kylin的設計提供了SQL接口和多維分析(OLAP){. .}

Apache火花

Apache Spark란?Apache Spark는빅데이터워크로드에쓰이는오픈소스분석엔진입니다。배치는물론실시간분석과데이터처리워크로드도처리할수있습니다。Apache火花는2009년캘리포니아대학교버클리캠퍼스에서연구프로젝트로시작되었습니다。{. .}

Apache Spark即服務

什麼是Apache Spark as a Service?Apache Spark是一個用於快速實時大規模數據處理的開源集群計算框架。自2009年在加州大學伯克利分校的AMPLab成立以來，Spark已經取得了長足的發展。它目前被評為最大的開源社區{. .}

공신경망(ann)

공신경망이란무엇입니까?인공신경망(人工神經網絡ANN)은사람의뇌속뉴런의작용을본떠패턴을구성한컴퓨팅시스템의일종입니다。공신경망은어떻게작동합니까?공신경망은가중치를적용한방향성{. .}

자동화편향

자동화편향이란무엇입니까?자동화편향(自動化偏見)은자동보조도구나의사결정지원시스템에지나치게의존하는것을말합니다。자동의사결정보조도구가널리보급되면서중환자실이나항공기조종석과같이중대한의사결정을내려야하는상황에서이런도구를이용하는사례가점점흔해지고{. .}

베이지신경망

베이지신경망이란무엇입니까?베이지안신경망(貝葉斯神經網絡(BNN)은과적합(過度擬合)을제어하기위해사후추론을사용해표준네트워크를연장한것을가리킵니다。넓은의미에서보면베이지방식은통계적방법론을사용하므로모든것에확률이{. .}

빅데이터분석

在Hadoop發明之前，支撐現代存儲和計算係統的技術是相對基礎的，這限製了公司的發展{. .}

생물정보학

(生物信息學)생물정보학이란생물학데이터를모은대규모컬렉션에서연산을통해지식을추출하는학문분야를말합니다。{. .}

催化劑優化器

Spark SQL의핵심은Catalyst Optimizer입니다。이것은지능형프로그래밍언어기능(예:Scala의패턴매칭과擬引用등)을참신한방식으로활용해확장할수있는쿼리최적화프로그램을구축합니다。Catalyst는Scala로쓴기능성프로그래밍구조를기반으로하며고할때{. .}

복합이벤트처리

什麼是複雜事件處理(CEP) ?複雜事件處理[CEP]也稱為事件、流或事件流處理，是使用技術在將數據存儲到數據庫之前查詢數據，或者在某些情況下，不存儲數據。複雜事件處理i{. .}

지속형애플리케이션

지속형애플리케이션(連續應用程序)은실시간으로데이터에반응하는종단간(E2E)애플리케이션입니다。특히개발자의경우별도의시스템에서현재처리중인지속형애플리케이션의여러측면(예를들어쿼리제공,배치작업과의상호작용)등을지원하기위해단한가지프로그래밍인터페이스를사용하고자합니다。{. .}

컨볼루셔널레이어

딥러닝에서컨볼루셔널신경망(卷積神經網絡,CNN또는事先)이란심층신경망의한등급으로,보통이미지속에존재하는패턴을인지하는데쓰이지만이외에공간데이터분석,컴퓨터비,전자연어처리,신호처리및여타다양한용도에도쓰입니다。{. .}

데이터분석플랫폼

什麼是數據分析平台?Beplay体育安卓版本數據分析平台是一個服務和技術的生態Beplay体育安卓版本係統，需要對大量、複雜和動態的數據進行分析，允許您檢索、組合、交互、探索和可視化來自公司各種來源的數據{. .}

데이터거버넌스

什麼是數據治理?數據治理是確保數據帶來價值並支持業務策略的監督。數據治理不僅僅是一個工具或過程。它使用跨人員的框架將與數據相關的需求與業務策略對齊{. .}

데이터레이크하우스

什麼是數據湖屋?數據湖屋是一種新的、開放的數據管理體係結構，它將數據湖的靈活性、成本效率和規模與數據倉庫的數據管理和ACID事務結合起來{. .}

데이터공유

什麼是數據共享?數據共享是將相同的數據提供給一個或多個消費者的能力。如今，不斷增長的數據量已經成為任何公司的戰略資產。共享數據-在組織內部或外部-是一種支持數據的技術{. .}

데이터웨어하우스

什麼是數據倉庫?數據倉庫是一種數據管理係統，它以業務友好的方式存儲來自多個來源的當前和曆史數據，以便更容易地進行洞察和報告。數據倉庫通常用於商業智能(BI)、報告和數據存儲{. .}

磚運行時

運行時은磚磚에서관리하는머신클러스터에서실행되는소프트웨어아티팩트세트입니다。여기에는火花도포함하지만이외에도여러구성요소와업데이트를추가하여빅데이터분석의사용성,성능과보안을대폭개선해줍니다。주된차별점은{. .}

DataFrames

DataFrame이란무엇입니까?DataFrame이란데이터를행과열로구성차된2원표(스프레드시트와비슷)로정리하는데이터구조입니다。DataFrame은최신데이터분석에서가장보편적으로쓰이는데이터구조중하나입니다。유연하고직관적방식으로{. .}

數據集

數據集는Spark의Java및Scala용구조적API의type-safe버전입니다。이Python API는과R에서는이용할수없는데,이둘은동적타이핑(動態)언어이기때문입니다。하지만Scala와Java에서대형애플리케이션을쓰는데에는아주강력한툴입니다。다시상기해보자면，DataFrames는분산형{. .}

深度學習

딥러닝이란무엇입니까?딥러닝은머신러닝의하위집합으로,특히사람의뇌구조와기능에서영감을얻은,알고리즘을포함한대량의데이터를다룹니다。그래서딥러닝모델을종종심층신경망이라고부르는것입니다。그래서{. .}

수전망

수예측이란무엇가?수예측은소비자수(=미래의수익)를예측하는과정입니다。특히，쇼핑객이구매할제품군을정량적데이터와정성적데이터를사용하여예측합니다。{. .}

밀집 텐서

밀집텐서는인접한순차적메모리블록에값을저장하는데,이곳에모든값이표시됩니다。텐서，즉다차원어레이는매우다양한다차원데이터분석애플리케이션에서사용됩니다。텐서연산을수행할줄아는소프트웨어제품은많습니다。{. .}

DNA서열

DNA서열이란무엇입니까?DNA서열은DNA(脫氧核糖核酸,디옥시리보핵산)의뉴클레오타이드(核苷酸)의정확한순서를판별하는과정입니다。DNA서열은네가지화학적기본요소인아데닌,구아닌,사이토신,티아민등일명”염기“의순서를정하는것으로,이는{. .}

Elasticsearch

Elasticsearch란무엇입니까?NoSQL, Elasticsearch는분산형데이터베이스의일종으로문서중심적,반구조적(半結構化)데이터를저장,검색하고관리합니다。또한오픈소스이고,Apache Lucene기반RESTful검색엔진이기도하며Apache許可약관에따라릴리스된제품이기도합니다。{. .}

추출，변환，로드(etl)

{. .}

基因組學

유전체학(基因組)은유기체의유전체(게놈)서열,분석과관련된유전학의한분야입니다。이학문의주된목적은DNA의전체서열,DNA를구성하는원자의구성이나여러DNA원자사이의화학적결합형태를알아내는데있습니다。유전체학이라는분야의관심사는{. .}

하둡

하둡이란무엇입니까?Apache Hadoop은오픈소스,Java기반소프트웨어플랫폼으로빅데이터애플리케이션용데이터처리와스토리지를관리하는역할을합니다。하둡은컴퓨팅클러스터내여러노드에걸쳐대규모데이터세트와분석작업을분배하며,그과정에서작업을작은크기의워크로드로분해합니다。{. .}

하둡클러스터

什麼是Hadoop集群?Apache Hadoop是一個開源的、基於java的軟件框架和並行數據處理引擎。它使大數據分析處理任務被分解成可以執行的更小的任務{. .}

HDFS (Hadoop Distributed File System)

Hdfs란무엇입니까?HDFS는Hadoop分布式文件係統을뜻합니다。Hdfs는상용하드웨어에서실행되도록고된분산형파일시스템형태로작동합니다。Hdfs는내결함성특징이있으며저가하드웨어에배포하도록설계되어있습니다。Hdfs는애플리케이션에고처리량액세스를{. .}

하둡에코시스템

什麼是Hadoop生態係統?Apache Hadoop生態係統是指Apache Hadoop軟件庫的各個組件;它包括開源項目以及一係列完整的補充工具。有些人{. .}

해시 버킷

컴퓨팅에서해시테이블[해시맵)은키(고유한문자열이나정수)를기반으로개체에사실상직접적인액세스를제공하는데이터구조를말합니다。해시테이블은해시함수를사용해인덱스를버킷이나슬롯어레이로연산하는데,여기에서원하는값을찾을수있습니다。여기에서{. .}

Hive날짜함수

什麼是Hive Date函數?Hive提供了許多內置函數來幫助我們處理和查詢數據。這些函數提供的一些功能包括字符串操作、日期操作、類型轉換、條件操作符、數學函數{. .}

主持的火花

什麼是托管Spark?Apache Spark是一個針對大數據的快速通用集群計算係統，圍繞速度、易用性和高級分析構建，最初於2009年在加州大學伯克利分校建立。它提供了Scala、Java、Python和R中的高級api，以及一個優化的引擎{. .}

Jupyter筆記本

木星筆記本是什麼?Jupyter Notebook是一個開源的網絡應用程序，允許數據科學家創建和共享文檔，其中包括實時代碼、公式和程序{. .}

Keras모델

什麼是Keras模型?Keras是一個高級的深度學習庫，建立在Theano和Tensorflow之上。它是用Python編寫的，提供了一種幹淨方便的方式來創建一係列深度學習模型{. .}

리테일용레이크하우스

리테일용레이크하우스란무엇가?리테일용레이크하우스는磚에서첫번째로출시한업종별레이크하우스입니다。솔루션액셀러레이터,데이터공유기능과파트너에코시스템을통해소매업체가빨리운영을정상화하도록돕습니다。{. .}

Lambda아키텍처

Lambda아키텍처란무엇입니까?λ아키텍처는엄청난대량의데이터(즉”빅데이터”)를처리하는방식의일종으로,하이브리드방식으로일괄처리나스트림처리방식을이용할수있게해줍니다。Lambda아키텍처는임의연산문제를해결하는데{. .}

머신러닝라이브러리(MLlib)

Apache火花의머신러닝라이브러리(機器學習庫,MLlib)는단순성,확장성,다른툴과의통합을염두에두고고안하였습니다。데이터사이언티스트는火花의확장성,언어호환성과속도를활용하여데이터문제점과모델에만집중할수있습니다。즉복잡한문제를해결하는것이아니라{. .}

머신러닝모델

머신러닝모델이란무엇입니까?머신러닝모델이란이전에접한적없는데이터세트에서패턴을찾거나이를근거로결정을내릴수있는프로그램입니다。예를들어자연어처리의경우，머신러닝모델은파싱을통해이전에접한적없는{. .}

管理的火花

管理Spark란무엇입니까?管理火花서비스를이용하면일괄처리,쿼리,스트리밍과머신러닝등을위한오픈소스데이터툴을유리하게활용할수있습니다。이러한자동화기능을이용하면필에따라신속하게클러스터를만들어간편하게관리하고，{. .}

MapReduce

MapReduce란무엇입니까?Apache Hadoop MapReduce는에코시스템에포함된java기반,분산형실행프레임워크입니다。개발자가구현하는두가지처리단계를노출하여분산형프로그래밍의복잡성을없애고{. .}

大獎章架構

什麼是勳章架構?獎章體係結構是一種數據設計模式，用於邏輯地組織湖屋中的數據，其目標是漸進地改進da的結構和質量{. .}

Ml파이프라

일반적으로머신러닝알고리즘을실행할때는전처리,기능추출,적합한모델찾기(模型擬合)과검증단계로구성된시퀀스를거쳐야합니다。예를들어텍스트문서를분류하는경우，텍스트조각화와정리，특징추출，클래스교육{. .}

MLOps

MLOps란무엇입니까?MLOps는머신러닝작업(機器學習操作)을뜻합니다。MLOps는머신러닝모델을프로덕션으로전환하는프로세스를간소화하고,뒤이어이를유지관리하고모니터링하는데주안점을둔머신러닝엔지니어링의핵심기능입니다。MLOps는협업기능이며，주로{. .}

모델리스크관리

모델리스크관리란잘못된모델이나잘못사용된모델을근거로한의사결정으로인한잠재적인나쁜결과에서발생하는리스크를감독관리하는것을말합니다。모델리스크관리의목표는모델리스크를파악,계측하여완화할기법과관행을동원하는데있습니다。예를들어모델오류나…{. .}

신경망

신경망이란무엇입니까?신경망이란뇌속뉴런의망형구조를닮은다층형구조의컴퓨팅모델입니다。여기에는서로연결된처리소자,일명”뉴런“이라는것이있으며이들이서로협력하여출력함수를도출합니다。신경망을이루는{. .}

오케스트레이션

오케스트레이션이란무엇입니까?오케스트레이션은여러개의컴퓨터시스템,애플리케이션및/또는서비스를조율하고관리하는것으로,여러개의작업을함께연결하여크기가큰워크플로나프로세스를실행하는방식을취합니다。이러한프로세스는여러개의자동화된작업으로구성될수있습니다。{. .}

熊貓Dataframe

熊貓는오픈소스,BSD라이선스라이브러리로Python프로그래밍언어에적합하게쓰여빠르고조정할수있는데이터구조와데이터분석툴을제공합니다。사용이간편한데이터조작툴로，원래韋斯·麥金尼가개발한것입니다。Numpy패키지기반이며，주데이터구조{. .}

拚花

什麼是拚花?Apache Parquet是一種開源的、麵向列的數據文件格式，設計用於高效的數據存儲和檢索。它提供了高效的數據壓縮和編碼方案，增強了處理批量複雜數據的性能。Apache Parquet設計{. .}

예측 분석

什麼是預測分析?預測分析是一種高級分析，它使用新的和曆史數據來確定模式並預測未來的結果和趨勢。預測分析如何工作?預測分析使用了許多技術{. .}

PyCharm

PyCharm은컴퓨터프로그래밍에쓰이는통합형개발환경IDE(集成開發環境)으로Python프로그래밍언어에맞게제작되었습니다。磚에서PyCharm을사용하는경우,PyCharm이기본적으로Python가장환경을만들지만사용자가구성을통해Conda환경을만들도록할수도있고기존환경을사용해도됩니다。{. .}

PySpark

PySpark是什麼?Apache Spark是用Scala編程語言編寫的。PySpark的發布是為了支持Apache Spark和Python的協作，它實際上是一個用於Spark的Python API。此外，PySpark可以幫助您與彈性分布式數據集(R{. .}

實時零售

소매업에서실시간데이터는무엇가?실시간리테일(實時零售)이란데이터에실시간액세스하는것을말합니다。배치중심액세스,분석,컴퓨팅에서벗어나면데이터를”언제든“사용할수있어정확하고시기적절하게의사결정을내리고비즈니스인텔리전스를얻을수있습니다。실시간{. .}

RDD(彈性分布式數據集)

抽樣는처음생겼을때부터晶石의기본사용자대상(麵向用戶)API였습니다。Rdd는본질적으로변경불가능하며분산형입니다。{. .}

火花API

Spark를다루다보면다음과같은세가지API를접하게됩니다。數據幀，數據集와RDD의세가지입니다。Rdd란무엇입니까?抽樣,즉彈性分布式數據集란분산형컴퓨팅을포함한레코드컬렉션으로본질적으로내결함성이있고변경불가능합니다。{. .}

Spark애플리케이션

火花애플리케이션은司機프로세스하나와일련의執行人프로세스로구성됩니다。司機프로세스는main()함수를실행하고클러스터내노드에위치하며세가지작업을담당합니다。하나는火花애플리케이션관련정보를유지하는것,사용자의프로그램에대응하는것또는{. .}

火花SQL

대다수의데이터사이언티스트,애널리스트,일반비즈니스인텔리전스사용자는데이터를탐색할때인터랙티브SQL쿼리에의존합니다。Spark SQL은구조적데이터처리를위한Spark모듈입니다。일명DataFrames라는프로그래밍추상화를제공하며이외에{. .}

火花流

Spark Streaming이란무엇입니까?Apache火花流은확장할수있는내결함성(容錯)스트리밍처리시스템으로,배치및스트리밍워크로드를둘다기본적으로지원합니다。火花流은코어火花API를확장한것으로,데이터엔지니어와데이터사이언티스트가실시간{. .}

Spark튜닝

Spark성능튜닝이란무엇입니까?火花성능튜닝은시스템이사용하는메모리,코어와인스턴스를대상으로기록할설정을조정하는프로세스를가리킵니다。이프로세스를거치면火花에서흠잡을데없는성능을보장할수있으며,火花에서리소스병목현상을예방하는효과도{. .}

Sparklyr

Sparklyr이란무엇입니까?R Sparklyr은사과Apache火花이에서인터페이스를제공하는오픈소스패키지입니다。이제Spark기능을최신R환경에서도활용할수있습니다。Spark는분산된데이터와상호작용할수있으면서도레이턴시가짧기때문입니다。Sparklyr은효과적{. .}

SparkR

SparkR은Spark에서R을실행하는데쓰는툴입니다。이것도Spark의다른모든언어바遠程服務器딩과마찬가지로같은원칙을따릅니다。SparkR을사용하려면환경에가져와코드를실행하기만하면됩니다。Python API전반적으로와아주비슷한데,Python이아니라R의구문을따른다는점만다릅니다。대체로{. .}

稀疏的張量

Python은일명numpy라는기본내장라이브러리를제공하여다차원배열을조작합니다。pytensor라이브러리를개발하려면기본적으로이라이브러리부터구성하고사용해야합니다。{. .}

스트리밍분석

스트림분석은어떻게작용합니까?스트리밍분석은일명이벤트스트리밍처리라고도하며,최신데이터와“동작”중인데이터로구성된거대한데이터풀을분석합니다。이때사용하는지속적쿼리를이벤트스트림이라고합니다。이러한스트림은구체적marketing이벤트가트리거하며，이는발생{. .}

結構化流

結構化流은스트림처리용고차API원의일종으로,火花2.2에서는바로프로덕션에적용할수있게되었습니다。結構化流을사용하면火花의구조적API를사용해배치모드로수행하는것과같은연산을스트리밍방식으로실행할수있습니다。이렇게하면레이턴시를줄이고{. .}

TensorFlow

지난2015년월11日,穀歌에서머신러닝용오픈소스프레임워크를출시하며이를TensorFlow라명명했습니다。이것은딥러닝，신경망을물론cpu, gpu와gpu클러스터의일반적수리적연산을{. .}

Tensorflow Estimator API

Tensorflow Estimator API란무엇입니까?估計는완전한모델이지만적은사용자에게는충분히직관적으로보이기도합니다。估計API를사용하면모델을교육할방식,모델의정확도를판단할방식,예측을생성할방식을얻을수있습니다。{. .}

변환

변환이란무엇입니까?火花에서코어데이터구조가변경불가능(不可變的)하다는것은일단생성하면변경할수없다는뜻입니다。이것은처음에는조금기이한개념으로여겨질수있습니다。변경할수없다면어떻게사용합니까?DataFrame을"변경"하려면{. .}

鎢

鎢項目란무엇입니까?鎢은Apache火花의실행엔진에변경사항을적용하여메모리및CPU를火花애플리케이션에적합하게효율성을개선하는데중점을두어성능을최신하드웨어한도에더가깝게밀어붙이고자추진한엄브렐라프로젝트의코드명입니다。{. .}

統一AI프레임워크

統一人工智能，즉UAI는Facebook에서올해F8중에발한개념입니다。이개념은Facebook이제작하고아웃소싱2한가지딥러닝프레임워크를합친것입니다。하나는대규모컴퓨팅리소스에액세스를보유한리서치중점적PyTorch이고,다른하나는咖啡로모델배포에주력합니다。{. .}

統一數據分析

統一數據分析는새로운솔루션카테고리입니다。데이터처리를AI기술과통합하여기업에서AI를한결쉽게완성할수있게지원하여각자의AI이니셔티브진행속도를빠르게해줍니다。統一數據分析를이용하면기업에서데이터파이프라인을구축할때{. .}

統一數據分析平台Beplay体育安卓版本

磚의統一數據分析平台을이용하면데이터사이언스를엔지니어링,비즈니스와통Beplay体育安卓版本합하여혁신의속도를높여줍니다。磚를統一數據分析平台으로활용하면아무런한계없이엄청난규모로데이터를신속Beplay体育安卓版本하게준비하고정리할수있습니다。이플랫폼은{. .}

統一數據倉庫

統一數據倉庫란무엇입니까?기업의통합데이터베이스인엔터프라이즈데이터웨어하우스에는한기업조직의각종비즈니스정보가모두보관되어있어회사전체에서액세스할수있게해줍니다。오늘날대부분기업에서는데이터를서로격리된사일로에서관리하고，여러{. .}