中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

微軟發(fā)布 .Net for Apache Spark :用什么語(yǔ)言開發(fā)大數(shù)據(jù)都可以

2019-05-05    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

Apache Spark 是當(dāng)今最流行的開源大數(shù)據(jù)處理框架。Spark 用于進(jìn)行分布式、大規(guī)模的數(shù)據(jù)處理,提供了更高級(jí)的編程接口、更高的性能。除此之外,Spark 不僅能進(jìn)行常規(guī)的批處理計(jì)算,還提供了流式計(jì)算支持。而 .NET 是由 Microsoft 開發(fā)的一種致力于敏捷開發(fā)、快速應(yīng)用開發(fā)、平臺(tái)無(wú)關(guān)性和網(wǎng)絡(luò)透明化的開發(fā)平臺(tái)。長(zhǎng)久以來(lái),.NET 開發(fā)人員無(wú)法用他們已有的知識(shí)來(lái)使用 Apache Spark,但這樣尷尬的局面就要終結(jié)了。Microsoft 4 月 29 日發(fā)布了 .NET for Apache Spark 預(yù)覽版。從此以后,無(wú)論你用什么語(yǔ)言,都可以進(jìn)行數(shù)據(jù)分析了!

  

4 月 24 日,在 Spark+AI 峰會(huì) 上,我們很高興地宣布推出 .NET for Apache Spark。Spark 是一種流行的開源分布式處理引擎,用于分析大型數(shù)據(jù)集。Spark 可用于處理批量數(shù)據(jù)、實(shí)時(shí)流、機(jī)器學(xué)習(xí)和即席查詢(ad-hoc query)。

.NET for Apache Spark 旨在使 .NET 開發(fā)人員可以跨所有 Spark API 來(lái)訪問(wèn) Apache® Spark™。到目前為止,Spark 已經(jīng)可以通過(guò) Scala、Java、Python 和 R 來(lái)訪問(wèn),但尚不能通過(guò) .NET 來(lái)訪問(wèn)。

我們計(jì)劃在 open(作為 .NET Foundation 成員項(xiàng)目)中為 Apache Spark 開發(fā) .NET,同時(shí)與 Spark 和 .NET 社區(qū)一起開發(fā),以確保開發(fā)人員能夠在這兩方面都做得很好。

本文將闡述關(guān)于以下主題的更多細(xì)節(jié):

什么是 .NET For Apache Spark?

.NET for Apache Spark 入門

.NET for Apache Spark 性能

.NET For Apache Spark 的下一步

結(jié)語(yǔ)

什么是 .NET for Apache Spark?

.NET for Apache Spark 提供了高性能 API,用于使用 C# 和 F# 中的 Spark。通過(guò)這個(gè) .NET API,開放人員可以訪問(wèn) Apache Spark 的所有方面,包括 Spark SQL、DataFrame、Streaming、MLLib 等。.NET for Apache Spark 允許 .NET 開發(fā)人員重用已有的所有知識(shí)、技能、代碼和庫(kù)。

綁定到 Spark 的 C#/F# 語(yǔ)言將被編寫到一個(gè)新的 Spark 互操作層上,該層提供了更容易的可擴(kuò)展性。這一新的 Spark 互操作層的編寫,考慮到了語(yǔ)言擴(kuò)展的最佳實(shí)踐,并針對(duì)互操作性和性能進(jìn)行了優(yōu)化。從長(zhǎng)期來(lái)看,這種可擴(kuò)展性可用于在 Spark 中增加對(duì)其他語(yǔ)言的支持。

你可以通過(guò)訪問(wèn)這個(gè) 提案 來(lái)了解更多關(guān)于這項(xiàng)工作的細(xì)節(jié)。

 

 

.NET for Apache Spark 與 .NET Standard 2.0 兼容,可以在 Linux、macOS 和 Windows 系統(tǒng)上使用,就像 .NET 的其余部分一樣。.NET for Apache Spark 在 Azure HDInsight 中默認(rèn)可用,并且可以安裝在 Azure Databricks 等軟件中。

.NET for Apache Spark 入門

在開始使用。NET for Apache Spark 之前,需要安裝一些東西。按照 以下步驟 開始使用 .NET for Apache Spark。

設(shè)置完成之后,我們可以通過(guò)三個(gè)簡(jiǎn)單的步驟在 .NET 中開始編寫 Spark 應(yīng)用。

在我們的第一個(gè) .NET Spark 應(yīng)用中,我們將編寫一個(gè)基本的 Spark 管道,用于計(jì)算文本段中每個(gè)單詞的出現(xiàn)次數(shù)。

 

 

.NET for Apache Spark 性能

我們很高興地宣布,.NET fro Apache Spark 的第一個(gè)預(yù)覽版本在流行的 TPC-H 基準(zhǔn) 測(cè)試中表現(xiàn)良好。TPC-H 基準(zhǔn)由一組面向業(yè)務(wù)的查詢組成。下圖展示了 .NET Core 與 Python、Scale 在 TPC-H 查詢集上的性能對(duì)比。

 

 

上圖顯示了 .NET for Apache Spark 與 Python 和 Scala 的每個(gè)查詢性能對(duì)比。.NET for Apache Spark 對(duì)陣 Python 和 Scale 時(shí)表現(xiàn)出色。此外,在 UDF 性能至關(guān)重要的情況下,例如查詢 1,其中在用于 Apache Spark 的 JVM 和 CLR 之間傳遞 3B 行的非字符串?dāng)?shù)據(jù),就其傳遞速度而言,.NET 要比 Python 快上 2 倍。

同樣重要的是,這是我們?yōu)?Apache Spark 開發(fā)的第一個(gè) .NET 預(yù)覽版,我們的目標(biāo)是進(jìn)一步致力于改進(jìn)和基準(zhǔn)測(cè)試性能(如 Arrow 優(yōu)化)。你可以按照我們的說(shuō)明在 Github repo 上對(duì)其進(jìn)行基準(zhǔn)測(cè)試。

.NET For Apache Spark 的下一步

今天 .NET for Apache Spark 的發(fā)布,是我們征途的第一步。以下是我們近期路線圖的一些功能,請(qǐng)關(guān)注我們的 GitHub repo 的 完整路線圖。

♦ 簡(jiǎn)化入門體驗(yàn)、文檔與示例。

♦ 與 Visual Studio、Visual Studio Code、Jupyter notebooks 等開發(fā)工具進(jìn)行原生整合。

♦ .NET 支持用戶定義的聚合函數(shù)。

♦ 用于 C# 和 F# 的 .NET 慣用 API(如,使用 LINQ 編寫查詢)。

♦ 對(duì) Azure Databricks、Kubernetes 等開箱即用的支持。

♦ 將 .NET for Apache Spark 作為 Spark Core 的部分。你可以訪問(wèn)此 網(wǎng)址 跟蹤進(jìn)程。

結(jié)語(yǔ)

.NET for Apach Spark 是我們將 .NET 打造成構(gòu)建大數(shù)據(jù)應(yīng)用程序的重要技術(shù)堆棧的第一步。

我們需要你的幫助來(lái)為 .NET for Apache Spark 塑造未來(lái)。我們期待你使用 .NET for Apache Spark 進(jìn)行構(gòu)建。你可以通過(guò)我們的 GitHub repo,向我們伸出援助之手。

https://github.com/dotnet/spark

原文鏈接:

https://devblogs.microsoft.com/dotnet/introducing-net-for-apache-spark/

標(biāo)簽: [db:TAGG]

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:李飛飛最新訪談:我每天都在對(duì)AI的擔(dān)憂中醒來(lái)

下一篇:北京大學(xué)宣布成立人工智能研究院