chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么阿里云要做Apache Flink

算法與數(shù)據(jù)結(jié)構(gòu) ? 來(lái)源:算法與數(shù)據(jù)結(jié)構(gòu) ? 作者: 蔡芳芳 ? 2021-01-04 14:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

流批一體已經(jīng)從理論走向?qū)嵺`,并在 2020 年迎來(lái)落地元年。

短短 5 年,Apache Flink(下稱 Flink)從一個(gè)突然出現(xiàn)在大數(shù)據(jù)舞臺(tái)的“萌新”系統(tǒng),迅速成長(zhǎng)為人人皆知的流計(jì)算引擎。

在伴隨 Flink 發(fā)展掀起的這波實(shí)時(shí)計(jì)算浪潮里,阿里是國(guó)內(nèi)走得最前、做得也最多的一個(gè),“流批一體”是它的新賽道。今年雙 11, Flink 流批一體開(kāi)始在阿里最核心的數(shù)據(jù)業(yè)務(wù)場(chǎng)景嶄露頭角,并抗住了 40 億條/秒的實(shí)時(shí)計(jì)算峰值。

這是第一次有互聯(lián)網(wǎng)超級(jí)大廠真正在核心數(shù)據(jù)業(yè)務(wù)上規(guī)?;涞亓髋惑w技術(shù)。同時(shí),這也意味著 Flink 在阿里的發(fā)展已經(jīng)進(jìn)入第二個(gè)階段,從全鏈路實(shí)時(shí)化進(jìn)階到全鏈路流批一體化。

恰逢 2020 年 Flink Forward Asia 大會(huì)召開(kāi)之際,InfoQ 對(duì) Apache Flink 中文社區(qū)發(fā)起人及阿里云實(shí)時(shí)計(jì)算負(fù)責(zé)人王峰(花名莫問(wèn))、阿里云實(shí)時(shí)計(jì)算團(tuán)隊(duì)資深技術(shù)專家楊克特(花名魯尼)、天貓大數(shù)據(jù)負(fù)責(zé)人黃曉鋒進(jìn)行了獨(dú)家專訪,希望從多個(gè)角度更完整地還原 Flink 流批一體在阿里落地的過(guò)程和背后的技術(shù)挑戰(zhàn),并深入探討這個(gè)新賽道對(duì)于阿里云的價(jià)值和未來(lái)發(fā)展方向。

1 從理論到落地

流批一體的技術(shù)理念最早提出于 2015 年,它的初衷是讓開(kāi)發(fā)人員能夠用同一套接口實(shí)現(xiàn)大數(shù)據(jù)的流計(jì)算和批計(jì)算,進(jìn)而保證處理過(guò)程與結(jié)果的一致性。隨后,大數(shù)據(jù)廠商 / 框架們?nèi)?Spark、Flink、Beam 等,都陸續(xù)提出了自己的解決方案,雖然實(shí)現(xiàn)方式各不相同,但在一定程度上說(shuō)明流批一體的思想已經(jīng)在業(yè)界得到廣泛認(rèn)可。

然而,流批一體要真正從理論走到落地,尤其是在企業(yè)的核心數(shù)據(jù)業(yè)務(wù)場(chǎng)景規(guī)模化落地,往往面臨技術(shù)和業(yè)務(wù)的雙重挑戰(zhàn)。在莫問(wèn)看來(lái),這也是為什么流批一體出現(xiàn)的很早,廠商落地案例卻不多見(jiàn)。

從技術(shù)層面來(lái)看,流計(jì)算和批計(jì)算從計(jì)算方式、支撐模塊、資源調(diào)度策略到流程規(guī)劃等都存在差異,不管是批流一體還是流批一體,都有不少技術(shù)問(wèn)題要解決。這其中關(guān)乎研發(fā)資源投入,但大前提是需要有一個(gè)統(tǒng)一的計(jì)算引擎。雖然 Spark 是最早提出流批一體理念的計(jì)算引擎之一,但由于其本質(zhì)還是基于批(mini-batch)來(lái)實(shí)現(xiàn)流,在流計(jì)算語(yǔ)義和延遲上存在硬傷,難以滿足復(fù)雜、大規(guī)模實(shí)時(shí)計(jì)算場(chǎng)景的極致需求,因此目前很多廠商的數(shù)據(jù)業(yè)務(wù)還是選擇將流和批分開(kāi)來(lái)做,流用 Flink、批用 Spark。這就導(dǎo)致前面說(shuō)的大前提無(wú)法滿足,在核心場(chǎng)景落地流批一體更加無(wú)從談起。

從業(yè)務(wù)層面來(lái)看,如果企業(yè)有非常重的歷史包袱或者在流批一體架構(gòu)下不能取得足夠多業(yè)務(wù)價(jià)值,那它也不會(huì)有足夠的動(dòng)力去做流批一體的改造和落地。

但對(duì)于阿里來(lái)說(shuō),恰恰是在技術(shù)和業(yè)務(wù)兩個(gè)因素共同推動(dòng)之下,流批一體才得以在雙 11 核心業(yè)務(wù)場(chǎng)景正式亮相。

技術(shù)上,阿里 2019 年收購(gòu) Flink 的創(chuàng)始公司 Ververica 后,投入近百名工程師到 Flink 技術(shù)研發(fā)和社區(qū)工作中,在 Flink 基于流實(shí)現(xiàn)批計(jì)算的能力上做了非常多工作,其中有一些特性優(yōu)先在雙 11 落地,后續(xù)也會(huì)全部推進(jìn)到社區(qū)里。

業(yè)務(wù)上,今年大促期曾經(jīng)面臨離線和實(shí)時(shí)數(shù)據(jù)統(tǒng)計(jì)口徑不一致的問(wèn)題,這類潛在問(wèn)題會(huì)影響廣告、商務(wù)甚至公司運(yùn)營(yíng)決策,這是真正的“秒秒鐘幾百萬(wàn)上下”,強(qiáng)電商屬性和大業(yè)務(wù)體量倒逼著流批一體技術(shù)必須在阿里核心業(yè)務(wù)落地,方能解決痛點(diǎn)。

莫問(wèn)提到,當(dāng)前流批一體已經(jīng)在許多業(yè)務(wù)場(chǎng)景成為剛需,而不是一個(gè)技術(shù)噱頭。這次雙十一就像一場(chǎng)“轉(zhuǎn)正”考試,意味著在阿里巴巴業(yè)務(wù)場(chǎng)景中流批一體技術(shù)從理論走向落地,同時(shí)也標(biāo)記著 Flink 在阿里開(kāi)始從全鏈路實(shí)時(shí)化步入全鏈路流批一體化的新階段。

2 路走對(duì)了,就不怕遠(yuǎn)

2015 年,針對(duì)搜索推薦業(yè)務(wù)做新的大數(shù)據(jù)計(jì)算引擎選型時(shí),阿里云實(shí)時(shí)計(jì)算團(tuán)隊(duì)對(duì)流批一體的技術(shù)方向就已經(jīng)有初步設(shè)想。

在經(jīng)過(guò)深度調(diào)研、可行性驗(yàn)證和對(duì)未來(lái)可能遇到的問(wèn)題進(jìn)行推演之后,團(tuán)隊(duì)最終決定引入 Flink。魯尼表示,雖然當(dāng)時(shí) Flink 整個(gè)系統(tǒng)還不是特別成熟,但團(tuán)隊(duì)認(rèn)為 Flink 以流計(jì)算為核心的設(shè)計(jì)理念更符合未來(lái)數(shù)據(jù)計(jì)算實(shí)時(shí)化發(fā)展的大趨勢(shì)。在阿里內(nèi)部有一句土話,叫“路走對(duì)了,就不怕遠(yuǎn)”,從后續(xù)這幾年的發(fā)展情況來(lái)看,F(xiàn)link 確實(shí)進(jìn)展順利,甚至超過(guò)團(tuán)隊(duì)當(dāng)時(shí)的預(yù)期。

當(dāng)然,從初步設(shè)想到實(shí)現(xiàn)相對(duì)完善的流批一體能力,需要一個(gè)循序漸進(jìn)的過(guò)程。

從技術(shù)本身演化的角度來(lái)看,F(xiàn)link 經(jīng)歷了流批一體 API 從無(wú)到有、從有到更優(yōu)兩個(gè)階段。在早期的 Flink 版本中,F(xiàn)link 的流和批無(wú)論在 API 還是在 Runtime 上都沒(méi)有達(dá)到徹底的統(tǒng)一。但從 1.9 版本開(kāi)始,F(xiàn)link 加速在流批一體上進(jìn)行完善和升級(jí),F(xiàn)link SQL 作為用戶使用的最主流 API,率先實(shí)現(xiàn)了流批一體語(yǔ)義,用戶只需學(xué)習(xí)使用一套 SQL 就可以基于 Flink 進(jìn)行流批一體的開(kāi)發(fā),降低了開(kāi)發(fā)的門(mén)檻。

最初 SQL 實(shí)現(xiàn)流批一體的做法是將流作業(yè)和批作業(yè)分別翻譯成 Flink 底層的兩個(gè)原生 API,包括處理流計(jì)算需求的 DataStream 和處理批計(jì)算需求的 DataSet,相對(duì)來(lái)說(shuō)有些簡(jiǎn)單粗暴,當(dāng)時(shí)也引發(fā)了一系列問(wèn)題,包括開(kāi)發(fā)鏈路過(guò)長(zhǎng)導(dǎo)致迭代效率不高等。因此 Flink 社區(qū)又對(duì)底層架構(gòu)做了一些重構(gòu),并引出了 DAG API,F(xiàn)link 分布式運(yùn)行層針對(duì) DAG 做了一系列優(yōu)化,包括增加流批一體的調(diào)度器、可插拔的 Shuffle 插件等。這樣一來(lái),F(xiàn)link 的分布式運(yùn)行層也開(kāi)始逐漸形成了流批一體的 DAG 描述能力和調(diào)度執(zhí)行能力。

87e9e1d0-4423-11eb-8b86-12bb97331649.png

目前 Flink 的流批一體方案仍然在持續(xù)改進(jìn)當(dāng)中。雖然現(xiàn)在開(kāi)發(fā)者已經(jīng)可以很方便地基于 SQL API 來(lái)執(zhí)行流批一體作業(yè),但 SQL 并不能解決所有需求。一些邏輯特別復(fù)雜或定制化程度較高的作業(yè)還是需要繼續(xù)使用 DataStream API。DataStream API 雖然能更加靈活地應(yīng)對(duì)流計(jì)算場(chǎng)景的各種需求,但卻缺乏對(duì)批處理的高效支持。

因此,F(xiàn)link 社區(qū)在完成 SQL 流批一體升級(jí)之后,從 1.11 版本開(kāi)始投入大量精力完善 DataStream API 的流批一體能力,在 DataSteam API 上增加批處理的語(yǔ)義,同時(shí)結(jié)合流批一體 Connector 的設(shè)計(jì),讓 DataStream API 能夠在流批融合場(chǎng)景下對(duì)接 Kafka 和 HDFS 等不同類型流批數(shù)據(jù)源。在剛剛發(fā)布的 1.12 版本中,大家就可以體驗(yàn)到 DataStream 流批一體的原生支持。接下來(lái)流批一體的迭代計(jì)算 API 也將被引入到 DataStream 中,進(jìn)一步解鎖一系列機(jī)器學(xué)習(xí)場(chǎng)景。

此外,在當(dāng)前 Flink 主版本中,不管是 SQL 還是 DataStream API,在流批一體概念上都還是流計(jì)算和批計(jì)算功能的結(jié)合體。用戶雖然只需要編寫(xiě)一套代碼,但需要在代碼中選擇使用流的方式跑,還是批的方式跑,執(zhí)行模式比較單一。但有些業(yè)務(wù)場(chǎng)景已經(jīng)提出更高的要求,即流批混合,需要在批和流之間自動(dòng)切換,F(xiàn)link 也將在后續(xù)支持更加智能的流批融合場(chǎng)景和動(dòng)態(tài)切換能力。

當(dāng)然,流批一體不只是一個(gè)技術(shù)問(wèn)題,最終還是業(yè)務(wù)落地的問(wèn)題,F(xiàn)link 的流批一體能力也是通過(guò)大規(guī)模業(yè)務(wù)鍛造出來(lái)的。

雖然選型之初,阿里云的技術(shù)團(tuán)隊(duì)看中的就是 Flink 優(yōu)秀的流計(jì)算能力,但當(dāng)時(shí)這個(gè)能力并未經(jīng)過(guò)大規(guī)模線上業(yè)務(wù)驗(yàn)證。為了快速試錯(cuò),團(tuán)隊(duì)決定開(kāi)辟一個(gè) Flink 的內(nèi)部分支(即后來(lái)為大家熟知的 Blink),最大目的是快速增加當(dāng)時(shí)急缺的功能并在線上業(yè)務(wù)驗(yàn)證,這也是在業(yè)務(wù)早期的選擇。

經(jīng)過(guò)團(tuán)隊(duì)一年的努力,基于 Flink 的搜索推薦實(shí)時(shí)計(jì)算平臺(tái)成功支持了 2016 年的搜索雙 11,保證了搜索推薦全鏈路實(shí)時(shí)化。在這之后,F(xiàn)link 開(kāi)始在阿里集團(tuán)內(nèi)部服務(wù)于更多實(shí)時(shí)數(shù)據(jù)業(yè)務(wù),在更大規(guī)模的業(yè)務(wù)場(chǎng)景驗(yàn)證并優(yōu)化其流計(jì)算能力和穩(wěn)定性。2017 年,F(xiàn)link 成功支持了全集團(tuán)雙 11 的實(shí)時(shí)數(shù)據(jù)業(yè)務(wù),包括 GMV 大屏等最核心的數(shù)據(jù)業(yè)務(wù)場(chǎng)景。

在實(shí)時(shí)計(jì)算能力經(jīng)過(guò)充分驗(yàn)證之后,團(tuán)隊(duì)開(kāi)始補(bǔ)充和完善 Flink 的批計(jì)算能力,并在搜索推薦的索引構(gòu)建、機(jī)器學(xué)習(xí)特征工程和樣本生成等業(yè)務(wù)場(chǎng)景中進(jìn)行驗(yàn)證。

經(jīng)過(guò)大規(guī)模作業(yè)驗(yàn)證之后,團(tuán)隊(duì)對(duì) Flink 的流批一體能力更加有底,也是在這個(gè)時(shí)候,團(tuán)隊(duì)開(kāi)始醞釀 Blink 的開(kāi)源。后面的進(jìn)展很多人都已經(jīng)有所了解:2018 年 12 月阿里宣布開(kāi)源 Flink 的內(nèi)部分支 Blink;2019 年 1 月起,阿里逐步將內(nèi)部在 Blink 沉淀的能力推回 Flink 開(kāi)源社區(qū);到 2019 年 11 月發(fā)布的 Flink 1.10 版本前瞻,Blink 全部功能都已經(jīng)進(jìn)入 Flink。2020 年雙 11 天貓營(yíng)銷決策核心系統(tǒng)的這場(chǎng)“大考”,F(xiàn)link 流批一體技術(shù)又得到了更進(jìn)一步的錘煉。

3 流批一體的雙 11“大考”

在莫問(wèn)看來(lái),F(xiàn)link 流批一體技術(shù)從最初應(yīng)用于搜索推薦場(chǎng)景,到今年雙 11 在天貓核心數(shù)據(jù)業(yè)務(wù)落地,升級(jí)的是業(yè)務(wù)的重要程度,而不是簡(jiǎn)單的計(jì)算規(guī)模。

在流計(jì)算場(chǎng)景上,天貓大數(shù)據(jù)團(tuán)隊(duì)已經(jīng)跟實(shí)時(shí)計(jì)算團(tuán)隊(duì)配合了很多年,但之前一直沒(méi)有在批計(jì)算場(chǎng)景上線。魯尼透露,天貓的批處理作業(yè)優(yōu)先級(jí)在集團(tuán)內(nèi)屬于級(jí)別最高的那一檔,因此在架構(gòu)升級(jí)上會(huì)更慎重。

天貓分析場(chǎng)景下的報(bào)表大部分分為實(shí)時(shí)和離線兩種,商家、小二、管理層通過(guò)實(shí)時(shí)數(shù)據(jù)和歷史數(shù)據(jù)進(jìn)行不同維度、不同時(shí)間周期的比對(duì),從而對(duì)當(dāng)前的活動(dòng)情況作出判斷,這些數(shù)據(jù)是業(yè)務(wù)決策的重要判斷依據(jù)。

以前天貓整體的數(shù)據(jù)架構(gòu)使用的是 Lambda 架構(gòu),數(shù)據(jù)分析需求基于流、批兩套計(jì)算引擎產(chǎn)出,這種分離的架構(gòu)不僅會(huì)帶來(lái)兩套開(kāi)發(fā)成本,也導(dǎo)致數(shù)據(jù)邏輯和口徑難以對(duì)齊。另外,產(chǎn)品搭建數(shù)據(jù)報(bào)表的時(shí)候,過(guò)程繁瑣,容易出現(xiàn)問(wèn)題。這些痛點(diǎn)促使天貓大數(shù)據(jù)團(tuán)隊(duì)開(kāi)始調(diào)研流批一體的技術(shù)方案。

流批一體的技術(shù)方案主要分兩種,一種是跨引擎的流批一體,比如更早以前 Storm 和 Spark 結(jié)合使用,批交給 Spark 執(zhí)行,流交給 Storm 執(zhí)行;另一種就是一個(gè)引擎本身就具備流批一體的能力,比如 Spark 和 Spark streaming、Flink 等。鑒于 Flink 的流計(jì)算能力已經(jīng)在阿里集團(tuán)內(nèi)部經(jīng)過(guò)大規(guī)模業(yè)務(wù)應(yīng)用的驗(yàn)證,以及 Flink 流批一體技術(shù)的不斷成熟,天貓大數(shù)據(jù)團(tuán)隊(duì)決定嘗試基于 Flink 的流批一體能力升級(jí)技術(shù)架構(gòu)。

8854f1be-4423-11eb-8b86-12bb97331649.png

8888b648-4423-11eb-8b86-12bb97331649.png

除了計(jì)算層,團(tuán)隊(duì)也調(diào)研了存儲(chǔ)層的流批一體方案,最終確定云原生實(shí)時(shí)數(shù)倉(cāng) Hologres 可以滿足天貓點(diǎn)查和 OLAP 分析這兩個(gè)場(chǎng)景的需求。團(tuán)隊(duì)首先設(shè)計(jì)了一個(gè) POC 流程對(duì)整套方案進(jìn)行可行性驗(yàn)證,發(fā)現(xiàn)這套方案是 work 的,的確能對(duì)研發(fā)效能和數(shù)據(jù)質(zhì)量帶來(lái)了比較大的提升。

黃曉鋒告訴 InfoQ,從決定在雙 11 大促中規(guī)?;褂?Flink 流批一體到最終落地,天貓大數(shù)據(jù)團(tuán)隊(duì)和實(shí)時(shí)計(jì)算團(tuán)隊(duì)并肩作戰(zhàn)了 5 個(gè)月,整個(gè)改造過(guò)程大致可以劃分為四個(gè)關(guān)鍵階段。

第一個(gè)階段是設(shè)計(jì)。首先需要拆解和梳理天貓實(shí)際情況,完成流批一體模型的統(tǒng)一。然后需要在平臺(tái)這一側(cè)把源數(shù)據(jù)打通,實(shí)現(xiàn)用戶只寫(xiě)一套代碼,平臺(tái)自動(dòng)翻譯成 Flink Batch 任務(wù)和 Flink Stream 任務(wù),同時(shí)寫(xiě)到一張 Holo 表,完成計(jì)算層表達(dá)的統(tǒng)一。

第二個(gè)階段是落地。流批一體需要依賴離線的調(diào)度,因此需要對(duì) MaxCompute平臺(tái)做一定程度的打通。

第三個(gè)階段是優(yōu)化。包括語(yǔ)義層表達(dá)的優(yōu)化,比如以前寫(xiě)的趨勢(shì)圖邏輯可能針對(duì)流場(chǎng)景做了針對(duì)性優(yōu)化,但在批上面不起作用甚至可能存在問(wèn)題,這些特殊場(chǎng)景需要做語(yǔ)義對(duì)齊;也包括性能的優(yōu)化,以保證在雙 11 可以達(dá)到性能目標(biāo)。

第四階段是穩(wěn)定性。由于整條鏈路改動(dòng)比較大,雙 11 場(chǎng)景對(duì)穩(wěn)定性的要求又特別高,因此團(tuán)隊(duì)重點(diǎn)展開(kāi)了數(shù)據(jù)全鏈路的壓測(cè),以保證 Flink 本身流批計(jì)算性能、Hologres 的查詢性能和上層 BI 層的查詢性能,都能夠滿足雙 11 的 QPS 訴求。

在整個(gè)過(guò)程中,團(tuán)隊(duì)也遇到了幾個(gè)核心挑戰(zhàn)。

其中一個(gè)挑戰(zhàn)來(lái)自性能。這是流批一體第一次大規(guī)模使用,不同系統(tǒng)的數(shù)據(jù)打通做的還不是非常完備。比如 MaxCompute 和 Flink 之間的數(shù)據(jù)中轉(zhuǎn)是通過(guò) Tunnel 管道的方式來(lái)做的,但在規(guī)模化應(yīng)用的過(guò)程中才發(fā)現(xiàn) Tunnel 有連接數(shù)的限制,會(huì)極大地影響規(guī)?;茝V。后來(lái)團(tuán)隊(duì)通過(guò)在 Flink 這一層做相應(yīng)的優(yōu)化,先一次性讀取再在 Flink 內(nèi)部做分發(fā),極大地降低了連接數(shù)并優(yōu)化了讀取性能,問(wèn)題得以解決。

另一個(gè)挑戰(zhàn)來(lái)自流批一體的語(yǔ)義統(tǒng)一。在某些場(chǎng)景下,開(kāi)發(fā)人員對(duì)流批語(yǔ)義的理解和 Flink Runtime 翻譯出來(lái)的流批一體語(yǔ)義之間存在差異,可能會(huì)導(dǎo)致同一套 SQL 跑出來(lái)的流批結(jié)果跟業(yè)務(wù)理解的不一樣,比如對(duì)于 Index Join 和 Primarykey Join 的處理方式在流批上面的差異。后來(lái)兩個(gè)團(tuán)隊(duì)聯(lián)合修復(fù)了這個(gè)問(wèn)題。

除此之外,天貓大數(shù)據(jù)團(tuán)隊(duì)也聯(lián)合 Hologres 開(kāi)發(fā)團(tuán)隊(duì)對(duì) Hologres 進(jìn)行了非常深度的優(yōu)化,包括優(yōu)化器、排隊(duì)機(jī)制、數(shù)據(jù) Shard 的劃分規(guī)則、計(jì)算層的數(shù)據(jù) shuffle 機(jī)制都做了針對(duì)性的優(yōu)化。

事實(shí)上,F(xiàn)link 流批一體成功落地雙 11 天貓核心數(shù)據(jù)場(chǎng)景,不僅更好地提升了開(kāi)發(fā)團(tuán)隊(duì)成員的技術(shù)能力,在業(yè)務(wù)上的實(shí)踐效果也非常喜人。

時(shí)效性上,面對(duì) 58.3 萬(wàn)筆 / 秒的交易峰值和上億 / 秒的無(wú)線流量洪峰,天貓的所有任務(wù)都達(dá)到了秒級(jí)延時(shí),整個(gè)實(shí)時(shí)計(jì)算集群峰值 TPS 達(dá)到 40 億條 / 秒。同時(shí),集群資源利用率也得到了大幅提升,批任務(wù)可以錯(cuò)峰執(zhí)行。

準(zhǔn)確性上,流批任務(wù)的業(yè)務(wù)口徑做到了完全一致,數(shù)據(jù)質(zhì)量問(wèn)題不復(fù)存在,成為大促期間重要的業(yè)務(wù)雷達(dá)。流批模型也實(shí)現(xiàn)了完全統(tǒng)一,產(chǎn)品搭建效率提升 400%。

靈活性上,流批一體實(shí)現(xiàn)了多個(gè)計(jì)算處理模式也只需要撰寫(xiě)一套代碼,需求迭代效率提升 2 倍,大促當(dāng)天緊急需求承接效率提升 5 倍。同時(shí),實(shí)時(shí)數(shù)倉(cāng) +OLAP 場(chǎng)景結(jié)合,也使得變更成本大幅下降,能更好地滿足分析師按需取數(shù)場(chǎng)景的需要。

在黃曉鋒的整體規(guī)劃里,F(xiàn)link 流批一體成功落地雙 11 天貓核心數(shù)據(jù)場(chǎng)景,僅僅只是走出了陽(yáng)光大道的第一步。接下來(lái),天貓大數(shù)據(jù)團(tuán)隊(duì)計(jì)劃繼續(xù)探索存儲(chǔ)層的流批一體,而在更長(zhǎng)遠(yuǎn)的未來(lái),團(tuán)隊(duì)希望推動(dòng)流批一體往“湖倉(cāng)一體”方向去演進(jìn),并把經(jīng)過(guò)內(nèi)部打磨的技術(shù)架構(gòu)和平臺(tái),如 DataPhin、QuickBI、Flink、Hologres 整合的場(chǎng)景,輸出到云上服務(wù)更多外部用戶。

4 下一個(gè)規(guī)?;涞貓?chǎng)景什么時(shí)候到來(lái)?

阿里在核心數(shù)據(jù)業(yè)務(wù)上真正規(guī)?;涞亍傲髋惑w”無(wú)疑給業(yè)界開(kāi)了個(gè)好頭。

近幾年,大數(shù)據(jù)領(lǐng)域逐漸開(kāi)始擁抱“融合”(或所謂“一體化”)演進(jìn)的新方向,不管是今年剛成為熱議話題的“湖倉(cāng)一體”,還是更早提出的“流批一體”,其實(shí)都是這一思路的階段性成果。對(duì)于新的技術(shù)思路,大眾在一開(kāi)始肯定會(huì)有質(zhì)疑和觀望情緒。莫問(wèn)表示,團(tuán)隊(duì)希望通過(guò)這次成功打樣的案例向業(yè)界證明,F(xiàn)link 流批一體是真正能夠落地核心業(yè)務(wù)并為業(yè)務(wù)創(chuàng)造價(jià)值的。這或許能讓更多企業(yè)和團(tuán)隊(duì)打消觀望情緒,并使 2020 年成為流批一體落地的元年。

在黃曉鋒看來(lái),流批一體將成為阿里集團(tuán)內(nèi)部數(shù)據(jù)技術(shù)升級(jí)的新賽道。因?yàn)樘熵埖臉I(yè)務(wù)體量和業(yè)務(wù)場(chǎng)景的復(fù)雜度,在整個(gè)集團(tuán)里非常具有代表性,F(xiàn)link 流批一體在天貓業(yè)務(wù)上的成功應(yīng)用,會(huì)推動(dòng)整個(gè)集團(tuán)在流批一體這個(gè)賽道上的投入,也會(huì)推動(dòng)更多業(yè)務(wù)去升級(jí)到流批一體架構(gòu),以解決業(yè)務(wù)上的痛點(diǎn)。

除了在阿里內(nèi)部推動(dòng)更多業(yè)務(wù)落地 Flink 流批一體,莫問(wèn)提到,未來(lái)還會(huì)將更多精力和焦點(diǎn)放在開(kāi)源社區(qū)。下一步,阿里云實(shí)時(shí)計(jì)算團(tuán)隊(duì)會(huì)把在阿里業(yè)務(wù)場(chǎng)景下打磨出來(lái)的核心技術(shù)積累,在 Flink 未來(lái)的 1 到 2 個(gè)版本中逐步推回開(kāi)源社區(qū),讓更多企業(yè)都能夠用上 Flink 流批一體的能力。

當(dāng)然,在 Flink 流批一體推廣和大規(guī)模落地的道路上也充滿挑戰(zhàn)。

流批一體技術(shù)本身的挑戰(zhàn)在于,原來(lái)是一個(gè)單一引擎解決單一問(wèn)題(批或者流),現(xiàn)在需要一個(gè)引擎同時(shí)解決流 + 批的問(wèn)題,如果未來(lái)流和批的概念逐漸淡化,那么引擎本身就需要具備針對(duì)不同場(chǎng)景和需求智能化選擇流批模式的能力,這在技術(shù)上是非常大的挑戰(zhàn)。不過(guò)魯尼認(rèn)為,機(jī)遇和挑戰(zhàn)是一并存在的,如果用戶能夠把更多精力從選擇引擎、維護(hù)引擎中解放出來(lái),就可以更專注于業(yè)務(wù)本身,既能加快迭代效率也能利用流批一體引擎的靈活性解鎖更多有價(jià)值的業(yè)務(wù)場(chǎng)景。

另一個(gè)挑戰(zhàn)在于改變用戶的心智,莫問(wèn)表示,流批一體需要用戶轉(zhuǎn)變?cè)瓉?lái)固有的流批分離的思維模式,這并不是一件簡(jiǎn)單的事情,企業(yè)在做相關(guān)的決策時(shí)肯定會(huì)更加謹(jǐn)慎,需要逐步試點(diǎn)和推進(jìn)。另外,當(dāng)前很多互聯(lián)網(wǎng)公司離線計(jì)算團(tuán)隊(duì)和實(shí)時(shí)計(jì)算團(tuán)隊(duì)是兩個(gè)獨(dú)立的團(tuán)隊(duì)、兩套獨(dú)立的體系,如果要做流批一體,就需要兩個(gè)團(tuán)隊(duì)密切合作和共建,組織架構(gòu)上的挑戰(zhàn)不亞于技術(shù)上的挑戰(zhàn)。但莫問(wèn)相信,只要方向?qū)α?,一切只是時(shí)間問(wèn)題。

據(jù)了解,目前 Flink 社區(qū)中字節(jié)跳動(dòng)、快手、小米等幾家頭部公司都已經(jīng)開(kāi)始探索基于 Flink 的流批一體架構(gòu),或正在規(guī)劃當(dāng)中。

展望 2021 年,F(xiàn)link 流批一體或?qū)⒂瓉?lái)快速發(fā)展期。隨著更多大型互聯(lián)網(wǎng)公司成功落地并向業(yè)界輸出經(jīng)驗(yàn),相信會(huì)推動(dòng)更多中小企業(yè)選擇跟進(jìn)和嘗試流批一體架構(gòu)。

責(zé)任編輯:xj

原文標(biāo)題:為什么阿里云要做流批一體?

文章出處:【微信公眾號(hào):算法與數(shù)據(jù)結(jié)構(gòu)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算
    +關(guān)注

    關(guān)注

    2

    文章

    460

    瀏覽量

    39977
  • SQL
    SQL
    +關(guān)注

    關(guān)注

    1

    文章

    789

    瀏覽量

    46636
  • 阿里云
    +關(guān)注

    關(guān)注

    3

    文章

    1037

    瀏覽量

    45671

原文標(biāo)題:為什么阿里云要做流批一體?

文章出處:【微信號(hào):TheAlgorithm,微信公眾號(hào):算法與數(shù)據(jù)結(jié)構(gòu)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    深化阿里生態(tài)合作 優(yōu)化治理能力再獲權(quán)威認(rèn)可

    前言2026年2月5日,阿里上海大區(qū)合作伙伴年度頒獎(jiǎng)儀式圓滿舉辦,科技憑借在優(yōu)化治理領(lǐng)域的深厚技術(shù)積淀、豐富的行業(yè)落地成果與卓越的
    的頭像 發(fā)表于 02-09 17:29 ?855次閱讀
    深化<b class='flag-5'>阿里</b><b class='flag-5'>云</b>生態(tài)合作 <b class='flag-5'>云</b>優(yōu)化治理能力再獲權(quán)威認(rèn)可

    阿里SLB負(fù)載均衡配置指南

    當(dāng)業(yè)務(wù)流量超過(guò)單臺(tái)服務(wù)器的承載能力,或者需要實(shí)現(xiàn)服務(wù)的高可用時(shí),負(fù)載均衡成為必不可少的基礎(chǔ)設(shè)施。阿里SLB(Server Load Balancer)作為國(guó)內(nèi)使用最廣泛的負(fù)載均衡服務(wù),承載著海量的互聯(lián)網(wǎng)流量。
    的頭像 發(fā)表于 01-30 17:47 ?1339次閱讀

    聲智科技亮相2026阿里通義智能硬件展

    1月8日至11日,備受矚目的阿里通義智能硬件展在深圳火熱開(kāi)啟。作為專注聲學(xué)AI的全球創(chuàng)新企業(yè),聲智科技(SoundAI)與阿里通義大模型完成了深度戰(zhàn)略碰撞,并發(fā)表主題演講 。
    的頭像 發(fā)表于 01-19 16:06 ?468次閱讀

    雙百!100%中國(guó)車企全球業(yè)務(wù)接入阿里

    摘要:AI和汽車行業(yè)正在加速融合,未來(lái)阿里全棧AI將支撐全球車企建立領(lǐng)先的技術(shù)架構(gòu)與智能體驗(yàn)。 近日,在2026年新加坡國(guó)際車展上,阿里云表示已在汽車行業(yè)實(shí)現(xiàn)“雙百”突破:中國(guó)車企不僅在國(guó)內(nèi)市場(chǎng)
    的頭像 發(fā)表于 01-13 10:25 ?210次閱讀
    雙百!100%中國(guó)車企全球業(yè)務(wù)接入<b class='flag-5'>阿里</b><b class='flag-5'>云</b>

    小鵬汽車與阿里簽署后量子安全技術(shù)合作協(xié)議

    9月24日,小鵬汽車與阿里在云棲大會(huì)正式簽署后量子安全技術(shù)合作協(xié)議。小鵬汽車高級(jí)總監(jiān)林蓬蓬、阿里數(shù)據(jù)安全產(chǎn)品線總監(jiān)楊永代表雙方簽約。根據(jù)協(xié)議,
    的頭像 發(fā)表于 09-30 14:09 ?802次閱讀

    Vision Board開(kāi)發(fā)板使用paho_mqtt連接阿里失敗是什么原因呢?

    mqtt_sample中添加阿里平臺(tái)連接參數(shù), 在下方的代碼也進(jìn)行了對(duì)應(yīng)的修改 4.編譯燒錄,可以看到wifi模塊初始化正常,并且進(jìn)行聯(lián)網(wǎng) 5.啟動(dòng)mqtt,然后就報(bào)錯(cuò)了,主要錯(cuò)誤
    發(fā)表于 09-18 06:37

    賽思PTP時(shí)間同步服務(wù)器推薦 賽思×阿里 |30ns精度編織全球算力無(wú)界網(wǎng)

    賽思全球分布式數(shù)據(jù)中心PTP解決方案,助力阿里加速構(gòu)建“全球計(jì)算一張網(wǎng)”。01阿里,全球
    的頭像 發(fā)表于 08-15 17:59 ?2390次閱讀
    賽思PTP時(shí)間同步服務(wù)器推薦 賽思×<b class='flag-5'>阿里</b><b class='flag-5'>云</b> |30ns精度編織全球算力無(wú)界網(wǎng)

    阿里設(shè)備的物模型數(shù)據(jù)里面始終沒(méi)有值是哪里的問(wèn)題?

    如上圖,不知道講清楚沒(méi)有。 IG502自定義TOPIC 上發(fā)到阿里沒(méi)問(wèn)題。采用阿里物模型的格式來(lái)上發(fā)就不行。請(qǐng)大佬指教!
    發(fā)表于 08-05 06:43

    四維圖新與阿里達(dá)成戰(zhàn)略合作

    近日,北京四維圖新科技股份有限公司(以下簡(jiǎn)稱“四維圖新”)與阿里計(jì)算有限公司(以下簡(jiǎn)稱“阿里”)正式簽署戰(zhàn)略合作框架協(xié)議,宣布建立長(zhǎng)期戰(zhàn)略合作伙伴關(guān)系。雙方將深度融合四維圖新在輔助
    的頭像 發(fā)表于 06-05 17:53 ?1143次閱讀

    阿里稱要把AI融入每一塊業(yè)務(wù) 蔡崇信稱電商和+AI是方向

    阿里和馬的消息總是被人關(guān)注,前幾天還有爆料稱馬即將回歸阿里,后來(lái)被馬辟謠。 現(xiàn)在我們看到一個(gè)關(guān)于
    的頭像 發(fā)表于 05-12 15:32 ?814次閱讀

    阿里是什么?企業(yè)不可不知的云端架構(gòu)服務(wù)!

    阿里是什么?中國(guó)高速連線阿里 CDN 服務(wù) 阿里為國(guó)內(nèi)云端市場(chǎng)中市占有率第一的
    的頭像 發(fā)表于 03-16 09:43 ?1626次閱讀

    2025阿里智惠采購(gòu)季,WoSign SSL國(guó)產(chǎn)證書(shū)折上折滿減優(yōu)惠

    2025阿里“智慧采購(gòu)季,就上阿里”活動(dòng)火熱進(jìn)行中!2025年3月1日至31日,阿里WoS
    的頭像 發(fā)表于 03-13 14:36 ?723次閱讀
    2025<b class='flag-5'>阿里</b><b class='flag-5'>云</b>智惠采購(gòu)季,WoSign SSL國(guó)產(chǎn)證書(shū)折上折滿減優(yōu)惠

    阿里爆發(fā)式的跨越

    表示,阿里巴巴與蘋(píng)果的合作,將不僅僅局限于手機(jī)服務(wù)領(lǐng)域,未來(lái)還將涉及更多的業(yè)務(wù)板塊。 當(dāng)媒體都在驚嘆與討論蘋(píng)果為什么選擇阿里巴巴時(shí),背后真正的主角還需要加上一個(gè) “” 字。 長(zhǎng)期以來(lái),相比淘寶、天貓、菜鳥(niǎo),“
    的頭像 發(fā)表于 03-12 16:54 ?777次閱讀
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>爆發(fā)式的跨越

    廣和通基于阿里通義大模型推出隨身智能解決方案,賦能消費(fèi)電子終端行業(yè)

    2月,廣和通與全球領(lǐng)先的解決方案提供商阿里達(dá)成合作:廣和通AI模組及解決方案,基于阿里通義千問(wèn)大模型,推出“隨身智能解決方案”,賦能消
    的頭像 發(fā)表于 03-03 17:55 ?1380次閱讀
    廣和通基于<b class='flag-5'>阿里</b><b class='flag-5'>云</b>通義大模型推出隨身智能解決方案,賦能消費(fèi)電子終端行業(yè)

    廣和通攜手阿里推出隨身智能解決方案

    2月,廣和通與全球領(lǐng)先的解決方案提供商阿里達(dá)成合作:廣和通AI模組及解決方案,基于阿里通義千問(wèn)大模型,推出“隨身智能解決方案”,賦能消
    的頭像 發(fā)表于 02-25 16:04 ?1422次閱讀