來源:DataFunTalk
導讀 本次分享主題為抖音集團面向多樣應用場景的數據準備實踐。主要分為以下幾個部分:
(資料圖片)
全文目錄:
1. 抖音集團的數據應用
2. 數據準備介紹
3. 抖音集團的數據準備實踐
4 . 火山引擎的數據準備
分享嘉賓|陳昌源 字節跳動 數據準備技術負責人
編輯整理|小寧 滴滴
出品社區|DataFun
01
抖音集團的數據應用
1.抖音集團的數據規模
抖音集團作為一個數據驅動的公司,小到產品的研發與迭代,大到公司的決策和運營,都緊密圍繞數據進行。可以說,數據是公司的燃料,數據應用則是公司的引擎。公司在用的數據總量,已經達到了EB級別,這對數據存儲和處理的基建要求都非常高。日常數據處理中,早晚高峰的數據流量,達到了1億TPS,日均處理數據作業量百萬級以上。數據處理的效率直接影響到公司的運營效率。從圖中可以看出,集團的很多應用都是通過數據分析來驅動數據運營和迭代的。
2.抖音集團的數據應用架構
抖音集團的數據應用架構,橫向上主要分為三層:底層是平臺層,包括了數倉和計算引擎;上層是入口層,主要做訪問控制;比較豐富的是中間的應用和中臺層,這一層分為數據應用和中臺開發。右邊的中臺開發主要包括數據開發、數據治理、數據資產管理等一些基礎能力,主要面向數據開發者。左邊的數據應用,是面向業務的數據賦能利器,包括行為分析、實驗分析、客戶分析、智能洞察等等。支撐這些數據應用的是數據底座,也就是本文重點要講的數據準備。
02
數據準備介紹
1.數據準備的作用
數據準備是什么?能夠在數據應用中起到什么作用?從數據流的順序來看,數據在被業務正常使用前,經歷了以下過程:從數據源到數據建模,再到數據同步,最終形成數據集。數據從業務數據變成成型數據集的過程中,就是數據準備在發揮作用。所以,數據準備是幫助數據應用完成數據生產的工具鏈。在此過程中,數據接入與數據建模,是非常核心的兩個模塊。接入能力奠定了數據準備的廣度,建模能力決定了數據準備的深度。在圖中可以直觀看到,這兩個模塊的主要作用:數據接入側主要負責各種各樣數據源的接入、集成;數據建模側主要提供數據加工、分析、挖掘的能力。
2.數據準備的組成
下面進一步剖析數據準備的組成。
數據準備可以劃分為四個子系統: 建模子系統、執行子系統、增強準備和系統管理 。
建模子系統 承載的主體功能是邏輯的實現,對數據源、數據模型的實體進行抽象,以所見即所得的方式給客戶/用戶帶來數據上的操作能力。用戶可以連接自己想要的業務數據,通過低代碼的方式,完成數據處理流程,最終形成業務意義明確的數據集。
執行子系統 是將建模子系統生成的邏輯模型轉化成任務的核心系統。做數據產品的同學都會知道,任務是整個數據系統中的核心實體,讓任務高效、高穩定運轉,是執行子系統的核心目標。執行子系統包括了任務生成、任務執行、任務管理與監控幾個模塊。
為了保障數據任務的高效流轉和穩定落地,有了增強準備這一子系統。增強準備子系統是整個數據準備系統的智能化體現,包括類型推導、關系推斷、清洗建議和性能智能調優,都是為了讓復雜多樣的數據穩定、高效落地。
其他職能系統,包括權限管控、資源治理等,都屬于管理子系統。
下面針對數據準備整個系統中的兩個核心子系統展開來講。
建模子系統 輸出的模型,恰好是執行子系統的輸入。用戶結合對業務數據的認知,會把數據源、數據處理、算子作為原材料,輸入到建模子系統中,構造出的邏輯模型,呈現了用戶對數據業務的結構理解,作為執行子系統的輸入。
執行子系統 中的任務作業,是核心實體。按照用戶所需要的邏輯關系進行運算的同時,為了保障穩定性和性能,引入了引擎的調配參數。運行管理和監控模塊,則是從全局角度,來保障任務的吞吐。
通過兩個子系統的結合,滿足用戶業務需要,同時能夠為數據準備系統提供全托管能力:用戶可以在無人值守的情況下,保障整個系統任務的穩定運行。
03
抖音集團的數據準備實踐
在了解了數據準備的內在組成之后,下面介紹下數據準備在抖音集團內部是如何發揮作用的。
從前面的介紹可以看出,數據準備包含多種能力,可以歸納為四類:接入、建模、數據集、輸出。這四種能力是構成數據準備的核心,同時,數據準備也可以使用其中的部分能力來滿足不同業務場景的需求。因此,提出了數字魔方的概念,是指數據準備可以通過模塊化組合的方式,來滿足多樣的應用場景。從魔方中可以看出,x軸是從功能維度描述功能模塊,y軸是從架構維度描述系統分層,y軸的邏輯層和執行層,剛好對應上面提到的邏輯子系統和執行子系統的分工。z軸是從功能的進階程度,來描述模塊提供功能的分級。
下面分場景來介紹數據魔方是如何工作的。
1.BI場景,全員都能探索數據
第一個場景是BI場景。在一個數據驅動的公司,BI是必不可少的、全員可使用的應用。每個角色都可以通過分析數據來量化、輔助工作。在數據準備中,為了滿足BI的場景,主要貢獻了接入+建模+數據集的模塊能力。用戶將不同的業務數據接入到數據準備系統后,通過一定的數據處理,轉化成具有明確業務意義的數據集,從而為BI系統貢獻了豐富的數據集市。從右面的示例看出,用戶對接入的多種數據源進行業務關聯,最終生成了具有明確業務意義的數據集,來做后面的報表分析。
在BI分析的場景中,數據準備所面臨的最大挑戰,是在全員進行數據處理、探索的情況下,如何在有限資源條件下保障大量任務的高吞吐和穩定性。這里主要通過五個措施來實現。
(1)任務管控,隔離風險
第一點是通過異常管控,隔離風險。我們都知道,數據波動是難以人為控制的,在任務出現數據異常等造成資源使用過高的異常情況時,如何將個體任務與系統任務進行風險隔離,對系統穩定性是極為重要的。首先識別出異常的個體任務,將其與系統的其他任務進行安全隔離,保障系統的整體穩定。
(2)動態調參,節省資源
第二點是引入了動態調參的機制,通過分析任務的歷史信息,搜集到任務在不同時候所需要的參數,自適應調整任務的狀態,從而使整個系統的資源得到有效的節省。
(3)多路分發,提升性能
第三點是通過任務多路分發,根據任務的數據量,任務的不同特征,分配不同的鏈路,最大限度提升整個系統的運行性能。讓小任務占用較少的資源,大任務充分利用資源的運行能力。使整個系統的吞吐達到比較好的水平。
(4)沉淀規則,專業診斷
第四點是在系統內,沉淀豐富的診斷規則。為什么診斷規則重要呢?因為任務是用戶自定義的,且數據難以控制,如何識別任務特征,并且在任務發生異常時,診斷出異常原因,是很多數據系統面臨的挑戰。在我們的數據準備系統中,通過沉淀系統內大量任務的運行情況,抽象出規則,使規則引擎成為數據準備的核心能力。通過逐步學習任務的特征,來保障任務執行的穩定,并且在任務異常時準確識別出原因,反饋給用戶。
(5)監控大盤,及時告警
最后一點是監控大盤。監控大盤為整個數據準備系統提供全天候的實時任務監控和告警推送,以保障任務的穩定運行,對可能出現問題的任務,通過風險前置,滿足業務數據的SLA。
以上幾個措施,可以最大程度保障在資源有限的環境下,任務吞吐達到比較高的水平,系統達到比較高的穩定性。
2.CDP場景,打通數據孤島挖掘客戶
另一大數據應用場景是CDP場景。CDP是客戶數據平臺,以分析和挖掘客戶信息為主要功能。在此場景下,數據準備所提供的能力主要是接入+輸出。用戶為了挖掘有用的信息,會從各種各樣的數據源收集數據,并對數據進行融合打通,其中包括了行為數據、屬性數據和各種業務的明細數據。數據準備系統,通過提供有效的數據融合能力,來解決數據孤島的問題,讓挖掘客戶更加便捷。圖中列出了常用的幾種數據源的接入能力,包括:數據庫、API、流式數據、文本數據、更多應用數據等。
在CDP應用場景下,數據準備面臨的挑戰是什么呢?因為客戶信息對每家企業都是最核心的數據資產,因此客戶數據平臺,在公司內進行私有化部署有著非常強的訴求。如何既能同時支持多家企業部署,又能高效解決不同企業對接不同數據源的問題,是數據準備面臨的挑戰。這里,主要將接入的數據源分為兩種:數據庫類數據源和開放類數據源。
數據庫類數據源是企業的私域數據,維護在企業內部,主要通過插件式接入。如圖,客戶區的數據源是多種多樣且不可預知的;私部區是部署在客戶企業域內的數據平臺,數據準備提供了插件式的接入架構,使得新數據源的接入通過快捷插拔式即可完成,大大提升數據源接入效率。
開放類數據源只維護云端采集服務,采集后通過動態下發的方式,把數據或配置信息下發到私部企業域中,讓用戶無需額外調整,即可完成來自公開數據源和用戶配置的應用數據源等多種數據源的接入。
這樣,在多企業、多數據源的情況下,極大降低了系統升級迭代的成本,以及部署運維的成本。既為企業帶來了使用上的便利,也為平臺提供方節省了成本。
3.自定義場景,構建自己的數據應用
BI和CDP這兩種比較成型的應用場景中,用戶的數據處理是依托固有的數據模型來進行的。當用戶有更靈活的數據呈現需求時,需要自定義場景。在這個場景中,數據準備系統主要提供了接入+數據集+輸出的能力,使得用戶能夠便捷地對接所需要的數據源,在數據應用后臺,通過程序交互的方式,完成數據接入到數據輸出的流程。并通過openAPI的方式,將處理完的數據應用到自己的數據應用中。數據準備系統只提供穩定的后臺數據鏈路保障,數據的呈現完全交給用戶進行靈活自定義。如圖,右面上方的三個方框體現了數據準備對數據流的處理過程,右面下方的效果呈現是一個應用示例,用來說明用戶通過靈活取數的方式,滿足各種數據呈現效果,實現數據運營的閉環。
以上講了三種數據準備系統支持的核心應用場景。此外,通過模塊化的能力可以支持更多更豐富的應用場景,這些場景在未來會被逐步發掘出來。
通過圖中的數字魔方,可以直觀感受到,數據準備既是一個各模塊緊密協作的整體,又是一個可以高度模塊化的組件集合。針對不同場景,擁有靈活的適配能力,使得數據準備呈現出很強的生命力,這也是火山引擎中數據準備的優勢所在。
04
火山引擎的數據準備
最后來看一下,在火山引擎的數據準備里,如何給不同的應用提供不同的能力。
火山引擎的數據應用主要在SaaS層。如圖中紅色框出的部分。SaaS層是建立在IaaS層的云基礎和PaaS層的數據中臺之上。主要有五大應用:A/B測試-DataTester、增長營銷平臺-GMP、增長分析-DataFinder、客戶數據平臺-VeCDP、一站式數據分析與協作平臺-DataWind。其中,數據平臺-VeCDP、一站式數據分析與協作平臺-DataWind分布對應上面講到的三個場景中的CDP場景和BI場景。這五大數據應用,構成了火山引擎的數據營銷套件,全方位為企業客戶賦能,實現數據化運營,創造業務價值。
而數據準備,是為這五大數據應用提供基礎數據能力的組件,目前還沒有以獨立的產品對外透出。當客戶購買營銷套件中的某個應用時,數據準備會提供對應的模塊化能力,來打通數據從客戶側到火山應用側的通路。當客戶購買整個套件,或套件中的多個應用時,底層的數據準備能夠打通不同數據應用的數據,使已經形成的數據資產得以在不同應用中復用,實現一份數據多樣分析。
總結一下,數據準備通過多源數據融合打通了數據孤島;通過低代碼的數據建模,帶給用戶所見即所得的數據操作體驗;而豐富的數據集市,為多樣化的數據分析場景提供了完美助力;完整的數據鏈路能力,使火山引擎打通了任督二脈。
以上是本次分享的內容,感謝大家的時間。
火山引擎是云市場的新秀,與企業在共同成長,感謝大家對火山引擎的關注。
05
Q&A
Q1:任務診斷部分,有哪些診斷手段和規則?如何平衡診斷操作本身的資源消耗?
A : 如何平衡診斷與任務:診斷分兩部分,一部分是離線診斷,一部分是在線診斷。
離線診斷主要是任務在發生異常的時候,把信息快速反饋給業務系統,主要應用場景是把診斷的異常信息提示給客戶,讓客戶進行整改。是在系統無法自恢復的情況下給出的提示。
在線診斷,是結合當前任務執行中的異常數據,根據固定的pattern,映射到需要調優的參數。系統發現有任務異常并且可以進行自恢復時候,通過診斷信息調整參數,進行任務重跑。
Q2 : 增強準備模塊中的類型推斷、關系推導可以展開介紹下嗎?比如多表場景下的join,join的類型是否可以在模塊中推斷出來?
A : 數據來自不同數據源,不同類型數據源有各自的字段類型體系。不同數據源接入到數據準備系統后,給用戶最終呈現的類型體系,是系統的類型體系。第一步類型體系的推斷,是基于不同數據源到系統類型體系對接中明確的mapping關系。第二步是做概率性推斷,主要是基于數據探查能力,在抽樣獲取數據源部分數據之后,識別數據字段中的值,根據字段類型特征,以一定概率推薦這個字段應該取什么樣的數據類型。第一步中的mapping關系,結合第二步中基于抽樣值的類型推斷,就可以給數據模型提供較為準確的類型推斷。
Q3 : 數據準備是火山引擎DataWind里面的可視化建模嗎?有沒有可視化建模的能力?可視化建模方式在抖音集團內部使用情況怎樣?有多少用戶量通過可視化這種拖拽的方式構建數據集呢?
A : 是的。可視化建模是DataWind中的子產品,是有產品透出的,是數據準備能力的一部分。數據準備除了有可視化建模這種通過拖拽構建數據集的方式之外,核心能力還有數據接入、數據集、數據輸出。很多能力服務于火山引擎營銷套件里的多個數據應用產品。
第二個關于數據準備的能力在抖音集團內部的使用情況。使用量比較大,數據準備能力不僅包括了已經在產品透出的可視化建模,還包括了數據接入、數據集、數據任務等。
以上就是本次分享的內容,謝謝大家。
▌2023數據智能創新與實踐大會
數據架構/數據效能/智能應用/算法創新……
4大體系,專業解構數據智能
16個主題論壇,覆蓋當下熱點與趨勢
70+演講,兼具創新與最佳實踐
1000+專業觀眾,內行人的技術盛會
點擊下方鏈接了解詳情:
關鍵詞:
中國生物首個自主研發創新型抗體偶聯藥物臨床試驗申請獲受理
據中國生物消息,7月7日,國藥集團中國生物上海生物制品研究所自主研發
港股異動 | 京東方精電(00710)漲超5% 機構認為車載顯示引領座艙智能化 行業提質擴容在即
智通財經APP獲悉京東方精電00710早盤持續走高漲超5截止發稿漲524報1204
首份上市券商半年報預喜!財通證券預計中期凈利同比增加55%至70%
7月10日晚間,今年首家券商半年報業績預告出爐。財通證券披露,本期業
10號直播帶貨日榜:東方甄選升至抖音榜首,貓妹妹快手銷量第一
【直播帶貨日榜】是鞭牛士推出的多個平臺達人每日直播帶貨榜單。根據第
夏季三伏天養生6大禁忌需注意
【三伏天養生6大禁忌】7月11日正式入伏,三伏天通常出現在小暑與處暑之
關于我們 加入我們 聯系我們 商務合作 粵ICP備2022077823號
創氪網 m.hbftgdzb.com 版權所有 技術支持:廣州中創互聯網信息服務有限公司
投稿投訴聯系郵箱:317 493 128 @qq.com