為進一步促進云計算創(chuàng)新發(fā)展,建立云計算信任體系,提升產(chǎn)業(yè)技術(shù)和服務(wù)水平,由中國信息通信研究院、中國通信標(biāo)準(zhǔn)化協(xié)會聯(lián)合主辦的第十屆可信云大會于 2023 年 7 月 25 - 26 日在北京國際會議中心舉行,大會重磅發(fā)布了最新一批可信云評估結(jié)果及最佳實踐案例。本次 “可信云最佳實踐案例” 共設(shè)置六大類別,為云原生界的發(fā)展范式提選,共歷時 2 個月,「DaoCloud 道客」的網(wǎng)絡(luò)運維巡檢方案和中間件方案在眾多方案中脫穎而出,獲得云原生容器類和云原生虛擬化云平臺類的最佳實踐。
兩個方案都是在紛繁復(fù)雜的需求場景下,應(yīng)對實際應(yīng)用場景的查漏補缺而產(chǎn)生的創(chuàng)新方案,不僅更貼合實際生產(chǎn)環(huán)境的實際需求,也進一步為云計算行業(yè)的標(biāo)準(zhǔn)化體系建設(shè)落地提供有力支撐和參考。
「DaoCloud 道客」研發(fā)副總裁-潘遠航;云原生網(wǎng)絡(luò)團隊負責(zé)人、云原生研究院院長-藍維洲,出席會議并領(lǐng)獎。
此外,DaoCloud 研發(fā)副總裁潘遠航,參與可信云“平臺工程與 SRE 分論壇”,并發(fā)表演講《平臺工程助力研發(fā)效能提升的實踐》。他指出,作為 Gartner 2023 年重要戰(zhàn)略技術(shù)趨勢,“平臺工程”旨在為企業(yè)的開發(fā)團隊提供一個自助開發(fā)平臺和最佳實踐,助力效率的提升、業(yè)務(wù)的專注、標(biāo)準(zhǔn)的統(tǒng)一?;谖覀兩a(chǎn)落地的實踐,分享我們?nèi)绾闻浜峡蛻舻钠脚_團隊,規(guī)劃和實現(xiàn)平臺工程定義的平臺能力。
01
最佳實踐
網(wǎng)絡(luò)運維巡檢方案
目前巡檢通常有兩類方式,一是被動式巡檢,通過采集應(yīng)用的信息來確認集群的狀態(tài)但是缺少時效性。二是主動式巡檢,采用手動方式給集群注入壓力,觀測集群的情況,但是因為規(guī)模大、巡檢頻率高或流程復(fù)雜等原因,實施困難。這兩種巡檢方式,在部分巡檢場景下并不能滿足巡檢目的。
「DaoCloud 道客」推出的運維巡檢方案是調(diào)研了運維人員的常規(guī)巡檢需求而產(chǎn)生的,源于其開源項目 Kdoctor 。Kdoctor 是一款基于主動式壓力注入的巡檢項目,讓網(wǎng)絡(luò)、存儲、應(yīng)用等巡檢任務(wù)實現(xiàn)了自動化,基于 CRD 的設(shè)計,能夠?qū)佑^測性組件,讓巡檢功能的實施高度產(chǎn)品化,能完成集群網(wǎng)絡(luò)聯(lián)通性巡檢、coredns 服務(wù)巡檢、基礎(chǔ)網(wǎng)絡(luò)健康巡檢、http 服務(wù)巡檢、本地磁盤巡檢等任務(wù)。Kdoctor 的定位不是取代傳統(tǒng)專業(yè)的測試工具,而是希望提供一個簡單、快速、高效的云原生化巡檢工具,來幫助傳統(tǒng)的測試工具完善缺少的功能。Kdoctor 的主要創(chuàng)新特點:
(1)探針式的巡檢原理:不依賴第三方應(yīng)用的部署和輸出,主動向集群注入壓力,采集響應(yīng),同時對發(fā)壓端的開銷內(nèi)存用量做了優(yōu)化,確保長時間壓測情況下不會出現(xiàn) Pod 的 OOM,提高了巡檢的可實施性。
(2)高覆蓋度:能夠覆蓋測試到集群中的眾多組件和基礎(chǔ)設(shè)施。
(3)縮短巡檢時間:高度適用于大規(guī)模集群的部署和日常運維、故障問題的范圍排查,一定程度上減輕了運維工作量。
(4)巡檢結(jié)論準(zhǔn)確性高:對運維工作進行了標(biāo)準(zhǔn)化的實現(xiàn),以最佳實踐的發(fā)壓參數(shù)和配置實現(xiàn)了巡檢,降低了測試人員的技能門檻。
(5)低成本:能夠降低測試環(huán)境的準(zhǔn)備成本。
(6)支持多種巡檢報告輸出形式:支持CR status、aggregation API、PVC、本地磁盤、metric等多種方式,可對接后端觀測性組件,繪制集群的相關(guān)狀態(tài)拓撲圖,滿足多維度產(chǎn)品需求。
在技術(shù)層面上,Kdoctor 主要由如下組件構(gòu)成:
(1)Kdcotor controller,主要的工作是實施巡檢任務(wù)的管理。當(dāng)管理員下發(fā)具體的巡檢任務(wù) CR 時,Kdcotor controller 就會動態(tài)啟動一組相應(yīng)的 task agent pod 來實施。
(2)Kdcotor agent,它以 daemonset 或 deployment 存在,是巡檢任務(wù)的具體實施者,按需運行在集群中的每一個角落,實施巡檢任務(wù),當(dāng) task agent pod 完成巡檢任務(wù)后,會把巡檢結(jié)果更新到巡檢任務(wù) CR status 中,也會把具體的巡檢報告匯聚發(fā)送到 Kdcotor controller。
Source:DaoCloud
適用場景:
(1)部署大規(guī)模集群后,實施一次性的巡檢任務(wù),確認集群的網(wǎng)絡(luò)和磁盤正常,應(yīng)用部署的資源和副本數(shù)量正確,滿足期待的性能。
(2)集群日常運維中,實施周期性的巡檢任務(wù),完成實時監(jiān)控,第一時間發(fā)現(xiàn)問題。
(3)集群出現(xiàn)故障后,可實施問題覆蓋范圍的排查。
(4)輔助各種云原生項目在 CICD 環(huán)節(jié)中的 E2E 測試。
(5)相關(guān)組件出現(xiàn)問題后,可用于實施流量壓力注入,配合 Bug 復(fù)現(xiàn)排查。
(6)測試第三方應(yīng)用的灰度發(fā)布、升級等場景下的業(yè)務(wù)連續(xù)性。
運維人員在集群部署、日常監(jiān)控、問題范圍排查、問題復(fù)現(xiàn)等場景下,缺少專業(yè)的、自動化的、云原生的巡檢工具,這給運維人員的工作增加了額外的負擔(dān),Kdoctor 的使用不僅可以降低運維人員巡檢過程中的時間和人力成本,同時提升了各項目組的運維效率。
02
最佳實踐
中間件方案
該方案是基于中間件能力提供的服務(wù)方案,在其中,中間件服務(wù)提供了一個強大的工具集,用于管理和監(jiān)控應(yīng)用程序,可提高應(yīng)用程序的可靠性和穩(wěn)定性,減少人工干預(yù)和人為錯誤,主要有以下功能:1、可以自動化應(yīng)用程序的管理任務(wù),例如配置和部署等。2、提供了豐富的監(jiān)控和報告功能,能夠輕松地跟蹤應(yīng)用程序的性能和健康狀況,提高應(yīng)用程序的可用性和響應(yīng)能力。3、提供了強大的自動擴展功能,能夠根據(jù)應(yīng)用程序的需求自動增加或減少資源,從而提高應(yīng)用程序的效率和可擴展性。該方案的創(chuàng)新性在于容器化的使用,可以無需關(guān)心底層操作系統(tǒng)、網(wǎng)絡(luò)和存儲等細節(jié),保障數(shù)據(jù)庫的資源獨立性和安全性,通過結(jié)合云原生技術(shù)也可以擁有 Kubernetes 所帶來的自動伸縮、簡化部署、部署靈活、高可用性、自動化運維等能力,實現(xiàn)了 Kafka-operator 從 java 到 Go 的語言轉(zhuǎn)變,利用 Go 語言一樣能對 Kafka 的實例進行管控,該中間件服務(wù)也可以支持多種中間件從而提高資源利用率。該方案的技術(shù)能力特點:1.統(tǒng)一架構(gòu):整體模塊支持多種中間件,通過統(tǒng)一的框架完成不同中間件管理,在擴展和維護方面表現(xiàn)更加優(yōu)秀。2.靈活拓展:通過預(yù)留配置接口,可以更方便地實現(xiàn)應(yīng)用遷移,在升級和環(huán)境變更時給運維團隊帶來更多便利。3.高可用性:通過結(jié)合云原生技術(shù),相較于傳統(tǒng)中間件模式可以做到極大的高可用,通過自動故障檢測使中間件節(jié)點按需遷移到性能更高,穩(wěn)定性更好的計算及存儲節(jié)點等基礎(chǔ)設(shè)施中,對于中間件連續(xù)可用性及穩(wěn)定性都有了質(zhì)的飛躍。4.高穩(wěn)定性:通過結(jié)合 Kubernetes Operator 技術(shù),可以動態(tài)管理高可用中間件的整體狀態(tài),極大地減少了用戶使用中間件過程中需要定期關(guān)注監(jiān)控告警并手動維護的工作量。5.多云能力:通過結(jié)合 DaoCloud Enterprise 5.0 整體產(chǎn)品的跨集群打通能力,可以使中間件具備主從按集群分離部署的能力,有效減少了在極端情況下整個集群不可用時業(yè)務(wù)應(yīng)用使用中間件異常的風(fēng)險,為企業(yè)業(yè)務(wù)應(yīng)用多中心多活等場景提供了底層保障。適用場景:1. 當(dāng)用戶需要快速創(chuàng)建和管理中間件時,該方案提供了完善的產(chǎn)品功能和交互界面,用戶可以通過界面快速方便地創(chuàng)建和管理中間件實例,比起傳統(tǒng)模式通過命令行或腳本操作極大地提高用戶體驗。2. 通過 Operator 機制保證中間件實例在遇到問題時的快速自愈能力,讓運維人員無需長時間關(guān)注監(jiān)控和告警來手動管理中間件各節(jié)點。
03
總結(jié)
此次兩個方案獲得中國信息通信研究院、中國通信標(biāo)準(zhǔn)化協(xié)會等專業(yè)機構(gòu)的一致認可,是激勵「DaoCloud道客」不斷前進的動力,我們會不斷地在業(yè)務(wù)實際使用場景中升級、迭代并創(chuàng)新出更完善的解決方案,幫助每一個使用DaoCloud Enterprise 5.0 產(chǎn)品的客戶獲得更好的體驗,助力企業(yè)數(shù)字化轉(zhuǎn)型的成功落地。
鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場無關(guān)。僅供讀者參考,并請自行核實相關(guān)內(nèi)容。