中國食品安全網訊(記者譚妮妮)零售的本質,圍繞成本、效率和體驗展開。當以大模型為代表的人工智能時代來臨,并從狂飆的“百模大戰(zhàn)”走向理性的“落地為王”,原本存在于零售行業(yè)難以平衡“不可能三角”,便有了新的解法。
九數(shù)算法中臺,這一錘煉于京東內部高并發(fā)、高復雜協(xié)同零售場景的MaaS工具,支持傳統(tǒng)模型和大模型訓練?,F(xiàn)已對接京東言犀大模型等多個開源模型,秉承“多云多模、端云協(xié)同”理念,持續(xù)深耕技術,旨在推動零售電商場景降低成本、提升效率、優(yōu)化體驗。
2023年京東11.11,九數(shù)算法中臺及其上的一批模型應用獲得大規(guī)模實操機會,算力方面實現(xiàn)千卡級別分布式調度,為800+電商業(yè)務提供核心算法服務,實現(xiàn)億級用戶及商品理解建模。
高效算力智能調度:實現(xiàn)資源分配“最優(yōu)解” 降低算力成本
算力,是大模型實現(xiàn)價值躍升的重要“賽點”。但大模型落地過程中,仍面臨算力需求指數(shù)級增長、算力成本高、異構復雜度高、跨域多維調度等挑戰(zhàn)。因此,實現(xiàn)算力統(tǒng)一高效、低成本調度,尤為關鍵。
淬煉于京東零售業(yè)務的九數(shù)算法中臺,在底層算力層面,建設新一代異構跨域智能算力調度系統(tǒng),進行算力資源調度的精細化管控,實現(xiàn)算力資源分配的近似“最優(yōu)解”,助力零售算法算力降低成本。
這一技術架構,從算法任務全周期的五個階段進行優(yōu)化,覆蓋動態(tài)隊列、多維感知、調度決策、高效執(zhí)行、智能歸因,不僅將最遠相距兩千公里的多個機房算力統(tǒng)一為算力集群,實現(xiàn)跨域調度和資源高效匹配,還通過GPU算子化、算子融合、IO優(yōu)化、RDMA等技術,系統(tǒng)優(yōu)化計算任務,極致壓榨硬件性能,使GPU利用率提升1倍,大幅縮減算力成本。
多模:高效微調“開箱即用” 提升業(yè)務效率
經歷了技術爬坡的大模型,如今正走向應用落地,表現(xiàn)出推動產業(yè)數(shù)智升級的巨大潛力。但應用之路并非想象中順利,大模型時常出現(xiàn)“幻覺”、時效性差、專業(yè)知識不足、數(shù)據(jù)安全等問題還有待攻克。
針對上述問題,九數(shù)算法中臺著力構建一整套完善的大模型應用能力框架,支持高性能高速微調和RAG知識檢索技術,大幅提升模型訓練效率,解決復雜程度各異的業(yè)務問題,致力于提供更好的服務體驗。
以SFT(高效微調)技術解決單步簡單業(yè)務問題。比如當用戶詢問“蘋果手機有哪些基礎功能”時, SFT技術可基于預訓練基座模型,使用零售電商垂直領域的數(shù)據(jù)對大模型進行微調,得到具有該特定業(yè)務領域知識的垂直大模型,進而回答用戶咨詢。
目前,九數(shù)算法中臺集成包括言犀大模型在內的多個主流LLM模型,自研9N-SFT框架,統(tǒng)一模型的樣本標準、訓練模式等,實現(xiàn)一份樣本和配置可以在多個模型間隨意切換。通俗地說,多個主流LLM模型經過算法工程師一一配置,可在九數(shù)的環(huán)境下實現(xiàn)“開箱即用”,讓大模型在調用時“試得更快”,較純開源代碼性能提升約40%。這一自研框架現(xiàn)已應用于京東內部多個業(yè)務,實現(xiàn)SFT技術的低成本應用。
以RAG(檢索增強生成)技術處理相對固定流程復雜業(yè)務問題。具體到零售場景中,無論是來自C端用戶的商品咨詢,還是來自B端商家的平臺入駐咨詢,對時效性、專業(yè)度、準確性要求都更高,還需要大模型具備多輪對話的理解能力。RAG+LLM技術可以充分發(fā)揮人工智能結合上下文語義理解的能力,為用戶提供更優(yōu)質的體驗。
具體來說,RAG技術由索引、檢索、生成三大組件構成,通過LangChain實現(xiàn)大語言模型和外部知識庫的連接。比如當用戶詢問“某兩款不同品牌手機有什么不同時”時,RAG技術通過索引,為大模型“外掛”兩款手機不同參數(shù)、不同屬性數(shù)據(jù)、最新熱門趨勢等知識庫,通過檢索技術在商品知識庫中找到準確的商品參數(shù)等信息,通過大模型生成能力對比兩款手機在哪些重要維度有所不同,高效、精準地向用戶輸出兩款手機差異性。
面向未來,九數(shù)算法中臺致力于實現(xiàn)“基于意圖的結果指定”這一全新的產品交互方式,通過AI Agent(智能體)為用戶提供服務,以更高智能化的方式解決更復雜的業(yè)務問題。
端云協(xié)同:大模型“輕量部署” 優(yōu)化用戶體驗
無疑,大模型應用落地對本地計算呈現(xiàn)出指數(shù)級增長需求,如果將全部計算交由云計算進行集中式處理,并不現(xiàn)實。更合理的路徑是,既要充分發(fā)揮云計算優(yōu)勢,又要調動端計算的敏捷性,激活“端云協(xié)同”。在這一背景下,大小模型的端云協(xié)同變得更具現(xiàn)實意義。
京東判斷,大小模型協(xié)同將是未來大模型技術落地的重要路徑。一方面,大模型負責輸出通用能力,小模型負責實際推理執(zhí)行,不僅提升系統(tǒng)的覆蓋度和準確率,亦可降低推理延時、保證隱私數(shù)據(jù)安全;另一方面,小模型可為大模型反饋數(shù)據(jù),進一步促進大模型的優(yōu)化和提升,實現(xiàn)大小模型協(xié)同進階。
九數(shù)算法中臺打造端云協(xié)同的AI技術體系,將AI模型放置于手機端,在交互全鏈路中提供AI能力,更加實時快捷地理解用戶訴求,并且進行實時的計算,提升全鏈路用戶交互體驗,優(yōu)化業(yè)務目標預測。技術實現(xiàn)方面,通過pythonVM兼容主流操作系統(tǒng)及95%以上機型;基于自研高效推理引擎與多種壓縮編譯技術并行,推動大模型輕量化發(fā)展;更通過大小模型協(xié)同訓練達到一次訓練即可云端通用,實現(xiàn)全鏈路智能化效果提升。
目前,九數(shù)算法中臺正探索端智能技術的兩個核心應用場景:一是搜推場景中,搜索推薦業(yè)務對時延性要求極高,且使用越實時的數(shù)據(jù)對模型效果提升越大。利用端云協(xié)同,可以基于端上用戶最實時的數(shù)據(jù),向用戶推薦更加準確的商品。二是數(shù)據(jù)安全中,端智能計算結構天然具備數(shù)據(jù)隔離的作用,確保敏感數(shù)據(jù)不上傳,保障數(shù)據(jù)安全性。
這一端智能技術還將應用于更多場景。例如,優(yōu)化快遞小哥體驗將快遞員裝車檢查從云端檢測遷移至手機端檢測,即便在弱網環(huán)境下,也可保證系統(tǒng)響應速度,提升操作體驗。
未來,京東還將持續(xù)深耕技術,結合零售電商領域的數(shù)智化經驗,持續(xù)推動大模型走向行業(yè)深處。
延伸閱讀:關于京東云vGPU池化方案
面向大模型時代的數(shù)智算力需求,京東云依托自研混合多云多集群調度操作系統(tǒng)云艦,推出了vGPU池化方案,通過GPU異構資源池化,提高了AI運行效率,降低了成本,具有非常顯著的優(yōu)勢和實際應用價值。vGPU池化方案能夠提供一站式GPU算力池化能力,將分散的GPU資源集中管理和調度,使得GPU利用率最高可提升70%。