AI悖論
進步的生態代價
面對指數級增長
雖然人工智慧(AI)有潛力解決從醫療診斷到氣候建模等全球挑戰,但它同時也是一個巨大的資源消耗者。我們正經歷一個新的悖論:AI模型的開發和擴展,其性能呈指數級增長,而生態代價卻急劇上升。據估計,僅訓練一個大型語言模型產生的二氧化碳排放量就相當於五輛汽車在整個生命週期中的排放量。面對氣候危機,這種增長令人擔憂。在 morev•o,我們不將這種動態視為命運,而是視為挑戰和任務。我們直接將聯合國的永續發展目標(SDGs)整合到我們的開發週期中。
創新與韌性基礎設施(SDG 9)
更大並不總是更好,雖然沒有規模也不行。我們特別專注於開發和實施小型語言模型(SLMs)。這些專門的模型在明確定義的任務上能夠達到大型語言模型的性能,但只消耗後者一小部分的資源。其中一個關鍵的杠桿是模型優化。通過數學方法,如修剪(移除神經網路中不必要的連接)和量化(降低權重的精度),我們大幅降低了模型的複雜性。研究表明,僅將精度降低1%,就可以將模型的能源需求降低多達77%。在實踐中,這意味着AI應用能夠更快響應、需要更少的硬體,並仍然提供精確的結果。通過創建專門的架構,這些架構在標準硬體而非大型、耗能的GPU叢集上運行,我們使得最先進的技術變得可及,而無需投資於昂貴的基礎設施。
↑ 返回目錄通過微調實現永續生產(SDG 12)
盡可能多的AI,盡可能少的能源。輪子不需要每次都重新發明。我們專注於調整現有的、經過驗證的模型(微調),以避免從頭開始耗能的新開發。像GPT-3這樣的模型的初始預訓練消耗約1,300兆瓦時的電力——這相當於約400個普通家庭一年的用電量。而有針對性的微調通常只需要這個能源的一小部分。通過優化的微調方法,所需的浮點運算(FLOPs)可以減少多達64%,同時保持模型的精確性,並利用現有大型模型的智慧,為特定應用場景量身定制。
↑ 返回目錄積極的氣候保護與本地主權(SDG 13)
在軟體開發中,人們經常忘記,每一行代碼都會留下能源足跡。在 morev•o,我們認真對待我們的間接排放(Scope 3)。一個關鍵點是雲端與本地化之間的權衡。我們為每個項目個別分析理想的基礎設施。雲端平台通過規模效應和使用可再生能源,可以比傳統資料中心節能多達93%。但在資料保護和資料主權至關重要的地方,本地的On-Premise和邊緣解決方案具有巨大優勢:它們減少了跨長距離的資料傳輸所產生的二氧化碳。一個複雜且不必要地寬泛的請求發送給通用模型,可能產生的二氧化碳排放量是發送給高效模型的精確提示的50倍。
↑ 返回目錄為目標建立夥伴關係(SDG 17)
AI領域的永續性不是一個單一學科,而是一個共同任務。SDG 17提醒我們,只有通過合作才能實現全球目標。我們將自己視為客戶的合作夥伴,並將生態責任和數位競爭力視為互補而非對立。重視這一認知的企業通過降低能源消耗來降低營運成本,同時提高對重視ESG(環境、社會、治理)標準的投資者和客戶的吸引力。優化的AI解決方案可以將生產力提高多達33%,同時降低資源消耗。對 morev•o 來說,高端AI在使用最少資源時發揮最大效用時最為強大。
↑ 返回目錄技術考量
模型壓縮
為了使AI模型能在標準硬體上運行,我們使用兩種主要方法。訓練後量化(PTQ):而標準模型通常使用32位浮點數(FP32)作為權重,我們將其轉換為8位(INT8)甚至4位格式。這將存儲需求減少四倍,並大幅加快推理速度。在結構修剪中,我們識別死神經元或對預測質量沒有顯著貢獻的連接。通過移除這些冗餘,我們減少了每次請求所需的計算量(FLOPs)。
參數高效微調(PEFT)
與其更新模型的數十億參數,我們使用LoRA(低階適應)等技術。在此過程中,只訓練小的額外矩陣,而主模型保持不變。訓練期間的存儲需求急劇下降(通常超過90%),這使得訓練可以在單個GPU上進行,而非在叢集上進行。這節省了能源和成本。
邊緣推理優化
為了最小化資料傳輸(Scope 3排放),我們為邊緣運算優化模型。我們減少長文本生成時的記憶體需求,使得AI即使在本地伺服器上也能無延遲地響應。通過智能地聚合請求,我們提高硬體資源的利用率,從而避免空閒時的能源浪費。
永續性指標
項目的成功可以通過特定的KPI來衡量,例如測量單個使用者請求的焦耳消耗量(每次推理的能源消耗——EPI),或通過將計算時間與當前電網的碳強度進行比較,特別是考慮在可再生能源高峰時期使用資料中心(計算的碳強度)。
一個 morev•o 案例模擬:客戶服務的效率
項目
為一家能源服務提供商自動化電子郵件分類和回覆草稿。
初始情況
客戶使用API連接到一個市面上的大型語言模型(LLM),以每月分類約50,000個客戶請求。問題在於每次請求的高運行成本、雲端傳輸的資料保護顧慮,以及巨大的能源開銷,因為一個通用模型被用於一個專門任務(分類)。二氧化碳當量相當於每天為~10輛電動汽車充電。
morev•o的解決方案
I. 模型選擇(SDG 9 & 12): 取代1750億參數的模型,選擇一個只有70億參數的緊湊開源基礎模型。
II. 使用PEFT進行微調: 通過LoRA,模型被專門針對能源領域的專業術語(如電表讀數、費率變更)進行訓練——在單台工作站上只需要幾個小時,而非在伺服器叢集中需要數天。
III. 量化: 模型從FP16壓縮到4位(GGUF格式),因此AI現在在本地伺服器(On-Premise)上運行。
IV. 提示優化: 模糊的指令被高精度的系統提示取代,這些提示將計算時間(Token)減少了40%。
結果
| 指標 | 之前(標準AI) | 之後(morev•o) | 改善 |
|---|---|---|---|
| 延遲 | ~4.5秒 | ~0.8秒 | − 82% |
| 每次請求的能源需求 | 12.0 Wh | 1.4 Wh | − 88% |
| 每月營運成本 | ~1,200 €(API費用) | ~150 €(電費/維護) | − 87% |
| 資料主權 | 雲端(外部) | 本地(內部) | 最大 |