AI助力數據驅動是否會改變NWP?(一)
AI助力數據驅動是否會改變NWP?
——ECMWF-ESA主題會議評介
§ 賈朋群 魏曉敏
2022年11月14-17日,歐洲中期天氣預報中心(ECMWF)和歐空局(ESA)聯合舉辦了第3屆機器學習用于地球系統觀測和預報主題研討會。這次會期為4天的研討會,采用以線下為主和少量線上報告的方式,包括了43個口頭報告,40個墻報,內容十分豐富。
本文基于該系列會議最新材料,試圖解讀AI技術已經和將要怎樣改變氣象和地球系統預報活動,探討這樣的發展會怎樣引領我們能力的提升。
1 形勢和任務:凝練科學問題
系列研討會一般圍繞某個專業主題展開,會議的設計包括該領域一些主要進展的綜合評述。這樣的評述既有時效性,即會議舉辦時的最新進展或狀態;還要兼顧傳承性,即自前次會議以來,最突出和顯著的進步有哪些。這類評述,在成熟的系列研討會上,一般由特約的主題報告的報告人給出框架。本次會議,第一天上午的2個45分鐘時長的主題報告,從AI/ML與數據同化角度和地球觀測與遙感兩個角度,承擔這樣的任務,也很好地概括了ESOP的內涵。
兩個主題報告中,令人印象深刻的,是來自Sofer海洋科技公司學者Penny從數字同化的角度,闡述的技術現狀和挑戰,其中報告里凝練的科學問題,更是具有極高的啟發性,令人在“種樹”的同時,思考和想象未來“森林”的樣子。
本節基于本次會議及前兩次會議主題報告的相關材料,試圖梳理一些科學問題的凝練、解決方向和路線等。
1)觀測、再分析和模擬結果,各有局限性
以傳感器發明、探空觀測和氣象衛星等為標志性事件的氣象探測,隨著觀測數據體量的不斷增加,孕育了包含動力模式(偏微分方程(PDE)閉合模式)、數據同化等技術,并帶來現代預報業務能力的提高(圖1)。然而,在這樣的發展過程中,以數據同化(DA)為例,一些根本性的問題或者挑戰隨處可見,例如:
● 在DA輸入端,考慮到觀測在數值、地點和類型上的誤差,以及物理約束中的不確定性(如對離散化、網格分辨率、數值解、參數化過程等可追溯表征的模擬后,在如何應用物理定律時存在的不確定性),DA本身是在不確定條件下估計動力系統的軌跡。
●在DA及預報應用整個業務鏈條中,日趨成熟的現代同化技術還是忽略了大量觀測數據,盡管這樣的忽略在DA應用于再分析時有所緩解。
● 隨著模式時空分辨率的提高,數據同化的成本大大提高。
上述一些問題,是與模擬預報系統面對的對象、體量異常龐大的系統(達到O(109)量級)密切相關,而模擬系統僅僅采用可計量的方法。一些改進需要依賴AI代表的更豐富的有效方法也就不言而喻。
早在2017年,會議主題報告報告人之一的Penny博士就在一次學術會議上反復提示,他向模式研發者強調:再分析不等于觀測;向觀測者強調:再分析不等于模式。真正描述好這3個彼此相互聯系但又有區別的變量場直接的關系,報告人給出了一個中庸,但實際上依然有不確定要素的描述(圖2)。
解決上述問題的途徑之一,就是用雷達或衛星觀測這類對氣象場的遙感觀測結果,直接作為初始場輸入模式系統。這樣的改變,采用AI技術進行模擬,就帶來了預報范式的改變(圖3)
這樣的轉變,如果要替代目前的預報系統,還面臨很多挑戰:一是只有觀測到的(氣象要素場)量才能進行預測,觀測到的過程和未觀測到的過程之間的已知物理關系無法被利用;二是觀測是稀疏和有噪聲的,但卻被視為“地表真值”,觀測的不確定性無法表征;三是動力不確定性沒有表征(即預報是“概率”性的而非動力預報)。
2)如果承認觀測和再分析并不完美,應用AI技術如何考量
觀測的誤差和模式不確定性給再分析帶來的局限,使得二者具有的不確定性是容易被理解的,但在這樣的情況下,如果應用AI技術開展預報,首先要面對一些問題,例如:
l再分析數據用于ML訓練是否足夠了?
l純粹的模擬數據集是否能更有效?
l偏差和系統誤差如何處理?
l我們真的需要考慮上述問題嗎?還是可以直接從觀測和基本物理約束中學習?
上述遞進式的問題,也是目前不斷探索和實踐中的智能化數值預報技術的不同切入和視角。
實際上,對于包括氣象和地球系統模擬在內的地球物理Al/ML應用來說,視覺比較是不夠的。目前研發中常用的RMSE,也不足以衡量AI/ML預測模型的性能。在這樣的前提下,能否能為地球物理AI/ML應用找到更好的指標或是最大的挑戰:我們能否開發出能夠正確響應初始條件擾動的AI/ML模型?衡量這一點的最佳方法是什么?
此外,地球物理AI/ML方法需要一定程度的通用性,以應用于尚未見到的數據,但它們也必須在小尺度上保留所需的誤差特征和細節。這方面的挑戰是,我們如何在控制數值擴散到可接受水平的同時,推動比大尺度天氣流更精細的分辨率?更進一步,下一代“再分析”產品(其主要目的可能是支持AI/ML應用程序)的需求是什么?
3)如何應用AI技術完全替代預報模式中的參數化
對上一節提出的問題的完整回答,并非是一個報告能夠覆蓋的,或許需要一代學者長時間的共同努力。但是,目前動力預報系統中最大不確定性來源,即參數化是否能夠借助AI技術被完全替代,則較多地提到議事日程。
提出完全替代參數化的思想,最早可以追溯到20世紀末。當前,在最熱門的混合模式(即動力與AI混合模擬)研究領域,借助ML開發的參數化,被標記為“隱藏變量”,其目標就是要替代傳統模式中的動力參數化(圖4)。
在替代模型中,需要通過投影過程,省略/平均一些高分辨率模型(CRM)變量,因為這些變量在低分辨率模型(GCM)中沒有對應的變量,故這些變量成為GCM的隱藏變量。不正確的降低分辨率和投影可能會挑戰混合模型預測的穩定性和預期中的技巧改進。
4)混合模式或具有可最先實現的優勢:包括軟件和硬件兩方面
混合模式,即新一代借助AI技術的預報模式,并非推倒原來系統重建,而是將AI技術在預報系統全工作流中應用并實現模式整體的系統改進。這樣的混合,隨著數值預測模型的現代化,例如,軟件方面使用支持差異化的新語言編寫,并設計為利用GPU硬件(圖5)計算等,混合模式解決方案已經開始介入業務應用層面。這時,混合模式能否保持與傳統模式相比的競爭優勢,無論就模式性能還是計算成本而言,就成為其發展和被認可的關鍵。
這時,需要面對和認知的科學問題是:從與觀測結果的比較中,可以了解多少依賴于狀態的(傳統)模式誤差?又如何區分系統觀測誤差和系統模式預測誤差?
在計算層面,需厘清Al/ML方法可以提高對熟練的預測模型必須具有哪些屬性的理解。對于Al/ML解決方案應該是什么樣子,沒有嚴格的指導方針,但未來很可能是傳統模式和Al/ML模式的混合。所有未來模式都應該是軟件可微分的。Al/ML的趨勢和工具使這一目標更容易實現。傳統的原始方程模式為“自下向上”的設計,Al/ML方法則具有更大的靈活性和對不同運動尺度的控制,可以將它們分開,允許或不允許它們之間的交互,以不同的方式約束它們,并賦予它們不同的重要性/優先級。目前AI/ML方法中基本上沒有產生和發展觀測、模式和動力誤差估計的基本概念——這是DA為Al/ML開發提供信息的最大機會之一。數據同化低成本替代模型為以前不可行的新的數據分析方法提供了機會,例如大集成,高分辨率,非高斯/非線性分析方法等。AI/ML方法的優化框架可能能夠用于為DA社區創建新的算法方法,提高天氣預報社區之外的數據同化的可見性,DA社區有助于形成在Al/ML中更一般應用的新思想的發展,社區的合并是不可避免的——需要許多不同類型的專業知識來解決這些問題。
2 氣象中心業務嵌入AI技術進程:研究和業務化
參加本次會議的專家,較多的學者來自氣象業務部門,包括主要氣象中心和企業預報研發活動項目等。因此,會議報告在很多方面,展示了最新的氣象業務中,可能或已經引入AI技術并取得一定進展的發展態勢。
1)NASA的“科學數據智能”理念
在AI快速走進科學領域的背景下,NASA推出的AIST(Advanced Information Systems Technology,先進信息系統技術)項目中,AI被作為重要手段應用其中(圖6)。在NASA的地球科學部,各類5-10年項目框架的不同階段,一些分目標伴隨大量的數據循環分析內容,AI在其中近一半的過程中被引入,完成確認、開發和支持先進軟件和信息系統的任務。
這類應用主要通過3個概念,在深層次上,體現“科學數據智慧”的理念:一是NOS(New Observing Strategies),即新觀測戰略,指通過智能、及時、動態和協調分布的傳感器,設計和運行新觀測測量和新觀測系統;二是ACF(Analytic Collaborative Frameworks),即分析協同框架,指靈活的科學調查,充分利用大量不同的觀測,使用先進的分析工具、可視化和計算環境,并與相關的觀測系統無縫交互;三是ESDT(Earth System Digital Twins),即地球系統數字孿生,指開發綜合的地球科學框架,用最先進的模型(地球系統模型和其他模型)、及時和相關的觀測和分析工具得到地球數字映射,這一技術將推動實現近期和長期的科學和政策決策。
D-SHIELD詮釋NOS的功能。D-SHIELD(Distributed Spacecraft with Heuristic Intelligence to Enable Logistical Decisions,具有啟發式智能的分布式航天器以實現物質流決策,圖7)是一種操作設計工具,用于給定的分布式空間任務(DSM)架構,規劃異構有效載荷的重新定向和操作,考慮功率/有效載荷約束,同時最大限度地提高科學價值。它使用基于觀測系統模擬實驗(OSSE)的迭代科學觀測模擬器,適用于實時規劃和快速任務設計。該項目通過開發基于AI的規劃和調度的DSM操作工具,為新觀測戰略(NOS)信任領域做出了貢獻。
ACF更好地區分數據中心和分析中心。數據和分析中心是地球科學很多相關機構必有的分支機構或功能。然而,NASA的ACF理念下,二者的主要區別(圖8)已經顯現出來,兩類關鍵機構之間的合作,就成為需要更好面對的。
在計算層面上,NASA利用AI技術,已經開發了多種針對不同對象的分析工具,例如,時間序列和科學模型、圖像處理和數據融合、模態和信息提取等。