創(chuàng )澤機器人 |
CHUANGZE ROBOT |
近日,MIT材料科學(xué)與工程系李巨、Tonio Buonassisi、任之初等人在Nature Reviews Materials的Comment欄目發(fā)表題為“Autonomous experiments using active learning and AI”的文章,介紹了由主動(dòng)學(xué)習和AI驅動(dòng)的智能自主實(shí)驗。
主動(dòng)學(xué)習和自動(dòng)化并不能讓人類(lèi)輕松地擺脫實(shí)驗室的工作。在它們對新材料研究產(chǎn)生實(shí)質(zhì)性的影響之前,我們需要非常仔細地部署人工智能系統,確保它們能夠穩定地運行,并且能夠應對各種偏差,包括隨機噪聲(stochastic errors)和因人類(lèi)對所研究的問(wèn)題認知不足而導致的認知性偏差(epistemic errors)。如今,隨著(zhù)自動(dòng)化和AI逐漸普及,我們需要認真考慮自主實(shí)驗室的可重復性、可重配置性和實(shí)驗互通性這些關(guān)鍵因素。
探索新材料是一個(gè)勞動(dòng)密集型過(guò)程。愛(ài)迪生為了發(fā)明白熾燈泡,測試了數千種燈絲。現如今,便宜的自動(dòng)化設備讓結合機器人和主動(dòng)學(xué)習算法的新研究方法成為可能。雖然在預算和空間有限的情況下,構建完全自動(dòng)化的實(shí)驗平臺是非常具有挑戰性的,但是在半自動(dòng)化的工作流上也可以取得不錯的進(jìn)展。例如,在儀器之間完全可以保留傳統的手動(dòng)轉移樣品,并不一定要使用機械臂或者是傳送帶之類(lèi)的自動(dòng)化。只要實(shí)驗結果G度可重復,即使使用一些基本的機器學(xué)習方法,比如G斯過(guò)程回歸和貝葉斯優(yōu)化,就已經(jīng)能很好地解決許多材料優(yōu)化問(wèn)題。
就像把孩子養大需要幾十年時(shí)間,并且在這過(guò)程中需要教他們各種各樣的東西一樣,人們不應該期望在知識基礎比較有限的情況下,由主動(dòng)學(xué)習(active learning)驅動(dòng)的實(shí)驗一開(kāi)始就非常有效。這個(gè)學(xué)習過(guò)程在開(kāi)始時(shí)往往是非常脆弱的。教一個(gè)小孩子走路需要很多手把手的引導,同樣地,驅動(dòng)實(shí)驗的人工智能在一開(kāi)始也需要很多指導,即使其調用的自動(dòng)化平臺看似十分“穩定G效”。
01 認知性偏差的挑戰
能夠獲得長(cháng)期可復現的數據集是自動(dòng)化平臺有能力開(kāi)展主動(dòng)學(xué)習的衡量標準。當一個(gè)實(shí)驗重復兩次產(chǎn)生不同的結果時(shí),差異主要來(lái)自?xún)蓚(gè)方面:偶然性偏差和認知性偏差。偶然性偏差源于隨機性,可以通過(guò)提升自動(dòng)化占比和在模型中引入G斯過(guò)程噪聲核來(lái)有效緩解,因此相對容易處理。相比之下,認知性偏差則可能會(huì )影響自主化實(shí)驗的成功,尤其是在主動(dòng)學(xué)習算法還未經(jīng)過(guò)優(yōu)化調整的情況下。認知性誤差,從本質(zhì)上講,就是由于我們科研工作者的“知識偏見(jiàn)”——我們認為一些變量在多次試驗中是恒定的,但實(shí)際上它們在“悄悄”地變化。
以我們實(shí)驗室的自動(dòng)化滴涂碳基底樣品過(guò)程為例,有段時(shí)間我們發(fā)現即便是重復同樣的實(shí)驗,樣品的性能差異也很大。直到有一天,我們注意到碳基底可能是各向異性的,也就是說(shuō)我們切割它的方式(從市場(chǎng)上買(mǎi)來(lái)的片狀切成條狀)是一個(gè)重要的變量,直接決定了滴涂后樣品擴散的方向和終面積。而在此之前,我們一直很自信地默認這個(gè)基底是各向同性的。諸如此類(lèi)的知識偏見(jiàn),很可能將直接導致整個(gè)機器學(xué)習項目失敗。
為什么可復現性對主動(dòng)學(xué)習特別關(guān)鍵?手動(dòng)實(shí)驗不也面臨這個(gè)問(wèn)題嗎?答案是肯定的,但人類(lèi)的經(jīng)驗和靈活性大大緩解了這個(gè)問(wèn)題。想象一個(gè)學(xué)生發(fā)現了一種合成方法,重復了10次,其中2次得到了非常令人興奮的結果。學(xué)生會(huì )怎么做?誤差區間太大,無(wú)法發(fā)表,所以學(xué)生和導師會(huì )討論、調整設置,終找出統計異常背后的原因(例如,中間反應產(chǎn)品的外來(lái)水分含量)。
統計上的異常源于我們沒(méi)能找齊決定了實(shí)驗結果的變量全集。如果我們選擇忽略而不是去深入調查和試圖理解我們漏了哪個(gè)隱藏變量,其結果就是,我們發(fā)現自己的實(shí)驗難以復現。《自然》雜志的一項調查顯示,文獻中不可復現性的主要原因是選擇性報告,其本質(zhì)也是類(lèi)似的——文獻只披露了實(shí)驗變量全集的一個(gè)子集(也許作者自身也未意識到)。如果我們還沒(méi)搞清楚誤差來(lái)源就輕率地啟動(dòng)一個(gè)主動(dòng)學(xué)習項目,這可能會(huì )浪費大量時(shí)間和金錢(qián)。算法會(huì )錯誤地將特殊的噪聲視為信號,從而給出糟糕的建議,正所謂“garbage in, garbage out”。
另一方面,如果我們仔細地去排除認知性偏差,找出隱藏變量,可能會(huì )有意想不到的科學(xué)發(fā)現,就像青霉素是由于意外真菌污染而未能培養細菌培養物所發(fā)現的。人類(lèi)非常擅長(cháng)扭轉“實(shí)驗失敗”,因為我們有著(zhù)出色的因果推理能力(用福爾摩斯的話(huà)說(shuō),“一旦排除了所有可能性,無(wú)論剩下的是多么看似不現實(shí)的推論,必定就是事實(shí)”)。可惜的是,樸素的主動(dòng)學(xué)習方法并做不到這些,因為它們被設定了過(guò)于簡(jiǎn)化的世界觀(guān),而且沒(méi)有太多先驗的物理知識。
與傳統機器學(xué)習技術(shù)不同,大型語(yǔ)言模型如ChatGPT能生成科學(xué)上合理的猜想。未來(lái),我們有望利用更先進(jìn)和多面的自主實(shí)驗室來(lái)驗證這些由大模型生成的假說(shuō)。比如,我們可以在受控的氣氛反應室內自動(dòng)重復合成程序,以探究實(shí)驗結果對不同氣體分壓的依賴(lài)性。隨著(zhù)自動(dòng)實(shí)驗引入計算機視覺(jué)(在某些方面已超過(guò)人類(lèi)視覺(jué)),以及借助于龐大的先驗知識庫,AI系統將能更準確地跟蹤實(shí)驗室條件(例如濕度、背景輻射、前體材料的紋理和不均勻性)。因此,隨著(zhù)AI系統逐漸整合多模態(tài)傳感器,弄清認知誤差的可能原因并針對性地調整工作流程只是時(shí)間問(wèn)題。大型語(yǔ)言模型結合具有通用感覺(jué)運動(dòng)功能的強化學(xué)習,以及下文所述的“新控制論”,很可能是實(shí)驗室自動(dòng)化革命的下一個(gè)步驟。
02 AI驅動(dòng)的自主實(shí)驗室網(wǎng)絡(luò )
隨著(zhù)AI系統變得更加復雜和強大,預算和空間的限制,模塊化的云實(shí)驗室設施將變得有必要。這類(lèi)新型實(shí)驗室不僅需要能重新編譯和鏈接各種實(shí)驗設備,還需要確保多個(gè)自動(dòng)實(shí)驗室之間的互通性。一個(gè)包括實(shí)驗和理論兩個(gè)方面的龐大的AI網(wǎng)絡(luò )將被建立,以實(shí)現實(shí)驗室級的勞動(dòng)分工、規模經(jīng)濟和互相制衡。例如,當某個(gè)AI實(shí)驗室制備出了具有突破性性能的樣品后,AI網(wǎng)絡(luò )會(huì )負責將(i)該制備方案發(fā)送至負責理論研究的AI實(shí)驗室進(jìn)行分析,(ii)在該實(shí)驗室本地復制多份物理樣品并傳送至多個(gè)專(zhuān)門(mén)負責測試的AI實(shí)驗室,(iii)制備方案本身分發(fā)至負責制備同類(lèi)型材料的AI實(shí)驗室以進(jìn)行對抗性的復現測試。
今天的材料合成、表征和性能測試的設備主要是為人類(lèi)用戶(hù)設計的。未來(lái),自主實(shí)驗室每臺設備都需要具有兩個(gè)接口,一個(gè)主接口服務(wù)于物聯(lián)網(wǎng)上的AI系統,另一個(gè)用于人類(lèi)操作。每個(gè)設備模塊將更像是軟件庫中的子程序,其物理樣品輸入/輸出規范將被明確且嚴格地定義。設備鏈將具備快速和自動(dòng)的重配置能力,以滿(mǎn)足不同科研項目的需求。值得注意的是,重新配置并不意味著(zhù)需要將設備物理移動(dòng)以組成一條流水線(xiàn),因為輪式機器人和小型無(wú)人機將負責模塊之間的樣品傳送。
雖然自主材料研究實(shí)驗室的概念早在1950年代就已經(jīng)出現,但至今成功的案例仍然較少。目前在學(xué)術(shù)界,實(shí)驗室大多還是以人為核心,且每個(gè)實(shí)驗室的建設預算僅限于幾百萬(wàn)美元或更少。這通常意味著(zhù)單個(gè)實(shí)驗室只有自家“一招鮮”或“幾招鮮”的手段,這使得它們在識別認知誤差或迅速適應工作流變化方面表現不佳。當懷疑有些不尋常的情況發(fā)生時(shí),人類(lèi)研究員會(huì )向校園內從事不同L域的同事尋求幫助,請他們進(jìn)行補充測量。這種靈活性在科研探索過(guò)程中是非常重要的,反觀(guān)我們今天的以機器和AI為核心的自主實(shí)驗室案例,由于規模太小,還無(wú)法做到類(lèi)似的靈活性。
為了解決這個(gè)問(wèn)題,不同的自主實(shí)驗室需要實(shí)現更好的協(xié)同工作。例如,讓AI有能力將一個(gè)物理樣品及其對應的元數據從一個(gè)實(shí)驗室傳送到另一個(gè)實(shí)驗室。這樣的任務(wù)需要我們建立標準化的數據和樣品傳輸協(xié)議,比如規定用于傳輸液體、粉末、凝膠、顆粒和單晶材料的膠囊,它們需要與易于稱(chēng)重、尺寸測量以及光學(xué)和化學(xué)表征設備相兼容,還需要能有效防止外界污染。此外,我們可能還需要重新考量設計建筑和基礎設施,例如無(wú)人或者是機器人和人類(lèi)研究人員共同工作的全新的建筑架構。
AI時(shí)代已經(jīng)來(lái)臨。為了在實(shí)驗研究和材料發(fā)現中充分釋放AI的潛力,為硅基智慧提供“手”(材料合成加工/樣品轉移/設備模塊重組)和“眼睛”(材料表征/多模態(tài)感測)至關(guān)重要。建立一個(gè)穩健的AI對于現實(shí)世界的感知反饋系統J非易事。但是,隨著(zhù)AI實(shí)驗室的正確配置和相互鏈接(核心是標準化接口和模塊化設備),以及廣泛共享的專(zhuān)業(yè)知識,強大的AI自主實(shí)驗室可能會(huì )徹底改變材料研究。
未來(lái)云端實(shí)驗室可以被建設在太陽(yáng)能/風(fēng)能充足的荒漠中,科研人員可以從全世界任意一個(gè)地方控制云端實(shí)驗室。園區內的兩大主體——數據流和物質(zhì)流,將分別由互聯(lián)的AI網(wǎng)絡(luò )和機器人網(wǎng)絡(luò )負責運載。(本圖由MidJourney + Adobe Firefly生成)
云端實(shí)驗室內部由一個(gè)個(gè)的模塊組成。每一個(gè)模塊就像一個(gè)代碼中的函數,有著(zhù)清楚的輸入輸出規范,例如輸入的材料樣品需要符合某個(gè)標準化的尺寸/形態(tài)。不同模塊之間由輪式機器人或小型無(wú)人機進(jìn)行樣品傳送。
![]() |
機器人底盤(pán) Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動(dòng)機器人底盤(pán) 商用機器人 智能垃圾站 智能服務(wù)機器人 大屏機器人 霧化消毒機器人 紫外線(xiàn)消毒機器人 消毒機器人價(jià)格 展廳機器人 服務(wù)機器人底盤(pán) 核酸采樣機器人 機器人代工廠(chǎng) 智能配送機器人 噴霧消毒機器人 圖書(shū)館機器人 導引機器人 移動(dòng)消毒機器人 導診機器人 迎賓接待機器人 前臺機器人 消殺機器人 導覽機器人 |