支持向量決策樹
圖3|從 SVM 中得到的決策樹。橢圓表示決策節(jié)點(diǎn),矩形代表反應(yīng)結(jié)果容器,三角形代表被切除的子樹。箭頭上的數(shù)字對應(yīng)于決策屬性的測試值。每個反應(yīng)結(jié)果容器(矩形)對應(yīng)一個特定的反應(yīng)結(jié)果值(“3”或“4”,如圖所示)。括號中的數(shù)字是正確地分配給該容器的反應(yīng)的數(shù)量(任何被錯誤分類的反應(yīng)都用正斜杠標(biāo)識)。分?jǐn)?shù)值表示反應(yīng)具有不確定的結(jié)果,這是由決策樹的較高位置的屬性值缺失導(dǎo)致的。那些包含了大多數(shù)成功反應(yīng)的容器被分為三個不同的組(分別用綠色,藍(lán)色和紅色陰影標(biāo)示)。每個彩色子樹定義了一組有助于單晶形成的特定反應(yīng)參數(shù)。通過審查這些條件,可以得出相應(yīng)的化學(xué)假設(shè),這些假設(shè)分別對應(yīng)于低、中和高極化胺。來源:Nature 533, 73–76
算法生成的假設(shè)及其化學(xué)三維結(jié)構(gòu)模型
圖4|對從模型中產(chǎn)生的三個假設(shè)及每個假設(shè)結(jié)構(gòu)的圖示。單晶形成所需的實驗條件很大程度上取決于胺屬性。小的、低極化的胺需要不存在與之競爭的 Na+ 離子,也需要較長的反應(yīng)時間,以避免無機(jī)砌塊沉淀。球形、低投影尺寸的胺則需要包含 VOSO4 等試劑的 V4+ ,因為它們不能直接從常見的 V5+ 前體中產(chǎn)生 V4+。長的三胺和四胺要求草酸鹽反應(yīng)物,以改變無機(jī)次級砌塊的電荷密度。這三個假設(shè)分別對應(yīng)于圖 3 中的綠色、藍(lán)色和紅色子樹。
我們的機(jī)器學(xué)習(xí)方法使我們能夠利用包含歷史反應(yīng)的化學(xué)信息,并闡明支配反應(yīng)結(jié)果的因素。機(jī)器學(xué)習(xí)模型對先前未經(jīng)測試的有機(jī)胺的預(yù)測準(zhǔn)確率,超過了依靠多年來形成的化學(xué)直覺所實現(xiàn)的準(zhǔn)確率。此外,我們的方法以可驗證的假設(shè)形式揭示了支配反應(yīng)結(jié)果的化學(xué)原理,它能更成功地制造新化合物,也能產(chǎn)生有用的化學(xué)信息,這代表了試探性反應(yīng)的革新性進(jìn)步。
AI 真能發(fā)現(xiàn)神奇材料嗎?
計算材料科學(xué)還是一門新興的學(xué)科,其主要推動著就是上文提到的加州大學(xué)伯克利分校的材料科學(xué)家 Gerbrand Ceder 。受人類基因組計劃的啟發(fā),Ceder 想到了使用高通量數(shù)據(jù)驅(qū)動的方法進(jìn)行材料發(fā)現(xiàn)。Ceder 認(rèn)為,人類基因組本身并非能作為疾病治療的方案,但卻可以為醫(yī)學(xué)提供研發(fā)疾病治療方案的海量基本定量數(shù)據(jù)——材料科學(xué)是不是也能借鑒遺傳科學(xué)的方法,用“材料基因組”(該詞為 Ceder 所創(chuàng))編碼各種化合物呢,就像 DNA 堿基對編碼蛋白質(zhì)等各種生物材料一樣?
2003 年,Ceder 研究組創(chuàng)建了一個量子力學(xué)計算數(shù)據(jù)庫,用于預(yù)測金屬合金最有可能形成的晶體結(jié)構(gòu),因為這是發(fā)明新材料的基礎(chǔ)。在過去,即使使用用超級計算機(jī)也需要通過多次反復(fù)長期大量試錯找到合金的基態(tài)。但在 Ceder 研究組 2003 年發(fā)表的一篇論文中,他們描述了一種捷徑:研究人員首先計算出一些常見二元合金晶體結(jié)構(gòu)的能量,建立小型數(shù)據(jù)庫,然后設(shè)計了一種機(jī)器學(xué)習(xí)算法,這種算法可以從上述數(shù)據(jù)庫中提取模式,繼而預(yù)測出新合金基態(tài)的可能值。結(jié)果表明,Ceder 研究組設(shè)計的這種機(jī)器學(xué)習(xí)算法表現(xiàn)良好,大大縮減了計算時間。
2006年,Ceder 在 MIT 開始了 Materials Genome Project,用改進(jìn)后的機(jī)器學(xué)習(xí)算法預(yù)測能用作電動車電池的鋰材料。2010年,該計劃的數(shù)據(jù)庫里已經(jīng)包含了2萬種計算機(jī)預(yù)測的化合物。另一方面,Ceder 研究組成員 Stefano Curtarolo 在 2006 年去了杜克大學(xué)并在那里建立了自己的實驗室——Center for Materials Genomics,專門研究金屬合金,Curtarolo 研究組與其他兩家研究機(jī)構(gòu)合作,逐漸改進(jìn) 2003 年的機(jī)器學(xué)習(xí)算法并拓展數(shù)據(jù)庫,構(gòu)建了 AFLOW 系統(tǒng),能計算已知的晶體結(jié)構(gòu)并且自動預(yù)測新的晶體結(jié)構(gòu)。
2011年6月,白宮宣布斥資幾億美元進(jìn)行 Materials Genome Initiative(MGI),由此開始計算材料科學(xué)這門學(xué)科成為主流。如今,除了 Ceder 的 Materials Project,還有原 Ceder 研究組成員、現(xiàn)杜克大學(xué)材料科學(xué)家 Stefano Curtarolo 的數(shù)據(jù)庫 AFLOWlib,以及西北大學(xué)材料研究者 Chris Wolverton 在 Ceder 思路啟發(fā)下,用自己研發(fā)的算法和模型建立的數(shù)據(jù)庫 Open Quantum Materials Database(OQMD)。
這3大數(shù)據(jù)庫都含有從材料科學(xué)界廣泛使用的無機(jī)晶體結(jié)構(gòu)數(shù)據(jù)庫中提取的5萬種材料,這些都是曾經(jīng)被制造出來的固體,但其導(dǎo)電性和磁性尚未被徹底研究。其不同之處在于:Ceder 的 Materials Project 側(cè)重沸石、鋰電池相關(guān)以及金屬有機(jī)骨架結(jié)構(gòu)材料,并以較高的標(biāo)準(zhǔn)衡量是否將計算機(jī)預(yù)測的材料納入數(shù)據(jù)庫;Curtarolo 的 AFLOWlib 是最大的數(shù)據(jù)庫,包含 100 多萬種材料和幾十萬種假想材料,但相應(yīng)的里面也不乏只能存在一瞬間的材料;Wolverton 的 OQMD 有大約 40 萬種假想材料,其中鈣鈦礦相關(guān)的尤其豐富,此外正如名字中 Open 那樣,用戶可以下載整個數(shù)據(jù)庫。
目前這3大數(shù)據(jù)庫都在用各自的方法不斷補(bǔ)充數(shù)據(jù)、完善算法,但離理想還有很大距離。當(dāng)前的機(jī)器學(xué)習(xí)算法相對擅長預(yù)測某種晶體是否穩(wěn)定,但在預(yù)測吸光性和導(dǎo)電性時則會出現(xiàn)很大誤差。不過,Materials Project 已經(jīng)發(fā)現(xiàn)了幾種有望超越現(xiàn)有鋰離子電池陰極材料性能的材料,以及有可能提高太陽能電池能量轉(zhuǎn)化率的金屬氧化物。都柏林三一學(xué)院的研究人員使用 AFLOWlib 預(yù)測了 20 種可用于制作傳感器或計算機(jī)存儲器的磁性材料,并且成功合成了其中的兩種,同時經(jīng)實驗證明其磁性與預(yù)測非常接近,相關(guān)論文已經(jīng)在 Nature 發(fā)表。