比來,機械進修在化學(xué)范疇的運用有很年夜停頓,特殊是化學(xué)搜刮成績,從藥物挑選、電池設(shè)計到OLEDs設(shè)計,催化劑的發(fā)明。 汗青上化學(xué)家應(yīng)用薛定諤方程做數(shù)值近似來處理化學(xué)檢索成績,如應(yīng)用密度泛函實際(DFT),但是近似值的盤算本錢限制了搜刮的范圍。
為了可以或許擴展搜刮才能,雷鋒網(wǎng)懂得到已有幾個研討小組應(yīng)用DFT生成的練習數(shù)據(jù),創(chuàng)立ML模子來猜測化學(xué)性質(zhì),例如Matthias Rupp等用機械進修模子來猜測各類無機份子的原子化能,J?rg Behler 和 Michele Parrinello引入DFT勢能面的一種新的神經(jīng)收集表征。在這些任務(wù)的基本之上,谷歌研討院在QM9基準數(shù)據(jù)集(配有DFT盤算的電子,熱力學(xué)和振動性質(zhì)的份子聚集)上運用了各類機械進修辦法。
谷歌研討院宣布了兩篇論文,引見了他們在這一范疇的研討,研討任務(wù)由Google Brain團隊,Google Accelerated Science團隊,DeepMind和巴塞爾年夜學(xué)協(xié)作完成。 第一篇論文《Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy》查詢拜訪了回歸份子和份子表征的選擇對疾速機械進修模子的影響,模子用于構(gòu)建無機份子的十三個基態(tài)電子性質(zhì),每一個回歸/表征/性質(zhì)組合的機能經(jīng)由過程進修曲線評價,該曲線描寫近似誤差,以此作為練習集年夜小的函數(shù)。論文在QM9基準數(shù)據(jù)集上測試了多種機械進修辦法,并集中改良最有愿望的深層神經(jīng)收集模子。
第二篇論文《Neural Message Passing for Quantum Chemistry》描寫了一種稱為新聞傳遞神經(jīng)收集(MPNN)的模子族,將其籠統(tǒng)地界說為包括許多對圖形對稱性具有不變性的神經(jīng)收集模子。研討團隊在MPNN模子族中開辟了新變體,機能顯著優(yōu)于QM9基準測試的一切基準測試辦法,別的某些目的的機能改良了近四倍。
從機械進修的角度來看,份子數(shù)據(jù)之所以風趣,緣由之一是一個份子的天然表征以原子作為界限的結(jié)點和鍵。可以或許應(yīng)用數(shù)據(jù)中固有對稱性的模子更輕易泛化,這很輕易懂得,卷積神經(jīng)收集在圖象辨認上之所以勝利,一部門緣由是模子可以或許記住圖象數(shù)據(jù)中的一些不變性常識,好比把一種圖片中的狗挪到圖片右邊照樣一張狗的照片)。 圖形對稱性這一固有特點是機械進修處置圖象數(shù)據(jù)異常幻想的性質(zhì),在這范疇也有很多風趣的研討,例如Yujia Li等研討了卻構(gòu)化圖片的特點進修技能,David Duvenaud等運用圖象神經(jīng)收集進修份子指紋信息,Steven Kearnes等提出一種機械進修模子用于無向圖的進修。雖然這一范疇已有所停頓,谷歌研討院愿望找到化學(xué)(和其他)運用模子的最好版本,并找出文獻中提到的分歧模子之間的接洽。
谷歌研討院提出的MPNN模子進步了QM9數(shù)據(jù)集義務(wù)(猜測一切13種化學(xué)性質(zhì))的最好機能,在這個特定的數(shù)據(jù)集上,他們的模子可以精確地猜測13種性質(zhì)中的11個,如許的猜測機能曾經(jīng)足夠精確,能對化學(xué)家將來的運用有贊助。別的,此模子比應(yīng)用DFT模仿要快30萬倍。然則在MPNN模子走向現(xiàn)實運用之前還有許多任務(wù)要做。現(xiàn)實上,MPNN模子必需運用于比QM9數(shù)據(jù)更多樣化的份子聚集(例如數(shù)量更年夜,變更更年夜的重原子聚集)。固然,即便有了更真實的數(shù)據(jù)集,模子的泛化機能照樣很差。戰(zhàn)勝以上兩個挑釁須要處理機械進修研討的焦點成績,例如泛化。
猜測份子性質(zhì)是一個異常主要的成績,它既是先輩的機械進修技巧的運用場景,也為機械進修帶來了異常風趣的基本研討課題。最初,份子性質(zhì)的猜測有助于造福人類的新藥物和資料的設(shè)計。谷歌迷信家們以為流傳研討結(jié)果,贊助其他研討者進修機械進修運用都是及其主要的。