我們?cè)诮衲昴瓿醯奈恼?【2021版】全球44家頂尖藥企AI輔助藥物研發(fā)行動(dòng)白皮書 - 速石科技BLOG (www.youjiajingji.com) 白皮書里有聊到,對(duì)于AI,我們的判斷是現(xiàn)在主要還集中“人工”的部分,而不是“智能”。但CADD(計(jì)算機(jī)輔助藥物研發(fā))/AI通??梢灾С诌_(dá)到或選擇這些藥物研發(fā)工作的“更好”起點(diǎn)。
a16z的Vijay Pande博士在上周寫的文章《AI is Too Dumb… For Now》,同樣認(rèn)為現(xiàn)階段的AI還是太“笨”了。如果人工智能不能變得比現(xiàn)在“聰明”很多,它在生物領(lǐng)域的潛力將是有限的。
Vijay Pande博士,a16z普通合伙人,主要專注于生物制藥和醫(yī)療領(lǐng)域的投資。
此前,Vijay是斯坦福大學(xué)的 Henry Dreyfus 化學(xué)教授,結(jié)構(gòu)生物學(xué)和計(jì)算機(jī)科學(xué)教授,開創(chuàng)并一直在推動(dòng)計(jì)算機(jī)科學(xué)技術(shù)在醫(yī)學(xué)和生物學(xué)領(lǐng)域的應(yīng)用。他擁有300多篇出版物,兩項(xiàng)專利,兩種新型候選藥物。
那么,如果想要讓AI更加“聰明”,數(shù)據(jù)上,算法上,具體應(yīng)該怎么做呢?
用“AI inside”替代“Intel inside”,對(duì)企業(yè)來說又意味著什么?
我們看看他怎么說的:
為了證明AI在生物領(lǐng)域的應(yīng)用價(jià)值,我們走了很長一段路。
2018年,我還在《紐約時(shí)報(bào)》上爭辯:考慮到醫(yī)生的大腦很大程度更是黑匣子的前提下,圍繞醫(yī)學(xué)中人工智能“黑匣子”的恐懼到底有多不合理,以及未來的障礙和機(jī)會(huì)可能在哪里。
(注:這個(gè)爭辯背景是,有人提出沒有人知道那些高級(jí)AI算法到底是怎么學(xué)習(xí)的,過程過于黑箱,令人害怕。而Vijay說其實(shí)人類做決策很多時(shí)候是出于直覺,也不一定能說清背后的邏輯推理過程,本質(zhì)上是個(gè)更大的黑箱。)
今天,已經(jīng)有大量證據(jù)表明AI能掀起醫(yī)療和生命科學(xué)領(lǐng)域的革命(更不用說其他領(lǐng)域),甚至在一度被認(rèn)為過于復(fù)雜而無法通過算法處理的一系列任務(wù)上表現(xiàn)得超越人類。
但是,盡管有了這些證據(jù),現(xiàn)實(shí)中的現(xiàn)實(shí)是:如果人工智能不能變得比現(xiàn)在更智能,它在生物領(lǐng)域的潛力將是有限的。
AI可以被訓(xùn)練(很像狗),但不能真正理解;它可以玩游戲,但僅限于已知規(guī)則;總之,它無法超越訓(xùn)練本身。
拿識(shí)別與致病蛋白質(zhì)結(jié)合的小分子為例,人工智能能夠超出人類能力地加速和擴(kuò)大藥物發(fā)現(xiàn)范圍,它必須從給定的訓(xùn)練數(shù)據(jù)中推斷出物理規(guī)律(比如原子可以堆積多近)、化學(xué)規(guī)律(比如不同化學(xué)鍵的強(qiáng)度)和生物學(xué)規(guī)律(比如蛋白質(zhì)口袋的靈活性)。但如果在任何方向上數(shù)據(jù)量過小,就會(huì)導(dǎo)致毫無意義的結(jié)果。 哈佛大學(xué)醫(yī)學(xué)院使用自研的VirtualFlow云平臺(tái)調(diào)用16萬核CPU對(duì)接10億分子花了15小時(shí):《15小時(shí)虛擬篩選10億分子,《Nature》+HMS驗(yàn)證云端新藥研發(fā)未來 - 速石科技BLOG (www.youjiajingji.com) 》

需要明確的是:我們所討論的不是一些類似于人類的科幻人工智能概念,也不是只有生物學(xué)才需要面對(duì)的“笨”人工智能挑戰(zhàn)。但是,由于需要大量行業(yè)專業(yè)知識(shí)才能理解問題的根源和提出可能的解決方案,在生物和醫(yī)療領(lǐng)域最能感受到依賴于這些樸素算法帶來的影響。
如果我們想在生物學(xué)和醫(yī)療領(lǐng)域更有意義地應(yīng)用人工智能,并取得真正的進(jìn)步,我們需要能夠創(chuàng)建具備行業(yè)專業(yè)知識(shí)的更“聰明”的AI算法。
那么,怎么才能做到呢?
對(duì)這個(gè)領(lǐng)域的玩家意味著什么?
一切從數(shù)據(jù)開始……
房地產(chǎn)行業(yè)的至理名言是“l(fā)ocation,location,location”,而在人工智能領(lǐng)域,永遠(yuǎn)是“數(shù)據(jù),數(shù)據(jù),數(shù)據(jù)”。
然而,現(xiàn)在的數(shù)據(jù)不太適合AI在生物學(xué)中的實(shí)際應(yīng)用。探索這些數(shù)據(jù)可以得到一些零散的信息,但沒法得出普適性的生物學(xué)洞察。而且,這些數(shù)據(jù)也缺乏對(duì)AI學(xué)習(xí)內(nèi)容和方向上的控制,無法避免數(shù)據(jù)缺陷。
為了讓人工智能在生物和醫(yī)療領(lǐng)域得到更實(shí)際和更廣泛地應(yīng)用,需要通過自動(dòng)化的方式生成數(shù)據(jù)。自動(dòng)化的好處在于:更系統(tǒng)化,更可重復(fù),不受人類情感約束,比如過于重復(fù)過于無聊。
但更關(guān)鍵的點(diǎn)在于如何設(shè)計(jì)實(shí)驗(yàn),需要在一開始就有針對(duì)性地為AI提供數(shù)據(jù),從而確保更高質(zhì)量的數(shù)據(jù),規(guī)避數(shù)據(jù)缺陷。AI應(yīng)該在開始數(shù)據(jù)收集之前就介入,這樣能更好地進(jìn)行實(shí)驗(yàn)設(shè)計(jì),確定實(shí)驗(yàn)路線。但很多時(shí)候,AI往往是在實(shí)驗(yàn)快要結(jié)束的時(shí)候被硬塞進(jìn)來的。
這跟科學(xué)家們之前受過的訓(xùn)練完全不同,以前的實(shí)驗(yàn)?zāi)繕?biāo)往往是驗(yàn)證一個(gè)特定假設(shè),而現(xiàn)在因?yàn)?strong>AI極大地?cái)U(kuò)展了可能性,為我們開啟了新世界的大門,讓我們可以擁抱那些我們不知道我們不知道的現(xiàn)實(shí)。
還是拿識(shí)別與靶標(biāo)蛋白質(zhì)結(jié)合的小分子為例(在初創(chuàng)公司和制藥企業(yè)中越來越常用的應(yīng)用場(chǎng)景):
一方面,AI可以變得特別強(qiáng)大,尤其是當(dāng)結(jié)果信息可以匯總,加強(qiáng)原來的數(shù)據(jù),開始新一輪學(xué)習(xí);
另一方面,AI可能會(huì)選擇一些違反科學(xué)家直覺的分子。以前,藥物化學(xué)家會(huì)根據(jù)經(jīng)驗(yàn),對(duì)哪些修改會(huì)提高親和力和選擇性下一系列賭注,通常會(huì)排除他們“知道”行不通的選擇。而除了需要在計(jì)算機(jī)上進(jìn)行大量天文數(shù)字模擬計(jì)算之外,AI不需要排除任何可能的修改,從而幫助藥物化學(xué)家擴(kuò)大探索范圍,選擇應(yīng)該制造和測(cè)試的分子。
這里就有一個(gè)虛擬篩選海量分子的案例,我們調(diào)用了10萬核CPU資源,花了15小時(shí)搞定了2800萬個(gè)分子:《生信云實(shí)證Vol. 生信分析上云案例, AutoDock Vina分子對(duì)接虛擬篩選 (www.youjiajingji.com)

這就是人工智能的力量——超越人類所能做的。當(dāng)然,前提是它是“聰明”的,而不是“笨”的。
所以,到底如何讓AI更智能呢?
除了更高質(zhì)量的數(shù)據(jù),我們顯然還需要更優(yōu)秀的算法。
1.升級(jí)算法
學(xué)彈吉他是件有挑戰(zhàn)性的事情,但對(duì)于會(huì)彈鋼琴的人來說則要容易得多(因?yàn)樗麄円呀?jīng)會(huì)看樂譜、操作一種樂器以及對(duì)音高和音調(diào)有敏感性)。我們可以將學(xué)鋼琴當(dāng)成學(xué)吉他的“預(yù)訓(xùn)練”。而在生物領(lǐng)域,預(yù)訓(xùn)練看起來像是一種醫(yī)學(xué)轉(zhuǎn)錄算法,在使用醫(yī)學(xué)術(shù)語和分類學(xué)進(jìn)行訓(xùn)練之前,先使用英語語言和語法進(jìn)行訓(xùn)練。預(yù)訓(xùn)練為AI提供了大量練習(xí),教會(huì)它有關(guān)概念之間的關(guān)系,并且具有一些明顯可見的好處,比如加快以更少輸入實(shí)現(xiàn)更高準(zhǔn)確度這個(gè)過程。預(yù)訓(xùn)練的缺點(diǎn)是它仍然依賴于AI根據(jù)已知數(shù)據(jù)發(fā)現(xiàn)和推斷已知規(guī)則。
另一種方案是把行業(yè)專業(yè)知識(shí)直接編進(jìn)算法里。這里的關(guān)鍵是以一種足夠通用的方式表示數(shù)據(jù),讓它可以處理所有不同的排列組合。例如,在自然語言處理中,樸素AI以像素的形式輸入數(shù)據(jù),然后將其翻譯為字母、單詞和句子等。使用更智能的編碼可以將文本顯示為字母,這樣可以大大減少訓(xùn)練數(shù)據(jù)量,為數(shù)據(jù)貧乏的環(huán)境和更可預(yù)測(cè)的算法打開大門。在生物中,這可能意味著不再以體素(3D像素)的格式向AI描述分子,而是從包含了化學(xué)鍵信息的圖形開始,這意味著更大的化學(xué)空間。 讓數(shù)據(jù)表示包含更多目標(biāo)信息是棘手的,必須經(jīng)過深思熟慮,因?yàn)樗赡茏兊梅浅G宄踩菀谆蚍疵?,變得更加?fù)雜難懂。
2. 面向行業(yè)應(yīng)用而設(shè)計(jì)
當(dāng)算法從一開始就面向某個(gè)特定生物應(yīng)用進(jìn)行設(shè)計(jì)時(shí),它們也將變得更智能,同時(shí)能獲得行業(yè)專業(yè)知識(shí)。生物領(lǐng)域使用的很多AI技術(shù)都是直接從非生物應(yīng)用中搬過來的;放射學(xué)中的算法與用于基本圖像識(shí)別的神經(jīng)網(wǎng)絡(luò)類型是一樣的。
現(xiàn)在我們開始看到了針對(duì)生物學(xué)問題設(shè)計(jì)的算法和訓(xùn)練的出現(xiàn),像自監(jiān)督算法的變體,它們從通用對(duì)應(yīng)物開始,但結(jié)合了生物學(xué)見解來幫助學(xué)習(xí)。例如,了解細(xì)胞自然特征(染色質(zhì)、細(xì)胞器等)的細(xì)胞成像算法可以讓我們更自然地使用自監(jiān)督方法。這是因?yàn)閿?shù)據(jù)更加一致(所有類型都相同,全都是細(xì)胞成像),并且圖像中的元素在沒有高級(jí)機(jī)器學(xué)習(xí)的情況下是眾所周知的(因?yàn)槲覀兞私饧?xì)胞的基本生物學(xué))。這也將帶來更好的整體表現(xiàn),并降低訓(xùn)練數(shù)據(jù)量需求。
3.深入結(jié)合行業(yè)知識(shí)
最終,當(dāng)算法與特定行業(yè)的計(jì)算方法成功融合時(shí),它們將變得更智能,并提高適用性。
以分子動(dòng)力學(xué)模擬為例,這是一種可以對(duì)分子物理和化學(xué)的許多方面進(jìn)行編碼的強(qiáng)大計(jì)算方法,但它仍然依賴于以臨時(shí)、有偏見和依賴于人類判斷的方式完成的參數(shù)和訓(xùn)練。通過將AI融入這些模擬計(jì)算中,可以使參數(shù)選擇更加穩(wěn)健和可重復(fù),帶來方法的整體改進(jìn)。
在《生信云實(shí)證Vol.6:155個(gè)GPU!多云場(chǎng)景下的Amber自由能計(jì)算 - 速石科技BLOG (www.youjiajingji.com)》中,我們調(diào)用155個(gè)GPU進(jìn)行基于分子動(dòng)力學(xué)模擬的煉金術(shù)自由能計(jì)算。

今天,我們?cè)诘鞍踪|(zhì)、細(xì)胞和器官水平上看到了這樣的組合。
未來,我們將基于AI模擬整個(gè)生物體。
綜上所述,所有這些都導(dǎo)致人工智能的“智能”發(fā)生翻天覆地的變化——從基于任務(wù)的簡單訓(xùn)練(類似于訓(xùn)練狗的特定技巧)轉(zhuǎn)變?yōu)樾枰儆?xùn)練的更通用的智能,更自然地超出訓(xùn)練本身(在科學(xué)范圍內(nèi)),實(shí)現(xiàn)更準(zhǔn)確的預(yù)測(cè)。
AI inside……意味著什么?
把“Intel inside”換成“AI inside”,對(duì)創(chuàng)業(yè)公司和老牌企業(yè)意味著什么?生物領(lǐng)域并不是第一個(gè)正在適應(yīng)這種大轉(zhuǎn)變的行業(yè)。從華爾街到麥迪遜大道再到硅谷,每個(gè)人都在適應(yīng)AI,我們能看到文化障礙與技術(shù)障礙幾乎一樣高。
對(duì)于一家生物公司來說,更實(shí)際和更廣泛地采用AI意味著將人工智能以及懂人工智能技術(shù)的人員將融入每個(gè)團(tuán)隊(duì),而不是一個(gè)通常在最后才被叫過來了解其他人做了些什么的獨(dú)立AI小組。這可能意味著企業(yè)需要配備在人工智能和生物領(lǐng)域“雙語”的人員,以及建立一種重視雙方的文化:渴望計(jì)算能力的生物學(xué)家和深深植根于生物領(lǐng)域的計(jì)算科學(xué)家。
眾所周知,改變根深蒂固的文化非常困難。
初創(chuàng)公司在這方面有明顯優(yōu)勢(shì),可以從0開始構(gòu)建基于AI原生的團(tuán)隊(duì)和思維方式。對(duì)于老牌企業(yè)來說,與其他創(chuàng)新一樣,領(lǐng)先的永遠(yuǎn)是那些能夠調(diào)整傳統(tǒng)模式的公司。當(dāng)然,他們也可以選擇建立全新的以AI為中心的團(tuán)隊(duì),讓這些團(tuán)隊(duì)承擔(dān)越來越多的責(zé)任,從內(nèi)部進(jìn)行瓦解。

一種新的人才即將到來。
過去,“藥物獵人”是藥物化學(xué)家。但是隨著可以幫助完成機(jī)械重復(fù)工作和分子合成的CRO公司的興起,現(xiàn)在誰制造分子遠(yuǎn)不如誰設(shè)計(jì)它們重要。隨著“量化分析師”的出現(xiàn),我們看到金融領(lǐng)域就有類似的轉(zhuǎn)變,這些人更多擁有計(jì)算技能而不是對(duì)該領(lǐng)域?qū)I(yè)知識(shí)。同樣的,這種轉(zhuǎn)變也將發(fā)生在化學(xué)和生物實(shí)驗(yàn)室里。
到目前為止,這些生物“量化分析師”必須依賴大數(shù)據(jù)來支持他們的統(tǒng)計(jì)方法,由于成本和復(fù)雜性,現(xiàn)在還很難落地。但未來的智能算法能將他們的技能應(yīng)用于小數(shù)據(jù)——從而應(yīng)用到公司的所有領(lǐng)域。大數(shù)據(jù)是基礎(chǔ)設(shè)施和管線問題;小數(shù)據(jù)永遠(yuǎn)是個(gè)智力問題,通過智能算法來解決,而不僅僅是靠聰明人。
正是這種能處理小數(shù)據(jù)能力的智能算法,將使AI無處不在。
與之前的其他重大技術(shù)轉(zhuǎn)變一樣,從樸素到智能 AI 的轉(zhuǎn)變將重塑整個(gè)組織結(jié)構(gòu),而不僅僅是與其最接近的功能。
為什么?因?yàn)楦斆鞯娜斯ぶ悄芸梢詭椭卮鹪?jīng)只屬于精明的人類判斷領(lǐng)域的關(guān)鍵業(yè)務(wù)問題。
太多人將人工智能視為生物制藥進(jìn)步歷史長河中的下一個(gè)階段。
人們很容易把AI當(dāng)成又一項(xiàng)技術(shù)進(jìn)步,然而,這是一個(gè)過于狹隘的觀點(diǎn),因?yàn)?strong>與其他技術(shù)不同,人工智能——尤其是這些智能算法——不僅是解決一個(gè)問題的工具,而且是可以應(yīng)用于所有問題的工具。真正的力量不僅在于將其用作單一工具,還在于使用AI放大和整合公司中的所有工具和技術(shù)。
它不僅僅只是擺在桌面上的一個(gè)新盒子,而是我們?cè)诿總€(gè)角色中的學(xué)徒和盟友。隨著人工智能無處不在,它將變得更聰明,我們也是。
我們基于全球44家頂尖藥企(包括3家中國藥企)在利用AI輔助藥物研發(fā)上的行動(dòng)(共涉及55家AI初創(chuàng)企業(yè)、12家IT-云服務(wù)商、7所高校)制作了《【2021年】全球44家頂尖要求AI輔助藥物研發(fā)行動(dòng)白皮書》,有興趣的可掃碼添加小F微信獲取。

- END -
我們有個(gè)為應(yīng)用定義的云計(jì)算平臺(tái)
集成多種EDA應(yīng)用,大量任務(wù)多節(jié)點(diǎn)并行
應(yīng)對(duì)短時(shí)間爆發(fā)性需求,連網(wǎng)即用
跑任務(wù)快,原來幾個(gè)月甚至幾年,現(xiàn)在只需幾小時(shí)
5分鐘快速上手,拖拉點(diǎn)選可視化界面,無需代碼
支持高級(jí)用戶直接在云端創(chuàng)建集群
掃碼免費(fèi)試用,送200元體驗(yàn)金,入股不虧~
-blog-1024x516.png)
更多電子書歡迎掃碼關(guān)注小F(ID:imfastone)獲取
-764x1024.jpg)
你也許想了解具體的落地場(chǎng)景:
LS-DYNA求解效率深度測(cè)評(píng) │ 六種規(guī)模,本地VS云端5種不同硬件配置
揭秘20000個(gè)VCS任務(wù)背后的“搬桌子”系列故事
155個(gè)GPU!多云場(chǎng)景下的Amber自由能計(jì)算
怎么把需要45天的突發(fā)性Fluent仿真計(jì)算縮短到4天之內(nèi)?
5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對(duì)接2800萬個(gè)分子
從4天到1.75小時(shí),如何讓Bladed仿真效率提升55倍?
從30天到17小時(shí),如何讓HSPICE仿真效率提升42倍?
關(guān)于為應(yīng)用定義的云平臺(tái):
2小時(shí),賬單47萬!「Milkie Way公司破產(chǎn)未遂事件」復(fù)盤分析
高情商:人類世界模擬器是真的!低情商:你是假的……
【2021版】全球44家頂尖藥企AI輔助藥物研發(fā)行動(dòng)白皮書
EDA云平臺(tái)49問
國內(nèi)超算發(fā)展近40年,終于遇到了一個(gè)像樣的對(duì)手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費(fèi)4小時(shí)5500美元,速石科技躋身全球超算TOP500
