推荐人
石允丰五源执行总监
“预测系统的未来状态本身就是理解系统本身”。
今天分享的文章来自JacobKimmel的个人博客Creode,Jacob是NewLimit的联合创始人与首席科学家,这是一家致力于通过表观遗传重编程来开发抗衰老疗法技术(epigeneticreprogrammingtherapeuticsforaging)的生物技术公司。他也曾经是谷歌支持的抗衰老生物医疗公司Calico的主任科学家。他的研究背景一直聚焦在分子生物学与计算机科学的交汇处。
这篇文章他提出了一个可以定义现在“人工智能驱动的生命科学研究”的范式是什么的概念:预测生物学(PredictiveBiology),几个核心观点是1.新的生物学研究由机器学习与人工智能来驱动实现,2.预测一个系统即理解这个系统,而不是执着于创建因果图。3.涌现论而不是还原论的“认识论”。4.这一次新的生物学研究范式,会从工业界/营利公司开始,而不是非营利机构和学术界。
目前符合预测生物学范式的初创科技公司,或者说“技术生物学(TechBio)"的代表之一是英伟达支持的Recursion,他们构建的计算中心,模型堆栈到自动化实验室一直聚焦在生成大量生物和化学数据,已经超过50PB,包括各种多组学数据,毒素,病原体,基因变异和候选药物分子如何影响和作用单细胞表型的组学数据等等,总之就是押注在采集和生产海量多维数据,让人工智能来负责推演和预测,人类科学家帮帮把把关和做机器做不好的工作。
另两家家“预测生物学”范式的代表就是ArcInstitute与FutureHouse,他们都是过去两年成立的新型科研机构,对应着这个新的生物学范式。
我们可以想象生物学是一座巨大的迷宫,大部分地方是漆黑一片的,传统上科学家举着蜡烛然后是手电筒,一步步摸索墙壁上的符号(分子功能和一部分生命系统说明书)。而预测生物学家拥有一张动态地图(AI模型),能根据已有路径预测下一个拐角在哪,和推演出整个迷宫潜藏的捷径和机关在哪里——即使他们从未走过那里,这个迷宫是动态变化的(但是以前在黑暗里变化我们看不到),这个新地图也会随着变化而更新。这未来一定是光明的,但是要度过现实的黎明凛冽。生命科学需要这样新的工具,才能打开生物技术真正的无限潜力,而不是卡死在各个“局部低谷”。但这个meme图,在第一线的专业人士应该理解里面的苦楚。一项新技术如果能很容易就产生喜人成果,以及很容易“推得动”,那说明还在老系统里打转。
所以也许“推演生物学”是一个比预测生物学在当下更准确的名字(因为我想到了“推演”和“推理”这两个词的区别),今天单单靠人工智能的能力还不能做到“预测”生物学,深度学习还需要和真正的物理学模拟与更好的实验架构汇合,需要虚拟与现实的合作。
预测生物学Predictivebiology
一个新兴的认识论
Anemergentepistemology
发表日期:2024年8月30日
长文预警:预测生物学(PredictiveBiology)是一门新兴的生命科学范式,位于分子生物学与机器学习的交汇点(theintersectionofmolecularbiology&machinelearning)。预测生物学关注生物实体之间的互信息测量,并认为预测未知实验的结果等同于理解一个系统(measuringmutualinformationbetweenbiologicalentitiesandarguesthatpredictingtheoutcomeofanunknownexperimentisequivalenttounderstandingasystem)。该领域的新工具破解了过去难以解决的问题,并催生了新型研究机构(Thefield’snewtoolshaveunlockedpreviouslyintractablequestionsandledtotheformationofnewinstitutions)。不同于以往的生命科学研究范式,营利性公司可能成为这一新领域的前沿力量(for-profitcompaniesmayleadthefrontierofthisnewdomain)。
称某人为生物学家(abiologist),其实并不能告诉你太多关于他们的技能、日常工作或认知原则(epistemicprinciples)。他们是研究旱季非洲象的迁徙模式的生物学家,还是在黑暗的晶体学实验室中研究TGF-beta配体活性的结构调控机制的生物学家(thestructuralbasisforregulationofTGF-betaligandactivityinadarkcrystallographyroom)?
在过去一个世纪里,生物学逐渐分化成多个解决不同问题的分支领域,就像物理学和化学在其发展过程中所经历的那样。其中许多分支已经足够独立,形成了各自的知识体系。它们不仅关注不同的问题,还采用不同的认知工具来解决问题(theyapproachproblemsusingdifferentcognitivetools)。如果称某人为分子生物学家,这不仅意味着他们具备操控核酸的技术技能,还表明他们倾向于自下而上、还原论的认识方法(abottoms-up,reductionistapproachtoepistemology)。
分子生物学的历史学者霍勒斯·弗里兰·贾德森(HoraceFreelandJudson)精准地捕捉到了这些文化和思想上的分野(culturalandintellectualdivisions):
“分子生物学并不是一个由自然边界划定的单一领域……它是一种分析层次,一整套工具——换句话说,它的统一性更多来自风格,而非研究内容。”
"Molecularbiologyisnosingleprovince,markedoffbynaturalboundariesfromtherestoftherealm.[...]Molecularbiologyis[...]alevelofanalysis,akitoftools–whichistosayitisunifiedbystyleasmuchascontent."
新学科往往诞生于两个先前学科的交汇处(Fieldsareoftenbornattheconfluenceoftwoancestraldisciplines)。分子生物学(MolecularBiology)起源于物理学和生物化学,系统生物学(SystemsBiology)则源于基因组学与统计力学的结合。
在此,我提出“预测生物学”是过去五年间新兴的学科领域,它的根基来自分子生物学与机器学习(IproposethatPredictiveBiologyisanewfieldthathasemergedinthelastfiveyearswithrootsinmolecularbiologyandmachinelearning)。
预测生物学专注于利用定量模型推断未来实验的结果,这些模型基于过去数据的庞大积累进行训练(inferringtheoutcomesoffutureexperimentsusingquantitativemodelstrainedonacorpusofpastdata)。在这一框架下,预测生物学家(PredictiveBiologists)隐含地假设,生物系统中包含大量的互信息,因此,一个系统的当前和未来状态(例如细胞的形态)(acell’sshap)可以通过另一个系统的描述(例如细胞的基因表达谱)(acell’sgeneexpressionprofile)进行预测。
如果说分子生物学往往是还原论的(MolecularBiologyisoftenreductionist),那么预测生物学则是涌现性的(PredictiveBiologyisemergent),认为许多复杂的生物现象无法脱离多个组成部分的相互作用而单独解释。
如果说系统生物学认为,绘制系统内部各个相互作用的完整图谱就能带来真正的理解,那么预测生物学则认为,去预测系统的未来状态本身就是理解(WhereSystemsBiologyarguesthatmappingtheindividualinteractionswithinasystemwillyieldunderstanding,PredictiveBiologycountersthatpredictingthefuturestateofasystemisunderstanding)。分子生物学的突破依赖于核酸生物化学,系统生物学的兴起受益于早期计算机技术进步,而预测生物学则建立在人工智能工具之上,这些工具能够从数据中学习并解释生物学(WhereMolecularBiologywasenabledbynucleicacidbiochemistryandSystemsBiologybyearlycomputers,PredictiveBiologyisbuiltonartificialintelligencetoolsthatlearntoexplainbiologyfromdata)。
预测生物学并不优于或劣于其前身学科,但它具有独特性(itisdistinct)。这些独特性使科学家能够提出新的问题、建立新的研究机构,并创办新的公司(Thesedistinctionshaveenabledscientiststoasknewquestions,buildnewinstitutions,andfoundnewcompanies)。或许在生物学历史上,这是第一次一个前沿领域可能主要由营利性初创企业(for-profitventures)而非传统学术机构主导。
我相信,这些方法将塑造生物学的未来,因此值得深入探讨预测生物学的起源、研究方向和未解问题。
认知谱系
Epistemiclineage
促成预测生物学诞生的学科概要,按从左到右的顺序
分子生物学与现代性的开端
MolecularBiology&thebeginningofmodernity
现代生物医学的根源可以追溯到化学与生理学的交汇点,这一交汇催生了生物化学。生物化学可能是第一个专门研究生命系统的学科,它将生命视为复杂但本质上受物理规律支配的系统(thefirstsubfielddedicatedtothestudyoflivingsystemsascomplexbutfundamentallyphysicalentities),而非遵循完全不同原则的“生命力”实体(ratherthan“vital”elementswithawhollydifferentsetofgoverningprinciples)。从20世纪30年代开始,分子生物学从生物化学中独立出来,成为一个独立的领域。如今,几乎所有现代生物技术公司的发展轨迹,都可以在某种程度上追溯到分子生物学。
分子生物学的定义始终难以捉摸。DNA结构的共同发现者弗朗西斯·克里克(FrancisCrick)曾打趣道:
分子生物学可以定义为任何让分子生物学家感兴趣的东西(MolecularBiologycanbedefinedasanythingthatinterestsmolecularbiologists)。
但他也给出了一个更清晰的定义:
[分子生物学]研究的是极大、长链的生物分子——核酸和蛋白质及其合成。从生物学角度来看,这意味着基因及其复制与表达,基因本身及其产物的学科。
分子生物学的核心是用根本上还原论方法(afundamentallyreductionistapproach)解释生命系统。研究者提出的问题通常围绕单个分子的功能,以及哪些分子决定了某一生物过程。
这种提问方式背后隐含着一个核心假设——大多数分子只有少数几种功能,而大多数生物功能是由少数分子控制的(mostmoleculeshaveasmallnumberoffunctions,andmostfunctionsarecontrolledbyasmallnumberofmolecules)。要让还原论方法取得成功,这一假设至少在某些情况下必须成立。
尽管这一方法可能显得过于简单化,但还原论方法带来的突破也令人惊叹!它成功解释了遗传与信息传递的分子机制,即中心法则(CentralDogma):DNA复制、转录、翻译。同样,我们对细胞通讯(cellcommunication)、个体发育(organismaldevelopment)、疾病机制(pathobiology)的大量认知,都是通过选取某个分子、破坏它,然后分析其作用得出的(pickingamolecule,breakingit,andinterpretingitsrolebasedonwhathappened)。
分子生物学青睐还原论方法,既是出于必要性,也是因为它提供了一种简洁的认知方式(MolecularBiologyfavoredthereductionistapproachasmuchbynecessityasfromadesireforepistemicparsimony)。毕竟,在早期发展阶段,分子生物学的技术工具还极为有限。从生命的“细胞汤”中分离出哪怕一个蛋白质,都是极具挑战性的任务!
测序一个基因或蛋白质曾是一项长达数年的工作,足以作为博士论文的研究课题。分析多个基因或其产物之间的相互作用更是难以实现(Interrogatingtheinteractionsofmanygenesortheirproductswasintractable)。即使这些相互作用可以被测量,如何解读其意义仍然是一个巨大的挑战。生物学家通常依赖“目测法”(eyeballtest)来观察二元表型(binaryphenotypes),或使用纸笔进行手动计算。测量技术和计算能力的同时进步(Advancesinbothmeasurementandcomputation),使得新一代生物学家开始探索那些无法仅用少数分子解释的现象(tobeginprobingatthephenomenathatresistexplanationbyahandfulofmolecules)。
系统生物学与还原论的局限性
SystemsBiology&thelimitsofreductionism
进展依赖于技术、发现和思想的相互作用,可能是按其重要性递减的顺序排列——悉尼·布伦纳(SydneyBrenner)
Progressdependsontheinterplayoftechniques,discoveries,andideas,probablyinthatorderofdecreasingimportance.
系统生物学可能比分子生物学更难定义。历史上,这两个领域之间存在相当大的张力,悉尼·布伦纳本人也曾对早期系统生物学家的研究提出过一些批评。
与前身相比,系统生物学的最大区别在于,它专注于复杂生物系统的涌现特性,这些特性无法通过还原论的实验方法捕捉到。人类生物学为为什么采用这种方法提供了一个有力的例子。
我们的身体极其复杂,但人类基因的数量只有约20,000个。一个基因对应一个功能的基本概念,在你意识到功能的数量远远超过基因的数量时(far,farmorefunctionsthantherearediscretegenes),就显得不成立了!显然,这些分子之间存在着相互作用,其效应远大于它们各自的总和。
直到20世纪90年代中期,生物学家几乎只能忽视这些相互作用。即使你想探索基因X、Y和Z的非线性逻辑,它们如何相互作用,之前的工具也无法提供有效的方式来进行。自动化DNA测序和合成技术推动了系统生物学的发展,提供了第一次能够同时测量多种分子的工具。基因组学、转录组学和蛋白质组学(Genomic,transcriptomic,andproteomictools)在这一时期的工具,使得研究者能够同时测量一个生物体中所有基因的序列和丰度(measurethesequencesandabundanceofallthegenesinanorganismsimultaneously)。
系统生物学家试图通过这些无偏数据来理解系统,并建立关于感兴趣行为的最简模型(trytounderstandsystemsbytakingtheseunbiaseddataandbuildingminimalmodelsofabehaviorofinterest)。如果我们假设研究细胞周期(cellcycle),系统生物学家可能会尝试创建一个包含多种细胞周期基因丰度的微分方程,以解释细胞行为(createadifferentialequationincorporatingtheabundancesofmanycellcyclegenestoexplaincellbehavior)。对于这些模型而言,简洁性和简易性通常比预测性表现(predictiveperformance)能更为重要。系统生物学家希望用可以写在餐巾纸上的简单规则来理解复杂过程的机制(learnthemechanismofacomplexprocessintermsofsimplerulesthatcanbewrittendownonanapkin)。
有一种方式可以框定该领域的长期发展方向,那就是因果图(framethelong-termdirectionofthefieldisintermsofacausalgraph)。如果我们假设图中的所有节点是生物分子,系统生物学家希望测量并标注这些节点之间的所有边(Ifweimagineallthenodesinagraphasbiologicalmolecules,systemsbiologistshopetomeasureandannotatealloftheedgesbetweennodes)。通过量化所有这些连接(quantifyingalltheseconnections),系统生物学家希望有一天我们能够在一个被称为合成生物学的姊妹领域中,从零开始设计全新系统(onedaywe’llbeabletodesignsystemsfromscratchinasisterfieldknownassyntheticbiology)。
预测生物学与拥抱涌现性
PredictiveBiology&embracingemergence
不幸的是,系统生物学的工具未能超越几种分子之间的简单相互作用。在实践中,很难通过差分方程预测像发育、免疫或药物反应等复杂细胞行为,且其精确度难以达到有意义的水平。尽管在理论上是高尚的,实际上,生物学家很难在微观层面构建足够大的简单规则集合来解释剧烈的、宏观的生物学现象(toexplaindramatic,macroscopicbiology)。
预测生物学将“预测”定义为生物学研究的核心任务,而不是对分子功能和相互关系的编目(PredictiveBiologydefinespredictionasthecoretaskofabiologicalstudy,ratherthancatalogingthefunctionsandrelationshipsofmolecules)。隐含地,分子生物学和系统生物学都试图从这些编目原理出发,迈向预测任务。如果我们知道一个基因的功能及其与其他基因的关系,希望我们可以推断出如果激活或抑制这个基因会发生什么。预测生物学家愿意放弃中间的编目工作,追求从预测能力中获得的理解(eschewtheintermediarycatalogsinpursuitoftheunderstandingthatarisesfrompredictivepower)。
换句话说,预测生物学家更关注测量两个生物现象之间的互信息,而不是直接测量因果关系(moreconcernedwithmeasuringthemutualinformationbetweentwobiologicalphenomenathantheyarewithmeasuringdirectcausality)。分子生物学从经典物理学的认识论中汲取灵感,而预测生物学则借鉴了计算机科学和信息理论的认知工具。
范阳注:互信息(MutualInformation,MI)是信息论中的一个概念,用于衡量两个随机变量之间的相互依赖性。它量化了通过观察一个变量可以获得关于另一个变量的“信息量”。简单来说,互信息是用来衡量两个事物之间关系有多强的一个工具,如果两者关系很强,互信息的值会很大;如果两者没什么关系,互信息的值会很小。它比简单的相关性更强大,因为它能捕捉到更复杂的关系,从一个事情猜中看起来没有直接关联的另一个现象。
这种方法的实现,得益于现代机器学习(ML)方法的出现。直到大约1990年代,从大规模复杂数据集中学习模型依然具有实践上的挑战。由于摩尔定律推动的计算能力的提升和算法改进,性能良好的模型在这一时期变得更加可用。
第一代这种模型使研究人员能够从新兴的高通量实验中提取更多的见解,但大多数情况下,依靠输入数据本身无法预测实验的结果。早期的DNA序列模型帮助研究者搜索和比对相似的序列,但无法预测之前未观察到的突变的效果。简单的基因表达模型可以推断细胞类型或癌症结果,但无法预测抑制某个基因对细胞功能的影响。
如果机器学习(ML)自20世纪90年代就已存在,为什么预测生物学(PredictiveBiology)直到最近十年才兴起?早期的计算限制使得模型无法捕捉足够的生物背景信息,无论是长DNA序列还是高分辨率的显微镜图像。缺乏这些背景信息,模型只能做出相对局部的预测,从而限制了其在生物学中最复杂问题上的应用。
经典生物化学提供了一个类比。林纳斯·鲍林(LinusPauling)和马克斯·佩鲁茨(MaxPerutz)通过精确的物理模型解决了生物化学结构问题(solvedbiochemicalstructuresusingprecise,physicalmodelsoftheunderlyingatoms)。这些工具能够揭示像蛋白质α-螺旋和DNA双螺旋这样的二级结构,但无法预测蛋白质的更复杂的三级结构,这需要在更大尺度上模拟物理性质。
在2010年代左右,由GPU计算支持的深度表示学习(Deeprepresentationlearning)工具突破了第二个障碍。现在,研究人员可以学习到能够捕捉丰富输入背景的模型——比如生命密码的长序列、数千个表达谱和配对药物治疗的协变量(covariatesofpaireddrugtreatments),以及捕捉数百个细胞在多个不同表型维度上的图像(imagescapturinghundredsofcellsacrossahalf-dozendifferentphenotypicdimensions)。
通过捕捉生物系统的更详细肖像,第二代预测生物学模型使得计算假设测试成为可能。除了从原子世界中进行实验以提取更多的见解外,这些模型还允许研究人员在比特的世界中进行许多实验。
这些能力改变了预测生物学家探索的问题和他们用来从一系列潜在可能性中得出新真理的实验方法。
通过捕捉生物系统的更详细特征,第二代预测生物学模型使得计算机模拟假设检验(enableinsilicohypothesistesting)成为可能。除了从原子世界的实验中提取更多见解外,这些模型还允许研究人员在比特世界中完成大量实验。
这些能力不仅改变了预测生物学家探索的问题,也改变了他们从一系列潜在可能性中揭示新真相的实验方法(rendernewtruthsfromarangeoflatentpossibilities)。
解锁更大的问题
Unlockinglargerquestions
生物学中充满了假设空间,这些空间过于庞大,无法彻底穷尽搜索(hypothesisspacesthataretoolargetoeversearchexhaustively)。例如,测试所有可能的100bpDNA序列的增强子活性(即促进基因表达的能力)需要进行4^100≈10^60次实验。仅仅测试在简单细胞系中2个基因干扰的所有组合,也需要进行(20,000c2)≈10^8次实验。
分子生物学和细胞生物学的传统工具不足以探索所有这些可能性,数量级差距巨大。像“什么是最强的基因增强子(thestrongestpossibleenhancer)?”或“哪些基因对细胞分裂至关重要?”这样的简单问题,竟然出乎意料地难以解决。
分子生物学及其直接继承者通过局部搜索,在面对这些令人望而生畏的数字时取得了进展。由于假设空间过于庞大,无法穷举搜索,研究人员利用直觉和先验知识,推测哪些假设最有价值进行实验测试(researchersusetheirintuitionsandpriorknowledgetoguessatwhichhypothesesarethemostfruitfultotest)。
自然地,这导致研究人员探索的假设在抽象意义上“接近”我们现有的知识(explorehypothesesthatareinanabstractsense“close,”toourexistingknowledge)。也许我们无法测试每一个100bpDNA序列的增强子活性(enhanceractivity),但如果我们知道几个大约这个长度的强增强子(strongenhancers),聪明的分子生物学家可能会尝试从这些有希望的起点出发,测试突变体,成功的几率也相对较高。
最优秀的研究人员具备一种直觉品味,使他们能够正确猜测哪些假设能在远离我们先前知识的地方取得成果(haveatastethatallowsthemtoguesscorrectlywhichhypotheseswillbefruitfulfurtherawayfromourpriorknowledge)。我曾接受过这样的训练:研究者的分析能力在达到熟练阶段后并不会进一步提高,他们只是更擅长选择要测试的假设。然而,如果已知的强增强子实际上离全局最优解很远(ifthespaceofknownstrongenhancersisactuallyquitefarfromtheglobaloptimum),好的分子生物学家仍然不太可能找到接近真正最强增强子的序列。
预测生物学模型使研究人员能够采取不同的方法做事。与其依赖直觉来在局部假设空间中进行导航,研究人员可以集中精力收集数据,训练模型以进行全局搜索(Ratherthanusingintuitionstonavigatealocalhypothesisspace,researcherscanfocusongatheringdatatotrainmodelsthatenableaglobalsearch)。
为此进行的实验可能与传统的分子生物学家或系统生物学家的实验方法有所不同。大致来说,预测生物学家可能会将更多实验预算用于收集覆盖假设空间内各种可能性的多样化数据(gatherdiversedatathatspanstherangeofpossibilitieswithinahypothesisspace),而分子生物学家则可能采取“贪婪算法策略”,专注于测试接近当前知识前沿的假设。
范阳注:“贪婪算法”是一种每一步都做出当前看起来最优选择的方法。它不会考虑未来的情况,只会在当前情况下选最好的,期望最终能得到全局最优解。如果你爬山想爬到最高处看最美的风景,但每次都往眼前可见的最陡的方向爬,但可能只爬到一个小山包,而不是去最高的山的路,因为你没有考虑到后面可能有更高的峰。
以100bp增强子序列为例,预测生物学家可能会进行一项实验,测试数千个随机序列的基因表达促进活性,然后训练一个模型,直接从序列预测活性。接着,他们可以使用这个计算机模型在整个可能性范围内搜索最优序列,预测全局最优解。利用这些工具,预测生物学家很可能会发现远离已知范围的新强效序列。虽然这个例子是理想化的,但现实世界中设计新蛋白质的实验已经取得了类似的成果。
创立新机构
Creatingnewinstitutions
新学科会按照自身的形态孕育出相应的机构(Disciplinesbegetinstitutionsintheirimage)。
分子生物学催生了MRC分子生物学实验室、冷泉港实验室,以及最初的四大生物技术公司——基因泰克(Genentech)、百健(Biogen)、健赞(Genzyme)和安进(Amgen)。
系统生物学衍生出了博德研究所(BroadInstitute)、华盛顿大学基因组科学系(UWGenomeSciences)、Illumina、千禧制药(MillenniumPharmaceuticals)和MyriadGenetics。
预测生物学的代表机构仍在成型之中(stillbeingrendered)。以往的学科通常先在学术中心萌芽,随后才催生出商业企业。而预测生物学可能正在提供一个相反的案例。
目前,极少有学术机构专门探索这一交叉领域,但像Arc研究所和施密特中心(SchmidtCenter)这样的新机构,展现了未来可能的方向。相比之下,科技生物(TechBio)领域的公司已在多个方向涌现,包括诊断领域(Freenome、GRAIL)和治疗领域(BigHat、Dyno、Enveda、Excentia、Generate、Recursion、Xaira)。
私营部门的增长超过传统学术环境,可能反映了预测生物学独特的资源需求。与分子生物学问题不同(通常可以由单个研究者在有限预算下解决),预测生物学在大规模生成数据和计算资源充足时最具生产力。
这些条件在营利性企业中往往更容易实现。预测生物学有可能成为第一个真正由工业界而非学术界科学家驱动的生物学学科。
结语
Coda
我感到很幸运,能够亲历自己领域的相变阶段。从早期生物技术的曙光开始,科学家们就梦想着通过操控生物学来创造一个更美好的世界。我们已经延长了寿命,创造了曾经难以想象的奇迹,但我们尚未完全征服疾病或设计我们的环境。
即使是最简单的细胞,也比我们目前最复杂的计算机更为复杂(Eventhesimplestcellismorecomplexthanourmostsophisticatedcomputers)。抽象层次之多,远超人类思维的想象(Therearefarmorelayersofabstractionthanahumanmindcanconceive)。预测生物学的希望在于:或许我们不必受限于人脑连接因果网络的能力(limitedbythehumanmind’sabilitytoconnectnodesonacausalgraph),而是依赖我们观察模式的能力,以足够的意志和活力来指引探索方向。
JeremyZucker:
有趣且发人深省。我同意作者的观点,即预测生物学的一个关键区分性问题是:
能否根据可观察特征X预测实验Y的结果?
然而,如果这是驱动预测生物学家的核心问题,那么下面这句话就不可能成立:
“预测生物学家更关注测量两个生物现象之间的互信息,而不是测量直接因果关系。”
请允许我解释原因。
假设我有两个分子A和B,它们之间具有较高的互信息,然后我分别对A和B进行干预实验,可能出现四种情况:
当B受到干预时,A发生变化;但当A受到干预时,B不发生变化。
当A受到干预时,B发生变化;但当B受到干预时,A不发生变化。
无论干预A还是B,二者都不会发生变化。
无论干预A还是B,二者都会发生变化。
我认为你会同意,仅基于互信息的预测无法区分这四种结果。但如果结合因果信息,我们就可以进行区分。
那么,什么是因果信息?事实证明,那些系统生物学的网络图(wiringdiagrams),是通过艰难获取的分子生物学实验数据构建出来的,它们恰好提供了区分这四种可能结果所需的因果假设。
换句话说,如果没有这些系统生物学模型中编码的因果假设,仅依赖数据驱动的机器学习是不足以成功预测未知实验的结果的。
因此,我认为:预测未知实验结果本质上是一个因果估计问题,而不仅仅是一个机器学习预测问题。
(转自:五源资本5YCapital)