机器学习+大数据会是癌症的新“药方”吗

发表时间：2016-10-24 14:41:00

　　大概几年前，Eric Schadt遇到一个患有癌症的女人，当时她已经是结肠癌晚期，癌细胞也扩散到了肺部。这个女人来自密西西比州，是一个年轻的寡妇，还要独自抚养两个女儿，作为身处在医疗保障最底层的她，唯一能享受到的医疗保健服务，是得益于他她丈夫去世的抚恤福利——一家只有极少肿瘤医生的部队医院。

　　这一切，似乎和如今先进的医疗行业状况格格不入。但当你走进这样一个治疗肿瘤转移性疾病的医院，仿佛回到了那个无法了解人类基因的时代，那时候人类认为引起结肠癌的原因只有一个，而不是数百万导致各种病变的病因，而且过去的治疗方案简直可以说是“以毒攻毒”，所有医院使用的都是抑制类药剂，别说是在密西西比州，在美国任何一个地方都是如此——因为那是一个没有大数据、机器学习、以及希望的时代。

　　那时候，Schadt刚刚加入西奈山医院伊坎基因和多层级生物研究所工作，当他听说这位来自密西西比州的女人时，不禁表示“她就是我们想要的那种病人”。事实上，Schadt 嘴里的所说的“那种病人”，是指用目前的医学标准无法治愈，而尚未等到新疗法出现的那类患者。而未来医疗则会在超级计算机的帮助下筛选海量基因数据，最终找到治疗和治愈疾病的全新模式。

　　Schadt 本人并不是治疗癌症疾病的专家，甚至都不是医生，他的本职工作是一个数学家兼计算生物学专家，而且从没有治疗过任何一个病人。不过，在他西奈山医院的新办公室里，Schadt 从那位女患者身上获取了数万亿字节的数据，模拟了数千次她在传统医疗环境下会有什么样的治疗效果，并希望以此找到治愈她结肠癌的新方法。因为工作关系，让Schadt 和这位密西西比州的女人成为了好友，但可悲的是，Schadt 的研究失败了，Schadt 来到了她的病床边，悲痛欲绝。去年，这个女人去世了。

　　坐在西奈山医院的办公桌前，Schadt 看上去简单干练。51岁的他无论走到哪里都穿着一件短袖T 恤衫和短裤，不管是出席高端宴会，还是在冬季寒冷的纽约也是如此。对于任何一位医疗行业研究人员来说，当你成功发表论文、或是开发出了新药物之后都会感到非常高兴，因为你的工作可以帮助人们减少痛苦。但是，当看到自己的研究成果把一个人慢慢折磨死去，内心的煎熬程度可想而已。Schadt 说道：

　　这会让人感到深深的愧疚，这种感觉是我从来没有体验过的。我们当时正处在研究工作的上升期，你会不由自主地把眼光放得更长远，因此会认为自己有能力找到治愈癌症的方法。我们觉得最后肯定能够找到癌细胞病变的原因，但也是因为研究处在上升阶段，导致出现的问题也越来越多、越来越复杂，这种状况不断打击着我们。

　　事实上，在过去的十年里，人们一直在谈论基因序列测定和个性化医疗服务的潜力。随着计算机处理能力的提升、以及对人类个体基因的理解越来越深入，为我们打开了一扇神奇时代的大门。不仅如此，有理论研究认为，足够的基因数据能够让人们不用服药就能治愈疾病：但是，Schadt 已经了解到，个体 DNA 的数据深度还不足以应对、治愈各种疾病，它需要更加全面、更大数量级的数据来监测人群中的疾病类型，再使用机器学习，找到引发疾病的变异网络，最后才能找到解决方案。这些数据集合的规模越大，疾病类型分析的就会越准确，预测疾病的功能也会变得越强大。

　　所以，现在的问题就集中在如何获取海量基因数据上。显然，你不能跑到某个人面前，或是数百万人面前，跟他们说：“请给我你的数据”。首先，你必须要说服他们，收集到的数据只能用来做好事，而且你也会做好数据安全工作，不会把这些个人数据落入到坏人之手（我们都很看重自己的隐私）。不仅如此，你还必须要说服收集相关数据的医疗中心和基因公司，而不是让他们“囤积居奇”获利，更重要的是，这些数据应该被共享，研究社区也能从规模经济中获益——海量数据的重要程度不言而喻，最后这些数据也会被逐一编号，Schadt 和许多其他研究人员相信，了解疾病的病因非常有必要，这对工程人员研究新的癌症治疗方法也非常必要。

　　现在，研究人员所获得的信息量并不能支持治愈癌症。但是不管是科技巨头如Google，还是生物医疗初创公司都在努力解决数据规模问题，Schadt 显然也渴望能够参与其中。

　　如果把人类生物复杂度比做成一部动漫电影，那么在过去一百年时间里我们所理解的所有知识，大概只相当于电影里的一个像素而已。的确，只通过这“一个像素”，没有人能够了解整个故事的全部。但随着像素越来越多，几百个像素、几千个像素——或是这，全部像素的1%——模式和主题就会开始浮现，而人们也就能够看清故事的开头。

　　正是出于这种想法，让 Schadt 在2011年选择创建伊坎基因和多层级生物研究所，当时的他已经在著名制药公司 Merck 从事了十年的药物研发工作，这家制药公司的一半药物都是用来治疗类似心脏病、糖尿病、以及肥胖症这样的病症，也让 Schadt 的研究变得更加多样化。当时医学界普遍认为，癌症是由单一基因模型引起的，因此药物研发也都是按照这一理解来实施，而 Schadt 相信，癌症并不是由单一基因，而是由多种基因组成的基因网络引发的，这些基因网络会导致疾病渗入到人类的自然防御系统内部，也只有通过深入了解这些基因网络的生物信息，才能够为彻底治愈癌症找到方向。为了探索这种复杂的模型，Schadt 从慈善投资家 Carl Icahn 那里募集到了1.5 亿美元资金，并来到了著名的西奈山医院，以 Carl Icahn 的名字命名了一家研究所。在该研究所的地下室，Schadt 构建了一台名为“Minerva”的超级计算机，用来分析西奈山西苑每年收集到的数千组人类基因数据。他还招募了其他数量分析专家，包括为 Facebook 打造首支数据团队的 Jeffery Hammerbacher。一名来自医学院的知名肿瘤医学家如是说道：

　　你身边忽然出现了一大群数据科学家，这帮人不是应该去编写电子游戏程序的吗？

　　时间过得很快，Schadt 发现自己需要更大的支持。2014 年，伊坎基因和多层级生物研究所与 Sage Bioneworks 合作成立了一家公司，并启动了“Resilience Project”项目，尝试治疗总计 170 种罕见儿童疾病，包括囊包性纤维症、镰状细胞性贫血、以及家族黑蒙性痴呆。研究人员会在人群中努力寻找通过接种而携带抵抗这些疾病的 DNA 变种个体，Schadt 和他的团队尝试从 60 万人的基因池（迄今规模最大的基因研究）内找到这些具备“恢复力”的个体，该基因池的数据来自很多数据源，包括DNA鉴定公司23andMe，北京华大基因、以及麻省理工学院和哈佛大学布罗德研究所。然而，在这 60万人的基因池内寻找疾病抗体并不是件容易的事情，在上文提到的 170 种疾病中，研究人员最终只找到了能对抗 8 种疾病的抗体个人基因。60 万人的基因池研究规模依然还是太小了，通过计算人类引起疾病的基因突变发生频率，Schadt 和他的团队认为研究所需的基因池规模远远不够，至少需要达到 1000 万人的基因池。对于“Resilience Project”项目背后的计算能力，以及所谓的“海量数据”，Schadt 依然觉得患者信息的数量和质量依然不够，他说道：

　　像西奈山这样规模的医院，我们至少需要 100 个，也只有这样的规模，才能实现在患者数据中找到治疗和诊断的方法。在过去的五年时间里，我认为这一切不能在医疗中心里发生，因为这些机构彼此之间竞争非常激烈，因此不会共享数据，只会彼此孤立。相比于取得重大进步的其他行业，医疗行业内并没有那种连贯性的架构，因此很难迅速发展。

　　那些大型医疗中心把患者数据牢牢抓在自己手里，而且，与其他同行合作，把自己的数据分享用于行业研究也不会给他们带来较大的经济利益，因此 Schadt 认为，医疗行业的创新颠覆只能从外部入手。

　　所以，这就是为什么 Schadt 希望自己创建基因数据公司 Sema4 的原因。Sema4 公司总部位于纽约市，专注于收购和拓展基因科学领域里的初创公司，这些公司通常会专注于基因测试——比如癌细胞携带者筛选和非侵入式产前测试——以收集、共享数百万个体基因数据集合。在 Sema4 的可搜索平台上，医生可以轻松获得与患者相关的基因数据，帮助他们进行医疗诊断。该平台对制药企业是收费的，他们主要利用 Seam4 平台针对性地寻找患者，以进行药物临床试验。而对于科学家们来说，在机器学习算法和强大的计算机支持下，他们目前所使用的分析工具已经非常强大了，现在有了 Seam4 共享的海量基因数据支持，将会帮助其研究更上一层楼。

　　尽管不少科技巨头也正在涉足生命科学领域，而且美国国家卫生研究院也在招募 100 万名志愿者帮助他们自主创建大型生物银行，但 Schadt 相信，Seam4 和其他类似的初创公司（比如 Craig Venter 创立的 Human Longevity 公司和 Patrick Soon-Shion 创立的 Nant-Health 公司）更加专注于扩大基因数据规模。当然啦，这些公司彼此之间也会互相竞争，已获得更多、更优质的数据资源，而 Sema4 公司与其他公司的不同之处在于，他们并不是以盈利为目的，而是将自己的基因数据库向全世界所有学术医疗中心和研究人员开放。而如果 Seam4 公司的竞争对手也想访问他们的数据，则需要向其搜索平台支付费用，事实上，Sema4 公司和其他公司也在尝试合作，创建更加庞大的基因数据集合来支持像“Resilience Project”这样的项目。

　　但是，Schadt 特别表示说，简单依靠企业获取数据集合的做法，依然无法解决基因数据库规模化的问题，关键是要让患者那里获取数据。基于他在西奈山医院的工作经验，Schadt 发现，最近几年越来越多人希望通过遗传基因来治愈自己身上的病患。他提到，在 2011 年刚来到西奈山医院的时候，一年内能够筛选的基因样例只有几千份，而在今年，他们已经筛选出了 15 万份基因样例，绝大多数都是来自纽约地区的患者。Schadt 说道：

　　Sema4 公司的目标，是把基因样例筛选数量扩大五十万份，再用一年时间扩大到一百万份！

　　Sema4 公司希望能够通过在全球范围内收购其他基因测试公司来扩大业务规模，据悉，绝大多数被收购的公司虽然被 Sema4 公司收购，但依然还是独立运营的。不过，这些公司都会以统一的安全标准和意愿来构建一个庞大的基因信息网络。Schadt 承认，让一个人把自己的基因生物数据交给一家匿名企业的确不是件容易的事情。即便企业砸下了数十亿美元的巨额投资，依然无法保证数据不会被泄露。而在 Sema4 公司，每一位患者都会被详细告知自己的数据是如何被加密，匿名化、以及删除可鉴别个人信息。所以就算有患者的个人信息发生泄漏，其身份也难以被识别出来，更不会被过度曝光。

　　此外，这里还会涉及到一个知情权的问题——也就是对于自己被收集的数据是什么，如何收集，以及为什么收集，都必须要得到患者的理解和批准——这也会直接影响收集数据的质量和数量。Schadt 解释说：

　　如今有不少公司都对外宣传自己掌握了数百万分患者数据，但是在绝大多数情况下，特别是站在利用的角度来看，这些数据其实毫无意义。一方面是因为这些数据通常不够准确和不完整，另一方面则是它们无法在不同系统之间关联使用。不仅如此，很多数据里面甚至连 DNA、或是由 DNA 产生的基因数据都没有。就拿“Resilience Project”项目为例，除了基因数据量级规模较小之外，如何按照不同安排下使用这 60 万份基因数据也是个很大的问题。如果有重要发现，大量患者其实是无法被追踪、或是被重新联系到的，所以从实际研究的观点出发，这些数据就会变得毫无意义。

　　如今，绝大多数基因数据获取形式都尽可能快速且简练，而不是便于让研究人员获取高质量的数据。实际上，这也增加了获取高质量基因数据的难度。研究发现，当患者在了解研究目的的情况下愿意参与合作，那么研究人员就能够获得更好、更高质量的信息，同时也能让科学专家们长期追踪患者的身体健康状况。在 Sema4 公司，Schadt 采用了多阶段信息获取流程——其中包括了必要的强制测验——因此，患者足以能够了解自己所言语的科研项目。虽然这一系列举措会让患者花费较长时间，但 Schadt 相信，当医患双方彼此的了解更加深入，患者就越愿意分享自己的基因信息。

　　随着数字基础设施到位，Schadt 希望让越来越多的患者参与到基因数据收集项目之中。不过，他希望患者不仅仅分享自己的基因，也能分享从其他监控设备所收集到的生物信息，比如血压、血糖等等。最终，Schadt 希望收集到的数据更加全面，包括让患者的微生物组合定期测序、经常检测核糖核酸（RNA）、以及不断监测血液细胞。

　　事实上，像西奈山医院这样的医疗中心在获取患者数据领域里占有垄断地位，但现在这种情况可能要发生改变了，最终，研究人员会获得海量基因数据，为未来医疗行业发展寻求突破。Schadt 问道：

　　如果我们能够访问更多信息，那么人类会因此收益吗？当你能够利用全世界的力量，能够开发出治愈疾病的治疗模型吗？答案是肯定的。

　　人们不能靠猜测来治病，而是要像数学那样严谨，即便是到了癌症晚期，也许有一天也能够被治愈。