大数据是治愈癌症的良方吗

发表时间：2016-11-06 15:00:00

　　一种理论认为，有了足够多的数据之后，没有什么疾病是无法治疗的。

　　对任何医学研究人员来说，在发表论文或研发药物时，在远离人为影响的情况下，保持乐观是相对容易的。

　　然而，亲身体会自己工作所产生的影响，并且亲眼目睹某个人在自己面前慢慢死去。

　　“那是我以前从未经历过的更深层次的心灵震撼，”埃里克·夏特说道。

　　▲埃里克·夏特（Eric Schadt）

　　夏特不是癌症专家，他甚至不是医生。他是一位数学家，精通分子生物学和计算生物学，有生以来还没有治疗过什么病患。

　　“我们正处在一种越来越快的增长曲线之上，你会自然而然地展望未来，你会想：我们会把这个问题搞清楚的，”他说，“最终，我们将会知道所有的细胞都在做什么，所有的乱子都是怎么回事。

　　这当中让人深觉无力的部分是，随着我们不断长进，我们也会不断遭到打击，那就是在这个过程中显现的日益加剧的复杂性。”

　　十多年来，我们一直在谈论基因测序和个性化医疗的潜力，谈论计算机处理能力的进步加上对个体基因组更进一步的了解如何能够让我们迈入奇迹时代的门槛。

　　这种理论认为，有了足够多的数据之后，没有什么疾病是无法治疗的。这些数据集的规模越大，科学家的模型和预测就会变得越精确和越强大。

　　我们必须说服那些收集个人数据的医疗中心和基因技术公司，让他们不要为了自己谋利把数据囤积起来。

　　问题就在于，我们如何才能获得这些艾字节级别的基因数据。

　　事实证明，你不可能直接向成百万上千万的人索要他们的健康数据。

　　你必须首先说服他们相信，你只会利用这些数据做好事，而且不会让它落入坏人之手。

　　然后，你必须说服那些收集个人数据的医疗中心和基因技术公司，让他们不要为了自己谋利把数据囤积起来，而是应该进行共享，从而让整个科研社区能够实现规模效应——即可用的数据突破了临界量，个体数据集终于达到数百万的量级——夏特跟很多其他人认为，要理解疾病的成因，并设计出新的治疗手段和方法，那是必不可少的。

　　目前，那种体量的数据仍然是不可得的。

　　不过，从科技巨头到生物医药初创公司，形形色色的公司都在竞先解决数据规模问题。夏特希望参与其中。

　　如果我们把人类生物学的复杂性比作一部动画电影，那么在一百年前，我们对这种复杂性的了解大约相当于电影画面的一个像素。

　　如果只有单个像素，你是无法知道电影讲了什么故事的。

　　但随着我们看到的像素越来越多——成百上千个，或者说是电影像素总量的1%——我们就会逐渐看出其中的模式和主题，这是了解整个故事的开端。

　　夏特承认，要求一个人把自己的生物数据交给一家匿名公司，那不是什么简单的事情。尽管公共部门和私人部门已经投入数十亿美元的资金用于对现有数据网络进行现代化改造和提供安全保障，数据泄露事件仍然时有发生。

　　但对于研究人员来说，海量的基因数据，正是未来医疗技术突破所必需的。

　　“如果数据变得更广泛可得，并且可以利用整个世界的智力来完善疾病模型，那我们是否可以更好地造福人类呢？”夏特自问道，“绝对可以。”

　　这是如数学一般精准的医学，不是臆测。有朝一日，每一种疾病——甚至是四期癌症——都可能被治愈。

　　大举押注生物数据的四家科技巨头

　　Alphabet

　　Alphabet的Verily Life Sciences团队在自己的Baseline研究项目中使用了机器学习技术，他们会把来自成千上万健康志愿者的基因、临床和医学成像数据馈入机器，以期更好地理解是什么让这些志愿者保持健康——这样的知识有可能帮助人们从一开始就远离疾病。