谷歌旗下AI健康科技子公司DeepMind:用区块链思维打造数据追踪系统
公司
摘要 DeepMind为什么要做区块链?也许和2016年12月DeepMind和帝国理工学院的一次合作,但是民众怀疑二者的合作数据...
【编者按】DeepMind为什么要做区块链?也许和2016年12月DeepMind和帝国理工学院的一次合作,但是民众怀疑二者的合作数据隐私问题以及对数据的控制能力。不久前DeepMind联合创始人Mustafa Suleyman表示,DeepMind核心要探索如何能长期建立信任、透明度和对数据更好的控制。
本文转载自新智元翻译的DeepMind官方博客一篇文章,译者弗格森,刘小芹,原文题目《DeepMind用区块链系统挑战深度学习黑箱,数据可验证透明处理》,亿欧编辑整理,供行业内人士参考。
2016年7月,立志要在智能医疗上发力的DeepMind首次将机器学习用于纯粹医疗研究。——NHS的Moorfields眼科医院将向DeepMind提供100万份匿名的眼球扫描资料,后者被用来对机器学习算法进行训练,以便更好地发现湿性年龄相关黄斑变性以及糖尿病视网膜病变等眼疾的早期迹象。
半年过去,DeepMind发现:“监管上的创新与技术上的创新同等重要”,因为在医疗领域,数据隐私和安全的重要性是怎么强调都不为过的。为了保证能获得足够多的数据进行技术研发,DeepMind从区块链的机制获得启发,提出了“可验证的数据审计”(Verifiable Data Audit)的项目,并计划在今年年中的时候发布,对接合作医院。
“可验证的数据审计”是什么?工作原理是怎样的?能带来什么影响?下文这篇DeepMind的官网文章进行了深入的介绍:
数据可以成为社会进步的强大驱动力量,帮助我们最重要的机构提高服务社会的能力。随着城市、医院和交通系统都找到了新的方法从数据中理解大众的需求,他们也正在发掘出新的机会,来改变工作方式,为更好的未来找到更多令人兴奋的创意。
只有获得社会的信任和信心,数据才能够造福社会,在这一点上,我们都面临一个艰巨的挑战。现在,你可以用数据来做各种各样的事,人们可能不仅会问到底是谁持有这些信息,或者这些数据是不是得到保密,他们还想得到更进一步的保证,那就是——这些数据会被用来干什么?
在这种背景下,(数据的)可审计性(auditability)成为了一个越来越重要的品性。任何精心制造的数字化工具都应该记录自己是如何使用数据的,并且在面对质疑时,要能够展示和合理化这些记录。
我们把这种审计的过程做得越强大、越稳当,那么,关于数据在实践中是如何被使用的这件事,我们就越容易在公众中建立起真正的信任。
想象一下,如果有这样一种服务,关于每一个人的数据的使用情况,它都能提供数学上精确的保证,剔除掉任何伪造或遗漏的可能性。
想象一下,该系统的内部工作能够被实时检查,以确保数据只能按照既定的目的进行使用。
想象一下,支持这种功能的基础设施可以作为开源项目免费提供,因此世界上任何组织都可以开发自己的版本的工具,只要他们想。
这一项目的名称是“可验证的数据审计”(Verifiable Data Audit),我们真的很兴奋,可以在这跟大家分享我们的计划中的更多细节。
DeepMind Health可验证的数据审计揭秘
在今年年中,我们将开始为DeepMindHealth建立可验证数据审计工具,我们致力于为医疗服务提供可帮助临床医生预测,诊断和预防严重***的技术,这是DeepMind部署为社会造福的技术的一个关键任务。
鉴于健康数据的敏感性,我们一直认为,我们在监管上也应该像在技术上一样追求创新。我们已经邀请外部人士对DeepMind Health进行额外监督,我们任命了一组未独立审核员,负责审核我们的医疗工作,完成审计,并发布年度报告及其调查结果。
我们把可验证数据审计工具看成是这种监督的一个强有力的补充,给予我们的合作医院一个额外的实时并且可以完全验证的机制,以检查我们是如何处理数据的。考虑到私人医疗数据的敏感性,以及每一次对数据的处理都应该获得授权,获得病人同意,我们认为这一方法在医疗中尤为有用。比如,一个拥有医疗数据的机构不能把用于提供医护的病人数据简单地用来进行研究,也不能未经许可重新调整研究数据库以进行使用。
换句话说:重要的不仅是数据被存储在哪,而且还包括,这些数据被用来干什么。我们希望把这一过程变得可验证、可审计的,并且是实时的。这是历史上首次。
借助区块链机制,任何人都抹不掉数据交互记录
那么,它是如何起作用的?在与医院的合作中,我们是一个数据处理器,也就是说,我们的角色是在题目的指示下,提供安全的数据服务,医院在整个过程中保有完全的控制权。现在,任何时候只要我们的系统接收或者接触到相关数据,我们就会创造一个对交流过程的日志,它可以在需要的时候被审计。
有了可验证的数据审计工具,我们将会有进一步的发展。每次与数据进行任何互动时,我们都将开始向特殊数字分类帐添加条目。该条目将记录已经使用了特定数据的事实。同样地,我们也会记录使用原因,比如,为什么血液检测的数据被输入到NHS的算法中,用于检测可能的急性肾损伤。
分类帐和其中的条目将共享区块链的一些属性,这是比特币和其他项目背后的创意。像区块链一样,分类帐将是只能加不能减的(append-only),因此一旦添加了数据使用的记录,它就不能被擦除。和区块链一样,分类帐将使第三方能够对其进行验证,所以没有人敢篡改任何条目。
但在几个重要的地方,它也不同于区块链。区块链是分散的,所以任何分类帐的验证是由广泛的参与者之间的协商一致决定的。为了防止滥用,大多数区块链要求参与者重复执行复杂的计算,相关成本相关成本非常大(根据一些估计,区块链参与者的总能量使用可以与抵得上塞浦路斯全国的电力消耗)。当涉及到医疗时,这是没有必要的,因为我们已经有可靠的机构,如医院或国家机构,可以依靠它们验证分类帐的完整性,避免像区块链一样的一些浪费。
我们还可以通过替换区块链的“链”部分,并使用树状结构来提高效率,二者的整体效果是相同的。每次我们向分类帐添加一个条目时,我们将生成一个称为“加密散列”的值。此散列进程是特殊的,因为它不仅汇总最新条目,而且还总结分类帐中的所有先前值。这使得实际上不可能有人回去并秘密地改变其中的一个条目,因为这不仅将改变该条目的哈希值(hash value),而且改变整个树的哈希值。
简单来说,你可以认为它有点像层层叠游戏的最后一步。你可以尝试轻轻地拿起或移动其中一件,但是由于整体结构,这将会造成全盘崩溃。
用来干什么?
所以,现在我们有一个改进版的审计日志:一个完全可信的,高效的分类帐,它会捕获所有与数据的交互。它可以由一个信誉良好的第三方在医疗保健社区进行验证。那么,我们会用它来干什么?
简短的答案是:大大提高这些记录的审计方式。我们将建立一个专门的在线界面,授权我们合作医院的工作人员可以用来实时检查DeepMind Health对数据的使用情况。
它将能连续验证我们的系统是否正常工作,并使我们的合作伙伴能够轻松地查询分类帐以检查特定类型的数据使用情况。我们还希望我们的合作伙伴能够采纳自动查询功能,有效地设置警告,这样在任何异常情况下会有警报触发。而且,未来,我们甚至可以让我们的合作伙伴选择允许他人检查我们的数据处理情况,例如个别患者或患者组。
面临的技术挑战
这一项目的打造工程肯定会面临巨大的困难,但是,考虑到问题的重要性,我们认为值得为之付出。现在,有三个技术的挑战最为突出:
1.无盲点
为了证明这是值得信赖的,数据使用不可能在没有登录分类帐的情况下发生,否则,这一概念就完全没有办法成立。除了设计日志以记录与数据的任何交互的时间,性质和目的之外,我们还希望能够证明没有其他软件在后台秘密地与数据交互。
除了在分类帐中记录每一次数据交互之外,我们还需要使用正式的方法,以及经过专家审计的代码和数据中心,以证明数据中心中的每个软件的每次数据访问都由这些日志记录。
我们对确保硬件的可信赖也很感兴趣——这是计算机科学领域的一个研究热点。
2.不同组,不同用法
部署的核心将是一个接口,以允许我们的合作医院可证实、实时检查数据使用情况,我们只在经过允许的目的中使用病人数据。如果这些合作伙伴希望将这种能力扩展到其他人,例如患者或患者团体,还有复杂的设计问题需要解决。
日志条目的长列表对许多患者可能不是有用的,并且一些人可能更喜欢阅读统一视图或者依赖于可信的中介。同样,患者组可能没有权限查看识别的数据,这意味着允许我们的合作伙伴提供某种形式的系统信息,避免无意地揭示患者数据。例如,是否已经在特定数据集上运行机器学习算法。
有关我们如何提供已验证的子集的访问或数据的概要的技术详细信息,请参阅我们的开源项目Trillianproject,我们也将使用这个项目,然后这篇论文解释了其工作原理。
3.分散的数据和日志没有差别
英国还没有一个患者识别信息数据库,因此治疗过程涉及数据在医疗提供者、IT系统,甚至患者控制的服务(如可穿戴设备)之间的传输。使这些系统可协同操作需要很多工作(我们的移动产品Streams是为可协同操作标准构建的),以令它们可以一起安全地工作。这些标准也包括可审计性,以避免数据在从一个系统传递到另一个系统时造成不可复制的缺陷。
这并不意味着像DeepMind这样的数据处理器可以看到来自其他系统的数据或审计日志。日志会保持分散,就像数据本身一样。审计的可相互操作性只提供额外的保证,这些数据不会被篡改,因为它们在系统之间传播。
这是一个重大的技术挑战,但我们认为应该是可行的。具体来说,有一个被称为FHIR的新的医疗可相互操作性的开放标准,可以扩展来以可行的方式包含可审计性。
我们希望能够在今年晚些时候实现这些计划的第一部分,并计划随时在博客上发表我们的进展和我们遇到的挑战。我们知道这非常困难,而且最艰巨的挑战并不是技术上的挑战。我们希望通过分享我们的流程和公开记录我们遇到的困难,将能够与尽可能多的人合作并获得反馈,增加这种基础设施在医疗保健领域得到更广泛使用的机会。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。