中文
学术聚焦首页  学术研究  学术聚焦

第9期 | 王国豫,黄斌:论大数据技术对知情同意的挑战

时间:2020-11-29


【摘要】:传统的知情同意模式存在着内在关系预设,且这一模式及其内在关系预设都是建立在个人自主性价值之上的。大数据技术将人置于不同的群组进行分析,使得知情同意的主体发生了重构,传统的知情同意模式中的确定目的被不确定目的和未知目的所取代,从而使得数据主体的自主性很难得到尊重,对知情同意的实现构成了挑战。

【关键词】:大数据技术 内在关系预设 个人自主性 知情同意

【中图分类号】:N031

近年来,随着大数据技术的迅猛发展,数据驱动的产品和服务已经逐渐走进我们的生活,给人们带来了极大的便利。与此同时,一些负面影响也逐渐显现。包括隐私问题、数字鸿沟、数字身份、数据安全以及数据所有权归属等问题,已经引起了学界和社会公众的广泛关注。针对大数据技术带来的伦理问题,人们正在试图找到一条路径,一方面继续推动大数据技术的发展,同时又希望能够保护公众的诸如隐私权在内的基本权益。为此,人们将在医学和生命科学领域中广泛应用的知情同意原则引入了大数据技术,以解决数据收集中涉及到的数据主体的权益问题。然而我们的研究发现,由于大数据技术数据收集的方法的特殊性,传统的知情同意模式并不能完全解决对数据主体的权益的尊重问题。这一点不仅体现在加剧了获取知情同意的困难,更体现在它使得获取知情同意困难的性质发生了改变。我们认为,大数据技术背景下,传统的知情同意模式中的内在关系预设产生了变化,知情同意主体与行动主体的界限正在模糊甚至消失,知情同意主体正在由个体主体转变成集体主体,知情同意模式中的行动目的也变得未知和不确定。正是在这个意义上我们认为,大数据技术对传统的知情同意构成了挑战,带来了新的道德责任和伦理困境。

一、机器智能及其超越:AI带来的哲学难题

众所周知,知情同意作为一种规范出现在纽伦堡审判之后。作为知情同意理论的来源之一,《纽伦堡法典》的第一条就是“受试者的自愿同意绝对必要。根据知情同意原则,对他人的医学干预行 为必须获得当事人( 受试者) 的自主授权,并且该授权需要是法律、制度上有效的。尽管这一原则产 生于实践,但从思想渊源上来看,知情同意仍然可 以追溯到康德的自主性思想。在康德那里,在道德 实践领域,每一个理性存在物都为自己立法,正是在这个意义上,我们说人人具有自主性( autonomy)。由此也可以推导出,当一个人的行为涉及到他人并 有可能对当事人带来重大影响的时候,如果未经获 得当事人的同意,就可能构成对他人的自主性的侵 犯。也就是说,当一个人做的选择只是与自己有关、不会干涉到他人的时候,行为者无需告知他人, 其他人也一般也不会要求知情,更没有干预他人选择的权力。但是,当一个人所做的行为选择会干涉 到他人的时候,这个人则有义务将其选择的目的和 具体情况告知利益相关人,并且在获取利益相关人同意、授权的情况下,才能行动。换言之,当个人所做行为会干涉到他人时,就需要获取他人的知情同意。

从上面的分析我们可以得出,一个完整的知情同意过程至少包括三个要素: 行动主体、行动客体——即知情同意主体、行动的目的。其内在关系如下: 当行动主体选择的行动可能作用于其他人——行动客体或对他人可能造成重大影响的时候,就需要将行动的目的及其相关信息告知行动客 体。这个人,即行动主体,只有在获得了行动客体 的同意后,他所做的选择才会得到道德上的辩护。也正是在这个意义上,行动客体就是知情同意主 体。在这一过程中,知情同意主体必须是可以确定 的。如果知情同意主体不能够确定,那么行动主体 就不知道将目的信息告知何人,知情同意这一行为 也不可能发生。因此,在每一次具体的知情同意发 生时,首先必须确定的是知情同意主体,这是知情 同意行为发生的前提。其次,在某个具体的知情同 意过程中,知情同意主体和行动主体的界线必须是 清晰的。行动主体因其即将做的选择会对行动客 体,即知情同意主体有重大影响,从而需要获得知 情同意主体的知情与同意。我们在前面已经分析 过,当一个人的行为不会干涉到他人时,这个人只 需要对自己的行为负责即可。再次,行动主体对自 己的行为目的是清晰的,也就是说,其内在关系预 设中的目的是确定的。行动主体在做选择前,清 楚知道自己想要的是什么,以及他的选择会对知情 同意主体有什么重大影响。在目的信息是具体的、清晰的基础上,行动主体才能评估自身的选择会不 会对其他人造成影响。最后,获取的知情同意,一定是与具体的目的一一对应的。传统意义上的知情同意,比如在医学和生命科学中的队列研究中,需要参与者或受试者就其提供的生物样本或数 据签署知情同意书,知情同意书上必须写明样本或 数据的用途或使用目的,一般都是就其所参与的单一研究而言的,该同意并不涵盖不相关的目的,也不包括在研究共同体内的数据再次转让和二次利用。换言之,当目的的内容发生改变之后,行动主体就需要再就新的目的获取同一个知情同意主体或新的知情同意主体的知情同意。如此,行动主体所做的选择才能在道德上获得辩护。

在医学伦理领域中,知情同意作为保护受试者或患者权利的基本伦理原则,体现了对人的自主权利的尊重,因而得到了普遍的认可。在我们日常道德生活中,知情同意也具有极大的道德价值。之所以如此,是因为知情同意原则是建立在个人自主性价值之上的,即源于对个人的自主权利的尊重。因为“人们均享有追求自己生活方式的权利,并且只有通过个人选择,他们才可以真正计划并实践一个属于自己的人生。个人决定对理性个体来说必然是一种最佳( 或对自己最好) 的决定。知情同意的内在关系预设也是建立在个人自主性价值的基础之上,因为无论是要求每一次具体的知情同意与唯一确定的目的对应,还是知情同意主体与行动主体的明确区分,都是基于对人的自主权利的尊重。

针对大数据技术可能会侵犯个人隐私的问题,已经有比较多的文献对此问题进行讨论,涉及数据收集和处理、挖掘、分享等过程中潜在的对隐私的侵犯。国外已经有相关法律将知情同意引入,以保护个人数据信息。比如在欧盟 2018 年正式实行的《一般数据保护条例》( 简称 GDP) 中,第 6 条第 1 款明确将数据主体同意作为数据处理合法的条件之一,而第 7 ( 同意的条件) 则分 4 款给出了同意的具体条件,比如第 1 款说到: “如果处理是基于同意,控制者应能证明数据主体已经同意处理其个人数据。”2019 12 20 日,在全国人大常委会法工委举行的第三次记者会上,相关新闻发言人报告了我国将于 2020 年制定《个人信息保护法》的计划。据悉,个人信息保护法将包括非经信息主体知情同意不得收集、处理和利用个人信息,在个人信息的利用方面,应当赋予信息主体决定权、选择权、拒绝权和被遗忘权,个人信息应可追溯、可异议、可纠错,并对滥用个人信息行为,应有强有力的法律约束和监管惩戒等内容。

二、表现乃对再现的超越性统一

然而,大数据技术的飞速发展改变了人们的生产、生活和交往方式,也对传统的知情同意模式构成了挑战。

通常,大数据技术是建立在数据归纳处理的基础之上的。它的主要步骤包括:数据采集( 搜集)、数据处理( 挖掘) 、数据分享( 转让、交易) 。在数据采集( 搜集) 的过程中,技术行为主体有时显性的——比如我们前面提到的在生命科学和医学研究中经常使用的队列研究,大数据技术的使用者对 数据的处理必须经过知情同意的程序。然而,在现 今的大数据技术应用中,很多时候,搜集和处理海 量数据的技术主体消失了,或处于隐匿的状态——如人机混合的搜索引擎,主要是利用人们在网上留下的行动足迹”——包括文本、视频、图像,和网上记录——包括称呼、身份、位置信息等等,进行数据爬虫”:通过进一步的深度挖掘数据,进而分类、回归分析、聚类、关联分享等方法,将数据转化为有价值的信息。在此基础上,将获得的有价值 的信息进行分享和扩散甚至出售,从而使得数据转 变成知识和商品。分享和扩散是大数据技术的重要环节,没有分享(主动或者被动) ,大数据既不可能也没有意义。

在大数据技术的分析过程中,一个重要的手段就是将人的各种属性数据化,即用一组数据对一个具体的人进行描述,从而勾勒出这个人的身份形象。比如,它可以根据个人的性别、职业、生活习惯、爱好、个人历史等因素将人们分门别类。再根据类别,借助于不同的算法对个人的情况进行不同的挖掘、分析,并且做出跟类别相关的选择;或者用 一群人共享的某一类数据来描绘这一群组的特征。布兰特·米特尔施泰德( Brent Mittelstadt) 指出,大数据技术拥有者可以依据人的属性,把人们置于不 同的临时群组( ad hoc group);通过临时群组,大数据拥有者可以分析群组成员的特征。在大部分情 况下,大数据技术的操作都是针对各种临时群组。米特尔施泰德集中讨论了大数据技术的拥有者对 群组的道德责任。由于群组不是个体简单的叠加, 它与个体有着本质上的区别,群组还具有一种群体 隐私,这种群体隐私不能通过分别保护群组里的成 员的隐私而得到保护,它必须以群组作为对象来保 护。而这一点并不在基于保护个体权利和个体自主性的传统知情同意模式涵盖的范围之内。

比方说,假如我们只知道 A 的基因信息,通过将这些基因信息与公开搜索的家谱数据库( GED- match) 进行匹配,可以获取 A 的远亲的基因信息;通过 A 的远亲的基因信息、其它信息,研究者可以得出该家族的谱系,最终得出 A 的姓名、地址等详细的信息。从基因角度讲,每个人都会被置于若干个家族基因群组。只要家族基因群组的某个人的基因信息被某个基因数据库保存了,那么,基因群组中的其他个体的信息都可以被查询到。2018年美国 72 金州杀手迪安杰洛( Joseph James Deangelo) 就是被警方通过这种方式抓到的,调查人员通过将罪犯在现场留下的 DNA 和公开搜索的家谱数据库( GEDmatch) 的数据库进行匹配找到了犯罪嫌疑人的远亲,最终通过对家族谱系的人进行筛查确定了犯罪嫌疑人。

以基因群组为中介获取犯罪嫌疑人的详细信息,确实给案件的侦破带来了便利,客观上有利于保护公众的安全。但是,这也意味着普通人的相关信息也有可能通过类似的基因群组被泄露出去,即使他没有去 DTC 基因检测公司做检测或相关的基因信息被存储在公开数据库中。只要你所从属的 基因群组中的某一个人的基因信息和个人信息被 数据库所存储,群组中其他人的基因信息和个人信 息也有可能被泄露出去。研究者发现只要一个国家的 2% 的人上传了自己的基因信息,那么,通过这些相关数据可以获取全国任何一个人的详细信 息。而在此过程中,尽管基因检测公司与上传基因 信息的被检测者之间履行了知情同意的程序,但其 他家族相关人却未必知情,也就是说,在未征得其 他基因群组成员同意的情况下,他们的基因信息却被其他人轻而易举获取。这就有可能对群组的其 他成员构成潜在威胁。理论上讲,由于群组自身也以一种独特的地位存在着,获取涉及群组的信息必须得到他所从属的基因群组中的其他成员的同意, 而这几乎是不可能的。

大数据技术形成了一个个类似的隐形“群组,而这些隐形群组在某种程度上获得了共同的个性 化特征,成为具有独特个性的集体,只是这种集 体不是实体性的,而是虚拟的,但在技术层面和影 响层面上来看,它又具有实在性。由此带来了一个新的群体隐私( group privacy) ”问题。对群体隐私的保护,也是对群组中所有个体的保护。因此,当 大数据技术的拥有者的行为会对群体隐私造成重 大影响的时候,他必须获得群组的知情同意。这就 意味着传统知情同意的内在关系预设就需要变为: 行动主体——大数据技术的拥有者、行动客体——知情同意主体( 群组) 、行动目的。群组作为大数据技术行动的客体出现在知情同意主体的位置上。然而,群组与个体有着本质的区别,他不是一个人, 而是一个集合体。正是在这个意义上,我们认为大 数据技术重构了知情同意主体,使得知情同意的伦 理问题变得更加复杂了。当个人的行为对群组的其他成员、群组有影响的时候,我们需要获取群组中其他成员的知情同意。那么,谁能代表群组做知情同意? 在技术上,我们也很难确定具体是那些人被置于这个临时群组,我们如何获取群组中其他个体的知情同意? 这都是大数据技术给我们提出的极其困难的问题。按照弗洛里迪的看法,我们当前的伦理学路径,太过于人类中心主义( 只考虑自然人) 和唯名论( 只考虑单个的个体) 了。我们应该将其他类型的个体,包括群组,纳入到考虑范围之内。也就是说,为了回应此种挑战,伦理学本身也需要做出一些改变。

三、“未知目的”与“确定目的”的内在矛盾

大数据具有 4V 特征,即 Volume ( 数据量庞大Variety ( 类型繁多Velocity ( 生成速度快)Value( 价值巨大但密度低)。首先,数据量庞大,由于存储、分析等技术的进步,来自互联网、物联网、科学研究等几个方面的数据都得以保存、分析。大 数据技术的出现,使得数据以最原始的状态保存下 来,这同时也使得数据量极大的增加。数据的计数单位已经从 TB PB,甚至已经开始以 EBZB 计数。其次,数据类型繁多,包括结构化、半结构化、非结构化的数据。传统的数据处理技术不能处理 非结构化和半结构化的数据,大数据技术的出现, 使得非结构化、半结构化数据的分析、处理成为可 能。再次,数据的产生具有时效性,数据流动的速 度很快,大数据技术能够达到对数据流的掌控。最 后,大数据中蕴含着巨大的价值,但是其价值密度 很低,需要对其进行挖掘才能产生巨大的价值。设 计大数据就是试图揭示数据点( data points) 之间无法预料的联系,可以说,大数据的 volumevarietyvelocity 特征最终都是为价值( value) 服务的,也就是最终要挖掘数据点之间无法预料的联系。数 据之间这些无法预料的联系,正是大数据蕴含的价值所在。

当人们收集数据时,要想使得其行为获得道德上的辩护,需要获得数据主体的知情同意。我们在前面分析过,在传统的知情同意内在关系预设中,行动主体需要把目的告知知情同意主体并获得其同意。但是,大数据技术是为了挖掘数据之间无法预料的联系,建构和找出其相关性。很多时候,处理和挖掘数据的公司和个人并不是自己需要这些信息,而是通过进一步的转让和分享,将数据处理的结果交给需要使用这些信息的人。这也就是说,数据收集者( 行动主体) 在收集数据的过程中,对数据的目的并不明晰。因而也谈不上清楚明白的告 知数据主体( 行动客体)。但即便在这种情况下,有些数据技术公司,为了免责,要求用户同意这些 转让数据的使用权。我们都经常在手机终端上经 历过必须同意的强求,否则其他 APP 的应用就不可能实现。结果就造成了没有被告知目的的不得不同意,即数据主体不能被告知数据未来做何 种用途、他们的数据最终的结果,这些情况在收集 数据的时候都是未知的。也就是说,通常,数据收集者是在没有告知数据使用的明确目的的情况 下,迫使数据主体同意了数据收集行为,否则就不可以使用 APP。很显然,在某种程度上这是一种霸王条款。

以美团公司于2019815日发布的《美团点评隐私政策》(5.0)为例子做一个简单的分析。在《美团点评隐私政策》(5.0) ( 以下简称《政策》) 的第一部分一、我们如何收集和使用您的个人信息中的“( 征得同意的例外10条讲到:“学术研究机构基于公共利益开展统计或学术 研究所必要,且对外提供学术研究或描述的结果时,对结果中所包含的个人信息进行去标识化处理。理论上讲,用户授权美团公司收集的数据所用 的目的是确定的,比如用这些数据完成送餐服务。但如果这些数据用于其它的目的则需要重新获取数据主体的知情同意。《政策》中的“( 其他也明确的写到了:“如果我们将信息用于政策未载明 的其他用途,或者将基于特定目的收集而来的信息 用于其他目的时,会单独征求您的授权同意。然 而,从第 10 条的表述中我们可以看到,《政策》在另一方面却默认去除标识的数据不需要获取数据主 体的授权,并且前面加上一个前提,即为了学术研究”;然而,研究发现通过生成式模型(generative models) 能够准确识别匿名化的数据,从而使得数据匿名化不足以保护个人隐私、也不能够满足 GDPR的数据保护要求。也就是说,数据去识别化并不能消除知情同意的需求。这实质就是将数据用于未知目的,并且不再为此征求用户再次知情同意。而在“()个人信息使用规则的第3:“我们可能将业务中收集的个人信息用于统计分析和 改进运营,将已经去标识化无法识别您身份且不能 复原的信息用于建立数据库并进行商业化利用。但并没有说明开展什么类型的商业化利用。这就很明显表明了数据将会用于其它的未知目的,并且《政策》也试图例举一些未知目的用途。

四、矛盾的解决路径及其困境

为了解决大数据技术的不确定性目或未知目的预设和传统知情同意的确定目的预设之间的矛盾,有人认为可以采取“一揽子知情同意( blanket consent) ”模式。所谓一揽子知情同意,是指在数据收集的时候,那些未知的数据用途也是默认 同意的,即认可不告知的同意。上节中列举的美 团的隐私条款,其实就包含了一揽子同意的意 思。但是,正如上节中分析的,根据知情同意的内 涵及其内在关系预设,我们可以合理的推出这种 不告知的同意与知情同意所依赖的个人自主性 相冲突。也就是说,一揽子知情同意模式并不能 保证人的自主权利,在某些情况下,甚至有可能带来严重的后果。因而,它不能在道德上获得有效的辩护。为了缓和大数据使用中的不确定性目的或 未知目的与确定目的的内在矛盾,也有人试图在具体的操作层面上,从实用主义出发,以强调团结  ( solidarity)或公共善( public good)为理由,在某个具体的领域中建议简化或消除同意的过程。比如,在使用生物样本库( biobanks) 数据进行的健康相关的研究中,如果这一研究是为了提高大众健 康的目的,基于此种情况,知情同意主体( 即行动客体,数据和样本的提供者) 在和行动主体( 即数据、样本的收集者) 签署知情同意书的时候,可以做出某种知情权让渡,同意研究者将这些数据用于科学 目的。妥协的理由,则是强调所有相关的研究具有 提高公众健康的目的,即强调团结和公共善。然 而,实际上我们并不能完全清楚地区分基于公共利 益的科学研究与基于其他目的,比如为了少数人利 益的科学研究。因此,用公共善或团结来论证不 告知目的使用很难得到伦理上的辩护。

分层式知情同意”( tiered consent)依据数据信息或生物样本的敏感程度,将同意的类型分为三个层次:层次1,按照传统的知情同意模式,需要逐个就研究的目的和用途告知数据主体并进而获取主体的知情同意;层次2,在某些具体研究领域,如果继续使用样本进行与原初同意的研究一致 的研究,可以不需要进行再次告知和同意;层次3,针对那些去身份识别的样本和数据的研究,可以采用一揽子知情同意。分层模式可以减少知情同意的成本,特别是对于生物队列的数据采集与应用,具有重要的价值。第三层面的问题前面已经述及,这里还有一个问题,即在具体操作层面,如何掌握这些分层的标准以及谁来决定如何分层? 如何解决这些具体操作层面的问题还有待于进一步研究。

综上,尽管大数据技术已经深入到我们生活中的各个方面,并且给人们的生活带来了极大的便利、创造了巨大的经济与社会价值,但是,大数据技术的广泛应用,也给我们现有的伦理规范带来了冲击,传统的侵犯隐私问题、安全问题和违反自主性等伦理问题也以新的形式出现。而大数据技术对知情同意原则的挑战,并不仅仅是在一般意义上加剧了知情同意的难度,而是动摇了传统知情同意理论的内在结构即其内在关系预设。通过对人的属性数据化,然后将人置于不同的群组进行分析、挖掘,使得我们几乎不可能清楚知道群组中具体是那些人,更谈不上获取群组成员的知情同意。使用大数据技术的意图之一在于通过对数据内在相关的挖掘,找到某种规律,将松散无序的数据转换成具有使用价值的信息。大数据技术的这个不确定性目的或未知目的的预设与传统知情同意模式要求的确定目的的预设存在着内在矛盾,这个矛盾的存在使得数据主体的自主性很难得到尊重,也就是说,按照现行的基于个体基础上的知情同意模式,数据收集者的行动很难在道德上得到有效的辩护。如何解决这一内在矛盾也是对大数据伦理学研究的一个挑战。

《自然辩证法研究》202004