言论自由的算法
“遗忘”变成例外?
曾经因《大数据时代》一书而在中国获得广泛关注的学者维克托·迈尔-舍恩伯格,在另一本关于大数据时代的著作《删除:大数据时代的取舍之道》里,提出了一个不可回避的问题:今天这个时代,遗忘变成例外,记忆成为常态,人类住进了数字化的圆形监狱。
舍恩伯格不仅指出了“数字化监视”这一种现实,也指出了因数据保留的永恒而使监视成为永恒的可能。也正是对这一问题的担忧,催生了被遗忘权的提出。被遗忘权概念在官方的首次提出是在欧盟 2012 年出台的《一般数据保护条例》中,条例称:信息主体有权要求信息控制者删除与其个人相关的资料信息。该权利被称为被遗忘及擦除权(The right to be forgotten and to erasure)。
在中国, 2011 年 1 月工信部颁发的《信息安全技术公共及商用服务信息系统个人信息保护指南》中指出,当个人信息主体有正当理由要求删除其个人信息时,个人信息处理者应及时对相关个人信息进行删除。2016 年 11 月,全国人大常委会通过并经国家主席令颁布了《网络安全法》,正式确认了个人对其网上个人信息的“删除权”:“个人发现网络运营者违反法律、行政法规的规定或者双方的约定收集、使用其个人信息的,有权要求网络运营者删除其个人信息。”
不管是将被遗忘权作为一种独立的个人权利提出,还是将它列入擦除(或删除)权中,这些新概念的出现,都是对数字时代个人信息的存留风险做出的法律回应。
对被遗忘权的讨论,常常会涉及它与言论自由、国家安全的关系。对此,在司法实践中对被遗忘权主要有两种态度:
第一种认为,当言论从私人领域进入到公共领域,个体可以以保护隐私权为名,用“被遗忘权”删除自己的言论,从而保护个体的言论自由;
第二种认为,言论一旦进入公共领域,就与私人领域无关,即便个体要使用“被遗忘权”保护自己,也与隐私权毫无关系,因此,坚持“被遗忘权”不利于保护言论自由。
欧盟更倾向于前者,而美国更倾向后者。有研究者认为,欧洲国家与美国对待隐私的差异,体现了西方关于隐私的两种文化,即尊严与自由,前者的主要危险被欧洲国家认为在于大众传媒;后者的最大威胁被美国认为来自政府。
传播学者吴飞等指出,一方面我们要保护私人领地的神圣性,要防止有人假公济私,但同样也必须保护公共领域的开放性,要防止有人假私损公。但这种平衡的拿捏并非易事。
而从法律层面看,被遗忘权的具体执行也存在很多难题,如被遗忘权的效力(包括内容效力、范围效力等)、被遗忘权的权利主体范围(这一权力对公共人物、罪犯与恐怖分子是否适用)、被遗忘权的义务主体范围等。欧盟经过不断地进行理论研究和实践修正,于 2016 年 4 月又公布了新的被遗忘权规则。但不同于此前在规则中的独立地位,此次的被遗忘权被放在擦除权之后以括号的形式标注出。
因此,也有研究者分析,这或许意味着被遗忘权将被“遗忘”。在中国的《网络安全法》中出现的“删除权”,也并不完全等同于被遗忘权,它更多地是“作为国家网络信息安全中的一个组成部分而设立的,而整体制度设计的重点在于保障网络信息传播秩序的稳定”。
从技术上看,网络信息复制、扩散的方便,也意味着“删除”未必是能“一键实现”的。
另一个值得注意的事实是,被遗忘权或删除权更多地是在学界和法律界被讨论,大多数普通人并不知道它的存在。在今天,数据上的“遗忘”还是例外。
即使有被遗忘权或删除权,个体也会面临比以往更多的风险,虽然谨言慎行或许是人们自认为的减少风险的办法,但在算法通过若干点赞就可以判断用户的性格的情况下,在未来各种传感器可以随时随地捕捉人的数据的情况下,记忆仍会是常态。
数据时代对抗风险所需的 “基本建设”尽管数据与算法应用的价值不可否定,但我们需要对数据和算法应用的失误或失范有足够的警惕,也需要增强对抗风险的能力。在中国,观念、基础条件、规范等方面的障碍,都意味着数据应用特别是大数据应用的推进需要时间。功利、草率的思维和行为都是对数据应用的损害而非推动。在数据技术的大跃进过程中,我们也需要回归原点,完成一些基本建设。
数据素养的培养
19 世纪后,美国的数据文化沿着“共和政治”和“经济发展”两条线共同发展,以培养有智识的公民为目标,大力普及数学教育,把数据意识成功推向整个社会,这样的数据素养基础或许是美国在大数据应用方面走在世界前列的原因之一。
反观中国,尽管“中国人的数学好”是国外对中国人的刻版印象之一,中国的中、小学数学教育似乎也是很严格的,但数学教育不等于数据教育,数据素养运比进行数学运算的能力要复杂得多。事实上,中国公众的数据素养存在着普遍不足。
研究者金兼斌指出,所谓数据素养(data literacy),是指人们有效且正当地发现、评估和使用信息和数据的一种意识和能力。通常,数据素养概念包含数据意识、数据获取能力、分析和理解数据的能力、运用数据进行决策的能力以及对数据作用的批评和反思精神。这一界定,揭示了数据素养所涵盖的多个层面。他的观点也代表了很多研究者的观点。
作为数据应用影响最突出的行业之一,今天的传媒业需要将数据素养作为媒体人的核心素养之一。尽管媒体的数据应用在丰富,媒体的生产流程变革也带来了更多的数据资源,在一些媒体的“中央厨房”中也提供了各种维度的数据,但是,如果没有严格的训练,媒体人或许难以将来自各方面的数据转化为有价值的、可靠的新闻,甚至可能会不断地生产出数据垃圾。
数据素养也应成为公民基本素养之一。全民数据素养的提高,不仅有助于公众自身对数据判断能力的提高,也会带来“水涨船高”的效应,有助于对数据分析机构(包括媒体)的数据分析水平进行监督,反过来推进数据应用水平的整体提升。
除了对数据的辨识与应用能力外,今天这个时代的数据素养,还应意味着批判性应用能力的深化。数据的风险意识、伦理意识,对算法的反思与使用中必要的节制,个人的数据保护意识、隐私意识等,或许都应是数据素养所涵盖的。
数据资源“基础设施”建设
美国之所以在数据应用方面走在世界前列,还因为在长期实践和积累中,政府机构在数据质量、开放性和数据使用规范都打下了良好的基础。进入大数据时代,美国政府进一步推进了数据资源的“基础设施”建设。前美国总统奥巴马在 2009 年上任伊始就签署了《透明与开放的政府备忘录》(Memorandum on Transparency and Open Government),号召政府致力于“建立一个透明的、公众参与的、协作的制度体系”,并且对“透明”、“公众参与”、“协作”三原则进行了解释。 2009 年 5 月,作为美国开放政府建设重要行动之一的Data. gov网站上线, 各政府机构均被要求积极向网站提供数据,公民可以自由检索并获取联邦政府数据。 2009 年 12 月 8 日,《开放政府指令》(The Open Government Directive)发布,要求主要政府机构必须提供三个高价值的数据集。
而在中国,数据的基础设施建设却仍处于起步阶段,虽然也有一些政府机构网站可以提供某些方面的数据,但总体来看,数据的完整性、时效性和可靠性都不尽如人意,多数行业性数据也难以满足大规模、持续的数据应用需要。而目前由一些服务商垄断的用户数据,也很难转化成公共性的资源。缺乏可靠的、开放性的、公益性的数据库资源,是今天进行数据分析和应用的重要障碍之一,特别是对于媒体和研究者来说。
公共数据库和其他数据资源的建设,应是未来若干年需要重点解决的问题,这也是决定未来中国的数据应用水平的基础之一。
数据质量评估体系的建立
在大量的机构在进行着数据分析甚至以此为营利模式时,如何对数据质量进行评估,变得越来越重要。
由于利益的原因,要数据分析机构来评估自身,显然不可行。而数据的使用者或公众,也很难有相应的评估能力。更为可行的,应该是具有相应资质、独立的第三方机构来进行评估。
第三方机构对数据质量的评估,也需要遵循严格、科学的评估框架,否则这些第三方机构也可能因利益因素而沦为数据生产者的同盟者,或沦为摆设。
进入大数据时代后,原来有着良好的数据应用传统的欧洲和美国都开始制定大数据的质量标准。图 1 是欧洲经济委员会(UNECE)建议的大数据质量框架。它将大数据质量框架分为三个阶段:数据投入(Input)、数据处理过程(Throughput)、数据产出(Output),对数据应用的每一个环节都制定了相应的标准与规范。此外,欧盟统计局也设计了官方统计使用的大数据的认证程序,美国普查局和公众舆论研究协会也有自己对非传统数据的质量评估标准或评估框架。
但是,在国内的大数据热潮下,我们似乎没有看到相关管理机构质量标准的跟进,在各种数据应用(包括大数据应用)的成果推出时,也没有看到相应的评估。而一些决策,包括人们常说的舆情研判,却常常建立在这些没有质量监测的数据分析结果上。
另一方面,即使有相应的评估标准,在执行中,也存在种种复杂性。例如,美国在 2000 年通过了《数据质量法》,要求“各部门都必须建立相应的数据审查复核机制,尽最大可能保证联邦政府所发布信息及统计数据的‘质量、客观性、实用性以及完整性’”,但是由于没有清晰界定谁对数据的质量拥有最终的解释和裁定权,因此,在实施后也遭遇重重问题。一个典型问题是,公共利益代表的缺位。该法案生效时,OIRA(美国行政管理预算局下设的信息和管制办公室)主任格雷厄姆曾认为,无论公司、还是消费者和环境保护的公益组织,全社会都可以来质疑政府发布的数据是否准确,各种不同的利益,都将得到保护。”但有研究者指出,后来的现实状况是,《数据质量法》仅仅成了商业组织反对管制标准的利器,面对相应问题,商业组织可以迅速组织起来进行游说,而利益受到了侵害的大众,却无法组织起来与公司抗衡。
在数据评估实施中,如何兼顾和平衡多方利益,如何建立完善的评估机制,仍将有诸多挑战。但至少,评估体系应该成为数据时代制度建设的一部分。
信息伦理规范的约束
今天,数据或算法越来越成为一种权力的体现——无论是数据获取或数据分析,还是算法设计及应用。数据与算法权力的过分垄断、数据与算法权力的滥用与利益裹胁等问题,都愈发严重,相应的伦理规范的制定与执行,变得更为重要。
20 世纪70 年代中期,美国伦理学家曼纳(Walter Maner)率先提出并使用“计算机伦理学”这个术语。1986 年,美国管理信息科学专家梅森提出了信息隐私权 ( Privacy) 、信息准确性 ( Accuracy) 、信息产权 ( Property) 和信息存取权 ( Accessibility) 4 个信息伦理议题。拉里·贾德(Larry R.Judd)在 1995 年提出了信息时代提高伦理与道德的三个准则:适当地承担责任;预料消极影响;以约翰·罗尔斯的正义原则为指导试图追求公平。
在国内,针对近年来发展中的问题,也有学者提出,为了披露与削减数据和算法权力的误用和滥用,应对数据和算法施以“伦理审计”。其基本策略是,从智能认知与算法决策的结果和影响中的不公正入手,反向核查其机制与过程有无故意或不自觉的曲解或误导,揭示其中存在的不准确、不包容和不公正,并促使其修正和改进。
2017 年 1 月,在美国加利福尼亚州阿西洛马举行的Beneficial ai会议上,特斯拉CEO埃隆·马斯克、DeepMind创始人戴米斯·哈萨比斯以及近千名人工智能和机器人领域的专家,联合签署了阿西洛马人工智能原则。该原则指出,科学家认为人工智能应符合一般的“人的价值”之类的尊严、权利、自由和文化等多样性。这意味着人工智能不应侵犯任何人的隐私、自由或安全。人工智能研究的目标,应该是创造有益(于人类)而不是不受(人类)控制的智能。该原则倡导的伦理和价值原则包括:安全性、故障的透明性、审判的透明性、责任、与人类价值观保持一致、保护隐私、尊重自由、分享利益、共同繁荣、人类控制、非颠覆以及禁止人工智能装备竞赛等。
这些来自不同方面的信息伦理规范倡议,要得以真正实施,还需要跨越很多障碍,但是,伦理的引导,是数据时代的一个必然选择,某种意义上,数据伦理比以往的其他技术伦理还要重要。
20 多年前,尼葛洛庞帝在《数字化生存》一书的前言中写道:“计算不再只是和计算机有关,它决定我们的生存”。今天即使是普通人都深刻地理解了这句话。这样一个时代,数据、算法成为决定我们生存方式的重要因素。识别、抵抗这其中的种种风险,也应该成为我们生活的一部分,成为媒体和各种数据应用机构的基本责任。
相关阅读
现代启发式算法 启发式算法(heuristic algorithm)是相对于最优化算法提出的。一个问题的最优算法求得该问题每个实例的最优解。启
MD5算法最近看了一个MD5的视频,突然发现MD5挺意思的,所以记录一下代码(写好封装),没准以后要用。也为一些寻找MD5算法的人提供便利。MD
吐槽 国庆假期第二天,去实验室开门,给猫猫铲丑丑,然后给她换猫粮,换水,喂这货吃的emmmmmm,然后今天就把之前在极客时间上买的数据结构与
Metropolis准则——以概率接受新状态 固体退火问题介绍 退火是指将固体加热到足够高的温度,使分子呈随机排列状态,然后逐步降温
引言 深度优先搜索的一个直接应用就是找出一幅图的所有连通分量。在深度优先搜索的递归调用期间,只要是某个顶点的可达顶点都能在