导语
当下随着互联网大发展,数据争夺愈发激烈,但随之,爬虫类网络犯罪也频频发生。在传统的追溯模式下,为维护网络安全和数据控制者的利益,刑法对利用网络爬虫爬取数据的行为进行严厉打击,“数据小偷”罪不可赦。但正义与非正义的界限有时其实并不是那么清晰,看似十恶不赦的网络爬虫,其存在实则具有一定的正当性,甚至是对社会有益的“贡献”。
本文通过探讨刑法和反垄断法视角下对爬虫行为截然不同的理解和规制方向,首次揭示了在爬虫类网络犯罪中,利用爬虫爬取数据行为的正当性空间,力求为理论和司法实务提供一种新的视角和思路。
一、引言
引发广泛争议的“LinkedIn v. hiQ案”在2019年短暂落幕后,于近日又迎来新的转折:美国联邦最高法院裁定将该案发回第九上诉巡回法院重新审理。[1]此举将这场具有标志性意义的“数据争夺战”再次引到公众面前,也使得这起因爬虫抓取数据而引发的热案的走向愈发未知。
LinkedIn与hiQ Labs的纠纷始于2017年,LinkedIn是一家职场社交网站,在全球范围内拥有超过7亿会员。hiQ Labs是一家数据分析公司,其通过爬虫技术抓取LinkedIn上的用户公开资料并进行分析,制成数据产品销售给客户。2017年5月,LinkedIn认为hiQ的行为违反美国《计算机欺诈与滥用法案》(Computer Fraud and Abuse Act)、《加利福尼亚州刑法典》(California Penal Code),向hiQ发出警告函,要求其“立即停止抓取未获授权的数据以及其他妨碍LinkedIn用户协议的行为”,并称其已采取技术措施禁止hiQ继续访问爬取数据。hiQ随后提起反诉,并要求法院颁布禁令救济,阻止LinkedIn采取技术措施屏蔽hiQ抓取数据的行为。
hiQ指控称,LinkedIn拒绝hiQ爬取公开数据是出于限制竞争的目的,而LinkedIn上的公开用户数据是维持hiQ这样一家数据分析公司商业生存的基础设施(essential facility)。LinkedIn公开宣称要发布数据分析服务产品,其阻止hiQ抓取数据,是利用其占据的社交平台数据优势地位,从而获得不公平的竞争优势,涉嫌违反加州不正当竞争法和联邦反垄断法。
加利福尼亚北区法院权衡了竞争利益与公共利益,考虑到抓取数据属于公开信息,并且LinkedIn也允许第三方企业使用数据,其阻止hiQ抓取的行为难谓正当,于是颁布禁令,禁止LinkedIn对hiQ抓取数据的行为实施技术屏蔽。2019年9月,联邦第九巡回上诉法院亦评估了不颁布禁令可能造成的损害与hiQ的商业存续利益,最终维持加利福尼亚北区法院的裁定。但随后LinkedIn向联邦最高法院申请调卷令,联邦最高法院最终裁定将案件发回重审……
LinkedIn和hiQ这场旷日持久的“数据争夺战”,反映出数字经济时代不可回避的重要问题——如何合理界定数据爬虫的正当性边界,数据抓取损害了互联网企业的合法利益,抑或是,阻止数据抓取会造成互联网巨头数据垄断的局面?数据爬虫应作为“数据小偷”施以惩戒,还是维护公共利益的“英雄”?
二、爬虫的原理
(一)爬虫的原理
网络爬虫(Web Crawler),也被称为网络蜘蛛、蜘蛛爬虫(Web Spider)或网络机器人(Web Robot),其本质是一套实现高效下载的系统,通过运行自动软件,按照指定规则来识别、提取和收集特定网页的数据。爬虫技术最早应用于搜索引擎,其使得网页间能建立系统性关联,是搜索引擎获取数据来源的支撑性技术之一。[2]根据爬虫运用的场景,可分为网页爬虫和APP爬虫,按其具体常见的种类又可分为两大类,一类是商业爬虫,如火车采集、八爪鱼等;另一类则是自行开发的爬虫,如Python。
理解网络爬虫,需要明确爬虫的两个基本原理:第一,爬虫基于HTTP协议,其要爬取的对象也是所有基于HTTP协议所传输的内容。第二,爬虫是主动地向服务器发出请求,给其一个简单范围,爬虫可以爬取预设范围内的所有信息。目前,随着技术的发展,爬虫也越来越多地向自动化、智能化、支持多协议的方向发展。我们目前见到最多、最智能的爬虫其实是类似百度搜索引擎这样的,利用爬虫程序,不断抓取网站上的内容,然后放在搜索结果中供用户检索。从这个意义上讲,爬虫并不一定是坏虫。而且,其实律师在办案过程中,有时也会利用爬虫来进行取证。
爬虫并不等于害虫,准确地说,作为一项技术,爬虫更多的只是一个中性词。美国哥伦比亚特区法院在“Sandvig v. Sessions”案中指出:爬虫只是数字时代更便利的信息收集工具,它与使用录音机而不是记笔记,或者使用智能手机的全景摄像而不是用传统相机别无二致。[3]
(二)反爬虫措施
爬虫爬取的是数据,但在当下互联网大潮下,数据作为一种竞争性资产,越来越受到重视,各大企业纷纷开始采用一系列反爬措施来禁止爬虫爬取数据。且由于爬虫是通过模拟用户浏览的方式来爬取数据,因此,服务器必须把合法用户的请求和爬虫的请求区别开来,一般常见的反爬虫措施主要有四种:第一种,最简单、最基础的技术措施——robots协议,其核心功能是在自己的网站上放一个声明,在搜索蜘蛛访问网站时,告诉搜索蜘蛛,网站上哪些内容是可以爬取的,哪些内容是不可以爬取的。但robots协议的作用有限,更多的只是一种约定俗成的惯例和声明,并没有强制力。第二种,HTTP请求信息验证。爬虫所爬取的内容都是基于HTTP协议的,HTTP协议包含User-Agent验证和Token验证,即检验用户发送请求中所携带的User-Agent字段和Token字段,从而识别是否是真正的浏览器用户在访问。第三种,Cookie验证,即一种当用户向目标网站发送请求时,服务器会校验请求中的Cookie值来区分正常用户和爬虫程序的手段;第四种,阈值监测。即设定一个IP访问频度的临界点,因为爬虫爬取的频度一般要远远高于正常用户,一旦其频度超过设定的临界点,就会触发相应的机制,从而帮助服务器判断发出访问请求的用户是真实的用户还是爬虫。
爬虫作为一种数据抓取技术,尽管其本身具有中立性,但对爬虫技术的具体运用却可能游走在法律的灰色地带。一方面,因为爬虫抓取的数据可能涉及用户隐私、商业秘密、知识产权、国家安全等法益,不当利用爬虫技术可能会造成相关法益的损害。尤其是,在以数据作为核心资产的互联网竞争背景下,爬取其他平台数据的行为极可能被认定为违法犯罪行为。但另一方面,就像“LinkedIn v. hiQ案”一样,部分企业爬取其他平台数据实则是为了发展新产业,如过分限制爬虫的爬取行为,反而可能不利于互联网经济的正向发展。如何调和占据数据优势的互联网巨头和后来竞争者之间的矛盾?理清爬虫合法使用与违法犯罪的边界至关重要。
三、现行刑法对爬虫行为的规制
(一)爬虫涉及的刑法罪名
从网络爬虫可能侵害的法益类型进行区分,我国《刑法》对爬虫行为的规制所涉罪名如下表:
上述罪名中,侵犯著作权罪、侵犯商业秘密罪与侵犯公民个人信息罪规制的重心在于爬取数据后的利用行为,而非法侵入、获取计算机信息系统数据罪等才是对爬虫行为本身非法性的评判,也是刑法规制爬虫的重点所在。
从当前立法条文的文义来看,非法获取计算机信息系统数据罪等以“违反国家规定”作为法定要件,但这一要件无法揭示爬取行为的实质内涵,更多仅具有形式意义。[5]根据最高人民法院、最高人民检察院2011年发布的《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》,该罪的入罪门槛也较低,“违法所得五千元以上或者造成经济损失一万元以上的”即可被认定为“情节严重”。
此外,该罪行为方式表现为“采用侵入或其他技术手段”,如何判断行为的“侵入性”,实务中,很多情况都需要从是否违反相对方的主观意愿角度进行判定。在这样宽泛的规定下,爬虫入罪实则缺乏明确指引性,也极可能导致司法实践中保护对象与实质法益的偏离。
(二)爬虫规制的实践争议
2019年,北京市海淀区人民法院审理的全国首例“爬虫”侵入计算机系统犯罪案中,被告人破解了被害人北京某公司的防抓取措施,使用“tt_spider”文件对被害人服务器实施视频数据抓取行为,造成被害人损失技术服务费人民币2万元。[6]该案因涉及爬虫获取网络“公开信息”受到刑法规制而倍受关注,也引发爬虫措施是否属于该罪构成要件“侵入行为”的讨论。
有观点指出,该案被爬取的数据属于公开可访问数据,被告人虽未经授权,但爬取公开数据的行为是否有必要采取刑事手段予以制裁?[7]而司法实践中对“侵入性”的判断往往以相对方的技术授权为前提,[8]即认为未经授权或越权,避开或突破系统保护措施,使用网络爬虫技术获取数据的行为,属于网络爬虫技术过界使用行为,属于非法行为。然而,控制海量数据就意味着占据核心竞争资源,数据控制者通常不愿将重要的数据资源进行共享。即使授权,数据控制者也仅会允许其抓取有限的数据。这样的授权协议往往极具不平等性,也隐藏着数据控制者垄断数据的真实目的。[9]以具有明显私利偏向的数据授权作为认定非法获取计算机信息系统数据等罪的依据,显然会与该罪名真正要保护的数据安全法益相悖,由此也扩大了刑法规制爬取数据行为的范围。
(三)“被害人”过错能否减轻或免除爬取者的责任
网络爬虫入刑,存在另外一个可能引发争议也应引起我们思考的问题,即“被害人”过错能否减轻或免除爬取者的责任。
虽然我国刑法上对于“被害人过错”没有统一的定义,但一般认为,“被害人过错”是指被害人由于主观上的故意或者过失,进而从事了某种侵犯了他人的合法权益的行为,从而直接或间接地诱发了犯罪人的犯意,或者强化了犯罪人实施进一步犯罪行为的过错。[10] 被害人过错的理论基础包括责任分担说和应受谴责降低说。责任分担说从分析客观危害的原因入手,引出被害人过错应当分担部分责任的结论,应受谴责降低说则主要立足于加害人的主观面,认为被害人过错将导致加害人应受谴责性降低。两者的积极意义在于提示我们在对被害人过错行为这一量刑情节作定量分析时应从“责任分担”和“谴责性降低”两方面来把握。被告人的量刑应该与被告人可谴责性成正比,与被害人所应分担的责任成反比。即被害人的过错行为导致被告人的可谴责性降低,则被告人的刑事责任就降低,量刑的从轻程度就高;被害人的过错行为应该对犯罪危害后果分担的责任越多,被告人刑事责任越小,量刑的从轻程度也应相应更高。[11]
在当前我国既有刑法体系中,被害人过错阻却违法性虽存在诸多理论上的困境,但被害人过错作为酌定情节考虑却广泛出现在我国的刑法理论与司法实务中。”[12]例如《山东省高级人民法院〈关于常见犯罪的量刑指导意见〉实施细则》中规定“对于被害人有过错或者对矛盾激化负有责任的,综合考虑被害人过错程度、犯罪的性质和后果等情况,可以减少基准刑的40%以下。”其他地方法院在具体司法实务中也出台相关解释,对此做出规定。[13]在具体案件中,例如在交通肇事罪中,如被害人有过错,被告人很可能只需承担次要责任。
一般认为,认定被害人过错需要在主观上出于故意或者过失,客观上表现为一种过错行为,包括作为和不作为。从内容上看,它既可能是违反刑法的行为,也可能是违反行政法律、民事法律的行为,还可能是违反社会公共道德规范、违背伦理道德和善良风俗的行为。[14]
实践中,很多企业利用爬虫爬取数据实则是出于业务开展的需要,例如做数据分析的公司,其商业模式就是对特定领域的海量数据进行分析,进而出具分析报告。因此掌握相关领域的海量数据,关系其命脉。但实际情况是,实践中,很多控制数据的上游企业并不愿意将其控制的数据进行共享或者授权许可,反而是,采取各种措施故意设置种种障碍拒绝数据的共享和流通,或者对于数据需求者的请求不理不睬,不作为,即使共享或许可相关数据对其业务并不会产生不利影响,也仍然拒绝许可或者共享。迫于此,以数据作为安身立命的企业往往被迫“铤而走险”,用脚投票,利用爬虫爬取数据。
求而不得,反求“险径”。实际上,在利用爬虫爬取数据这一行为中,我们很难单方面将责任完全归咎于对数据有需求的爬取者,相反,数据控制者是否具有一定程度上的过错?是否出于偏狭的私利?是否具有数据垄断的嫌疑?是否实行区别对待?是否涉嫌不正当竞争……种种作为或者不作为,是否可评价为“过错”?以及这种“过错”又是否能降低对数据爬取者的“可谴责性”,减轻甚至免除其责任?
刑事事件是加害者与被害者在社会互动过程中共同制造的。破坏某项社会制度及秩序的行为如果越接近一般善良理智行为人的选择(或常识、常理、常情),行为的责任 (包括刑事责任 )就应当越趋轻免, 该项社会制度及秩序的合理性也就越成问题。[15]
理解数据爬取行为,我们可能不能一味地从传统惯有的刑法规制思路单方面站在保护“被害人”的角度,对数据需求者利用网络爬虫爬取数据的行为进行片面批判。相反,将“被害人”对刑事事件的形成所具有的迫发性、激发性等可规责于被害人的原因性作用以及其背后真实的目的,相关群体的利益损害等纳入考量范畴,或许我们才能更加全面、客观地评价网络爬虫爬取数据这一行为。此外,在评价数据需求者爬取数据行为时,也应更多地从一般善良理性人的视角以及产业发展、社会公益等角度综合考量该行为的必要性与合理性,从而做出恰当的评价。
四、反垄断法视角下的数据爬取
(一)数据共享的需求与趋势
同时,在数据共享层面,我们观察到,虽然我国对于爬虫的刑法规制呈现出严苛性,但出于激励互联网创新产业发展,域外司法实践则呈现缓和化趋势。一方面源于数字经济的飞速发展,企业对数据的需求日益强盛;另一方面,数据所具有的网络效应又会极大增强企业的市场力量,而互联网大平台的聚集效应又会使得平台对上游数据形成较强的控制力,这些因素导致下游企业获取数据的难度越来越大,而当前数据竞争也实质上转换为上下游数据竞争者之间的博弈:上游数据企业基于对数据资源的巨大投资和收益期待,产生数据保护诉求;下游企业缺乏数据收集能力,也难以打入上游市场获得数据,因而产生数据共享诉求。[16]
虽然,数据共享涉及到个人、国家、社会公共利益,数据共享可能会面临一定的风险。但数据的开放与共享追求的是机会和财富合理分配的价值。[17]数据对经济发展及对消费者利益的激励作用,数据控制主体和数据共享需求主体之间的冲突对立可能引发的反竞争风险,更应成为非公共数据共享的重要考量因素。
在此大背景下,欧盟于2018年4月发布的工作文件称要推动欧盟数据经济市场中促进私营企业之间的数据共享。[18]经济合作与发展组织(OECD)于2019年11月发布报告指出,当前经济发展系以物联网和人工智能为代表的数据驱动创新,使得数据接入与共享变得比以往任何时候都更加重要。促进数据接入和共享会使数据的社会价值和经济效益最大化,不仅会增加数据持有者的价值,也会对数据下游用户带来极大价值,更会为国家经济和社会整体带来溢出效益。[19]
(二)反垄断法规制路径探索
在司法实践层面,数据竞争可能引发的利益冲突,各国通过反垄断法规制的路径早已有迹可循。在欧盟法院审理的“IMS Health v. NDS Health”案中,IMS拒绝向NDS提供数据库,欧盟法院根据欧洲竞争法,制定了认定滥用市场支配地位的四个标准。[20]美国法院审理的“Facebook v. Brandtotal”[21]“Peoplebrowsr v. Twitter”[22]案,也都涉及以竞争法规制互联网数据收集的行为。
同样,德国和欧盟对于当前背景下拒绝数据共享行为的规制,也有新的进展。2021年1月19日,德国《反对限制竞争法(第十修正案)》生效,其规定,除非存在正当理由,具有市场支配地位的经营者“拒绝以适当价格向其他经营者授予访问数据、网络或其他基础设施的权限,而这种提供行为或授权访问行为客观上是其他经营者在上游或下游市场经营所必需的”,可能构成滥用市场支配地位。[23]2021年6月18日,欧盟委员会向爱尔兰保险协会发出异议声明称,该协会限制保险公司及其代理人访问协会管理的Insurance Link数据库,限制爱尔兰机动车保险市场的竞争,违反《欧盟运作方式条约》(Treaty on theFunctioning of the European Union)第101条。[24]2021年6月22日,欧盟又发布公告,正式开展对谷歌的反垄断调查,重点关注谷歌限制第三方以广告目的获取用户数据,却将该等数据供自身使用的行为是否扭曲了竞争。[25]
与此同时,我国针对企业拒绝数据共享是否会引发垄断的问题也展开热议。有观点认为,数字经济时代,数据不仅仅是一项简单的投入要素,对数据的获取和运用甚至决定企业经营成败。把握保护数据与防止数据垄断之间的平衡,要考虑数据获取的难易程度、数据的可替代性、以尊重“用户意愿”为原则。[26]此外,我国的相关立法趋势也反映出对数据可能引发的竞争问题的关注。国务院反垄断委员会发布的《关于平台经济领域的反垄断指南》认为,对具有市场支配地位的平台经济经营者是否构成必须设施时,也要考虑平台占有数据情况。而今年6月刚通过的《数据安全法》也指出,国家以数据开发利用和产业发展促进数据安全,鼓励数据开发利用和数据安全等领域的技术推广和商业创新,培育数据交易市场。[27]最高人民法院亦明确将认真研究起草有关反垄断、反不正当竞争的司法解释,不断细化和完善平台企业垄断和不正当竞争行为的认定标准,促进创新要素自由有序流动、高效配置,维护公平有序竞争秩序。[28]
五、数据小偷抑或公众英雄?
爬虫行为具有两面性,它可能侵犯数据资产,需要受到行为不法性尺度的衡量,但也可能打开数据共享的阀门,成为激励创新的必经之路。数据控制者反爬虫的对抗也具有两面性,它可能是利益维护之盾,但也可能是据以优势而损害竞争之矛。同一行为所具有的双重属性体现着不同利益立场的对抗,私益与公益的权衡,是法律评价无法绕过的问题。而不同部门法的分工正是在统一的法律体系与法律秩序下,对不同利益冲突的平衡与协调。对于爬虫爬取数据行为的规制,也终究要回归到不同部门法所保护的法益中去。
竞争能带来繁荣,但竞争之下也同时存在排除、限制竞争的倾向。市场主体有效参与竞争和创新需要一个自由公平的竞争环境,竞争也只有获得法治保障才能持续繁荣。因而,反垄断法建构的出发点与落脚点就在于维护竞争自由和公平,保护消费者利益。尤其是,当下数据竞争已成为经济发展与企业竞争的关键点,维护数据竞争秩序也成为立法和执法关注的重点。对数据竞争秩序的维护包括对公平数据竞争秩序的维护和对自由数据竞争秩序的维护,因而,既要关注数据使用者可能利用爬虫恶意窃取竞争对手的数据资源的“搭便车”行为,也要考虑数据控制者限制竞争的不当垄断、圈占数据行为。[29]对于拒绝数据共享可能导致的市场失衡,需要通过反垄断的手段进行制裁,也需要清晰划定数据爬取的边界。
作为社会最严厉公器的刑法,在规制爬虫爬取数据行为上,理应作为“最后一道防线”。在民法上尚且可能被认定为合法的爬取行为,刑法不能越界认定其刑事违法。在保护数据控制者的私益可能妨碍竞争秩序与产业发展,且其私益可以通过其他部门法予以保护[30],而刑法所要保护的数据安全法益又尚未被触及时,刑法应保持其谦抑性。一方面,这是由法秩序的统一原理所决定的。另一方面,这也是安全与发展并重的数据安全观所要求的。刑法规定非法获取计算机信息罪所要保护的法益为网络数据安全,其旨在维护公共秩序。如果不区分数据是否保密、不区分数据类型,一味地将爬取公开数据的行为纳入刑法规制,极会造成数据控制者出于私利占据数据资源,阻碍数据的进一步开发利用。[31]爬取公开数据的入罪门槛实在不宜过低。
六、结语
技术的超越永无止境,爬虫与反爬虫的斗争永远在路上,但利益的平衡和社会的福祉却是亘古不变而颠扑不灭的真理。在技术与时代的流变中,法律也应有自己恪守的立场。
数据爬取问题的法律规制,刑法和反垄断法从不同角度,反映出不同利益诉求间的冲突,也凸显出不同法益保护下,不同法律规制间协调的必要性与紧迫性。刑法作为社会最后一道防线,理应保持一定的谦抑性,对其处罚范围和程度加以限制,防止刑罚权的膨胀。
在面对不断迭代的新技术,在面对瞬息万变的互联网领域时,作为社会最严厉公器的刑法更应怀着谨慎、宽缓的态度。因为,在这里,彼时的真理,在此时将变得荒诞,此时的信条,在来时将被推翻。因为,制度的意义总是在历史中建构的。在充满未知与无限可能的互联网领域,更多的谨慎和开放,可能是我们在面对未来,并在不久的将来以历史的视角来审视今天所应采取的态度。
来源:天同网事 如若侵权请联系网站客服,我们将按照规定及时处理。
注释:
[1] LinkedIn Corporation v. hiQ Labs, Inc. Supreme Court of The UnitedStates Order List June 14, 2021.
[2]李慧敏、孙佳亮:《论爬虫抓取数据行为的法律边界》,载《电子知识产权》2018年第12期。
[3] See Sandvig v. Sessions, No. 1:16-cv-01368, Dkt. 24 (D.D.C. Mar.30, 2018).
[4]相关学者将爬虫爬取数据受刑法规制的法益界定为“数据安全”,参见许可:《数据爬取的正当性及其边界》,载《中国法学》2021年第2期;杨志琼:《数据时代网络爬虫的刑法规制》,载《比较法研究》2020年第4期。