爬蟲究竟是合法還是違法的?
隨著大數據的火熱,數據相關行業競爭不僅“蒸蒸日上”,爬蟲之間的戰爭也越發地激烈。一篇《你的爬蟲會送老板進監獄嗎?》在程序猿圈子里被大量轉載,甚至有的程序員因為非法獲取數據的新聞從而放棄了這一行當。那么,爬蟲是什么,它會是懸在程序員頭上的達摩克利斯之劍嗎?
網絡爬蟲,也叫網絡蜘蛛,是一種用來自動瀏覽萬維網的網絡機器人。通俗來講,爬蟲就是一項計算機技術,方便用戶自動化、高效率地瀏覽互聯網并從互聯網上獲取數據。最早的爬蟲程序是1994年休斯敦大學的Eichmann開發的RBSE。著名的谷歌公司使用的GoogleCrawler是當時還是斯坦福大學生Brin和Page在1998年用Python開發的。
爬蟲作為一種計算機技術就決定了它的中立性,因此爬蟲本身在法律上并不被禁止,但是利用爬蟲技術獲取數據這一行為是具有違法甚至是犯罪的風險的。所謂具體問題具體分析,正如水果刀本身在法律上并不被禁止使用,但是用來捅人,就不被法律所容忍了。
詳細分析
既然我們說爬取數據是有可能觸犯法律的,那么我們就需要拆開分析一下到底什么情況下會被法律所制裁。爬取數據操作分為爬取的行為和爬取獲得的數據兩方面,我們將分別論述。
1.爬取行為的法律風險
1.1民事風險
爬蟲目前能造成的技術上影響在于野蠻爬取,即多線程爬取,從而導致網站癱瘓或不能訪問,這也是大多數網絡攻擊所使用的方法之一。
由于爬蟲會批量訪問網站,因此許多網站會采取反爬措施。例如:1.IP頻率、流量限制;2.請求時間窗口過濾統計;3.識別爬蟲等。
但這些手段都無法阻止爬蟲開發人員優化代碼、使用多IP池等方式規避反爬措施,實現大批量的數據抓取。由于網絡爬蟲會根據特定的條件訪問頁面,因而爬蟲的使用將占用被訪問網站的網絡帶寬并增加網絡服務器的處理開銷,甚至無法正常提供服務。在《反不正當競爭法》第十二條第二款中我們可以發現,法律會對爬蟲的這種行為進行規制。
即經營者不得利用技術手段,通過影響用戶選擇或者其他方式,實施下列妨礙、破壞其他經營者合法提供的網絡產品或者服務正常運行的行為:…其他妨礙、破壞其他經營者合法提供的網絡產品或者服務正常運行的行為。
《富爸爸,窮爸爸》作者:儲存黃金比特幣來防止美聯儲印鈔偷走你的錢:6月23日消息,《富爸爸,窮爸爸》作者羅伯特·清崎(Robert Kiyosaki)表示,真正的錢是在人們生產的時候創造出來的。如果你烤餅干并將餅干賣出去,你就創造了真正的錢。而當有人受雇卻不做任何事時,你的錢就被偷了。同理,當美聯儲印出數萬億美元鈔票時,美聯儲給所有人都施加了壓力。儲存黃金、白銀和比特幣,以此來防止小偷偷走你的錢。(U.Today)[2020/6/23]
雖然上述規定是兜底條款,但其體現了法律禁止通過技術手段進行對他人非法干繞的總體原則。
因此,如果網站運營者已經采取了一定的反扒措施,而爬蟲開發人員基于經營的目的、強行突破網站運營者采取的反爬措施,并客觀上導致了網站無法正常運行,則很有可能構成上述規定所表述的不正當競爭行為。
但是在此種情況下鑒別爬蟲者身份仍然是追責的一大阻礙,很多網站由于反爬機制落后,因而在法院訴訟中無法舉證證明爬蟲者因而得不到法院的支持。京73民終588號案件)
1.2刑事風險
強行突破某些特定的反爬技術措施,還會構成形式犯罪的行為。
《刑法》第二百八十五條規定,違反規定侵入國家事務、國防建設、尖端科學技術領域的計算機信息系統的,不論情節嚴重與否,構成非法侵入計算機信息系統罪。《刑法》第二百八十六條還規定,違反國家規定,對計算機信息系統功能進行刪除、修改、增加、干擾,造成計算機信息系統不能正常運行,后果嚴重的,構成犯罪,處五年以下有期徒刑或者拘役;后果特別嚴重的,處五年以上有期徒刑。而違反國家規定,對計算機信息系統中存儲、處理或者傳輸的數據和應用程序進行刪除、修改、增加的操作,后果嚴重的,也構成犯罪,依照前款的規定處罰。
如上所述規定,爬蟲開發者在獲取數據過程中,一旦突破某些技術防護措施并且操作不當,造成嚴重后果的,將會構成犯罪,面臨牢獄之災。
2.爬取特定類型的信息的法律風險
凡是能夠被電子化記錄的都是數據,數據分為兩大類。
第一類:非個人數據即此類數據與個人信息無關。此類數據通常是公開數據,因此不適用個人信息保護方面的法律法規。如企業工商注冊信息、裁判文書、天氣氣象數據、環境監測數據、地理測繪、總體性的人口數據、網站訪問記錄等。第二類:個人數據。即此類數據與個人信息有關,數據的來源是個人信息,且能夠或可能識別到個人。其中又包括兩類:1.已識別個人身份數據。此類數據完全適用個人數據保護的相關法律法規。如姓名、家庭住址、電話號碼等能夠確定識別、關聯到特定個人的數據,需符合個人數據保護法全部合規要求,包括知情同意、允許用戶訪問和更正、數據處理正當合法、目的限制、保障安全等。2.可能識別個人身份的數據。此類數據結合業務場景,靈活適用個人數據保護的相關法律法規。如業務場景中,識別風險較高,可按照第二類數據的合規性要求處理,需滿足全部合規要求;如識別風險較低,則可選擇部分適用。
《富爸爸,窮爸爸》作者:存好你的黃金、白銀和比特幣:《富爸爸,窮爸爸》的作者Robert Kiyosaki今日發推稱,1971年之后美元成為了負債國。債務讓富人更富,讓窮人和公司更窮。如果美國債務與GDP之比達到60%就該引起警惕了。如今,美國債務GDP之比已經到了110%,而且還在攀升。美帝正面臨破產。債務、美元和貪婪正在摧毀生命和世界經濟。存好你的黃金、白銀和比特幣。[2020/4/2]
2.1個人信息的爬取
對于PII信息,其關鍵點在于用戶授權,用戶未授權或者授權不充分帶來的法律風險很大。
2.1.1不正當競爭風險
例如新浪微博和脈脈發生的案件,一個因為開放API爬取數據引發的案子。
2014年8月,當時剛剛起步的職場社交軟件“脈脈”與新浪微博微博鬧掰了。脈脈上線之初,曾與新浪微博合作,脈脈的新用戶可以通過微博帳號和個人帳號注冊登錄脈脈,用戶注冊時還要想陌陌上傳手機通訊錄聯系人。隨后,新浪微博發現,脈脈用戶的“一度人脈”中,直接顯示大量非脈脈用戶的微博頭像、名稱、職業、教育等個人信息。2015年3月,微博主體公司將脈脈主體公司告上法庭。
原來用戶使用微博登錄脈脈并上傳個人通訊錄之后,大量非脈脈用戶的微博頭條、昵稱、職業、教育等信息出現在脈脈上,而這些信息并不在微博與脈脈開放API協議中,并且微博停止脈脈所有的接口權限后,脈脈依然在抓取相關數據,微博認為脈脈通過非法手段獲取信息。最終法院判決脈脈停止不正當競爭行為,并賠償損失。
這個案件中,法院確立了一個原則,即平臺要獲取用戶信息必須獲得授權,平臺之間通過開放API獲取數據必須經過“用戶授權-網站授權-用戶授權”的規則。
2.1.2侵犯隱私權風險
例如西民初字第28460號:王刃與北京奇虎科技有限公司隱私權糾紛案件中,原告王刃因個人手機登記為所投資公司聯系電話,被奇虎科技360手機衛士標記手機號碼功能標記顯示為公司號碼,導致原告王刃手機被被叫方誤認為是詐騙電話,因之以侵犯隱私權起訴360手機安全衛士所屬公司奇虎科技。
聲音 | 趙東:強盜邏輯就是我搶你的錢是為了你更有動力賺:今天,趙東微博評論江卓爾之前發的文章《算力戰=大佬燒錢,補貼給礦工(兼談最近行情)》表示,強盜邏輯就是 我搶你的錢是為了你更有動力賺錢。江卓爾表示,如果讓礦工自由選擇的話,理性礦工會不會支持大佬切算力到BCH上燒錢,來提高自己挖BTC的收益?[2018/11/18]
在該案件中,法院提出,“被告出示的證據可以證明原告所使用的號碼已經在企業黃頁被公開披露,原告在工商行政管理機關登記企業信息時,亦將該手機號碼予以登記,以備信息查閱。被告通過大數據比對功能,確定該手機號碼與浙江維特網絡信息有限公司合肥分公司相對應,并進行標記,其信息并無錯誤,且軟件標記的企業信息,而非公民個人信息。被告已證實其獲取手機號碼對應的標記信息均來源于公開渠道,因此亦不能認定被告標記號碼的行為侵犯了其隱私權”。同時,法院還認為:“對于360手機衛士軟件中主動標記企業信息的功能,本院認為仍存在一定改進之處,我國小微企業的業主為工作方便、節約資源,將私人電話作為辦公電話使用是普遍情況,這并不意味著手機號碼被登記在工商行政管理機關后,就專用于商務。如非號碼所有人主動申請標記,建議針對被標記號碼采取短信確認的方式,對所有人有所提示,有助于其獲得相應知情權”。
因而我們可以知道,本案確立了公開獲取數據的合法性,但又要求數據服務方對個人信息標記使用應獲得用戶同意,也即重申了“默示同意”的許可方式,同時又強調了“用戶同意”即用戶授權的原則。
2.1.3刑事風險
爬取個人信息還有可能會面臨牢獄之災,《中華人民共和國刑法》第二百五十三條之一所涉的“侵犯公民個人信息罪”及第二百八十六條之一所涉的“拒不履行信息網絡安全管理義務罪”就是爬蟲在個人信息爬取過程中經常觸碰到的“紅線”。
同時,與《網絡安全法》同日實施的最高人民法院、最高人民檢察院《關于辦理侵犯公民個人信息刑事案件適用法律若干問題的解釋》也明確了情節嚴重的幾種類型:
非法獲取、出售或者提供行蹤軌跡信息、通信內容、征信信息、財產信息五十條以上的;——高度敏感信息
聲音 | 趙東:比特幣靠算法證明保管好私鑰你的就是你的:Dfund創始人趙東今日微博回應網友所談“私產問題”時表示,所以比特幣最牛,靠算法數學知道是你的,不需要證明,也不用任何人承認,保管好私鑰,你的就是你的。該網友認為,私產本來也是一個幻象,真正區別只在于別人是否承認,沒人承認的私產就不是私產。一個國家是不是主權國家一個要素也是國際承認。[2018/10/5]
非法獲取、出售或者提供住宿信息、通信記錄、健康生理信息、交易信息等其他可能影響人身、財產安全的公民個人信息五百條以上的;——敏感信息
非法獲取、出售或者提供第三項、第四項規定以外的公民個人信息五千條以上的便構成“侵犯公民個人信息罪”所要求的“情節嚴重”。
此外,未經被收集者同意,即使是將合法收集的公民個人信息向他人提供的,也屬于刑法第二百五十三條之一規定的“提供公民個人信息”,可能構成犯罪。例如浙0602刑初1145號案中,當事人就采用非法手段獲取淘寶和支付寶中的個人信息,并提供、轉售給他人,非法獲利了巨額的財產。
2.1.4行政處罰風險
《網絡安全法》第六十四條規定,違反本法第四十四條規定,竊取或者以其他非法方式獲取、非法出售或者非法向他人提供個人信息,尚不構成犯罪的,由機關沒收違法所得,并處違法所得一倍以上十倍以下罰款,沒有違法所得的,處一百萬元以下罰款。
即便是非法獲取數據的嚴重性沒有達到入罪的標準,但是大概率上也會被行政機關進行處罰的,并且額度還不低,通常都以“萬”來計,就算程序員收入高,也受不了這種程度的處罰吧。
2.1.5總結
爬取涉及個人信息的數據總體風險較高,如果爬取數據沒有獲得用戶授權則存在侵犯人格權的風險。同時,爬取存在競爭關系平臺上的數據時,還可能因實質替代獲取不正當競爭優勢、干擾或破壞他人網絡服務的正常運行,涉嫌不正當競爭;更嚴重的是,還可能因非法獲取公民個人信息、非法侵入計算機信息系統、非法獲取計算機信息系統數據等涉嫌犯罪,招致刑罰。
2.2non-PII的爬取
英國FCA首席執行官警告比特幣投資者:準備好輸掉你的錢:英國一家金融監管機構的負責人警告稱,如果人們投資比特幣,他們將面臨資金損失。英國金融行為管理局(FCA)首席執行官Andrew Bailey告訴英國廣播公司(BBC)的“新聞之夜”(Newsnight)節目,購買比特幣構成了類似賭博的風險,因為既沒有得到中央當局的支持,也沒有受到監管,所以加密貨幣并不是一項安全的投資。[2017/12/18]
對于這類數據的爬取,目前市面上通常的做法都是爬取公開數據,例如靠爬蟲發家的“聚信立”公司。爬取這類數據的風險系數相對較低,畢竟通常不會涉及個人隱私與個人信息,但也并非毫無風險。可能會有哪些風險呢?
2.2.1著作權侵權風險
就著作權本身而言,無論是文章、圖片、視頻、用戶評論以及網站自身的數據庫,都有可能在具備獨創性的情況下構成著作權法保護的作品。對這些信息的獲取,是否構成著作權侵權需要拆分分析:
1)在訪問頁面的行為下,由于爬蟲是模仿人工訪問機制進行頁面訪問操作的,因而該訪問行為不會構成侵權,但如上述分析,如果該訪問行為造成被訪問頁面反爬措施失效或者網站癱瘓,則會構成侵權。2)對于數據保存而言,從著作權的角度上來說,抓取行為是對信息的復制,因此該行為有可能侵犯著作權人的復制權。3)就數據提取和使用行為而言,如果爬取的數據被用于展示在公開的網站或者渠道,則會侵犯著作權人的信息網絡傳播權。
大眾點評網訴愛幫網的訴訟中,大眾點評網在前兩輪訴訟中就是以愛幫網侵犯原告享有著作權的商戶介紹和點評為由,起訴了愛幫網,最終以愛幫網停止使用該作品勝訴。海民初字第4253號
2.2.2不正當競爭風險
同樣是大眾點評網,在2016年還起訴了百度,原因是百度未經許可,使用爬蟲技術從大眾點評網上大量獲取用戶點評信息,用于自家的百度地圖及百度知道產品。
最終一審判決認定百度構成不正當競爭行為,停止侵權并賠償323萬元。有圖有真相:
也即,如果公司業務中存在可能爬取競爭對手數據的情況,要格外注意這項風險。法院會首先判斷雙方是否存在競爭關系,進而判斷爬取數據的一方是否存在“不勞而獲”和“搭便車”的行為。如果是,就是上面的結果。
2.2.3刑事風險
1侵犯著作權罪
根據《中華人民共和國刑法》第二百一十七條規定,侵犯著作權罪是指以營利為目的,未經著作權人許可復制發行其文字、音像、計算機軟件等作品,出版他人享有獨占出版權的圖書,未經制作者許可復制發行其制作的音像制品,制作、展覽假冒他人署名的美術作品,違法所得數額較大或者有其他嚴重情節的行為。
案例:2014年3月,被告人何某設立“車城小說”網站,其通過租賃海外服務器并運行其從互聯網上下載的“關關采集”抓取軟件,在未獲起點中文網許可的情況下,擅自抓取、復制650部文字作品,存儲于自己的服務器上,供“車城小說”網站用戶免費閱讀。
何某通過在“車城小說”網站網頁內刊登廣告獲取廣告收益,非法營利數額達人民幣19萬余元。法院認定,何某抓取并通過信息網絡傳播作品的數量高于法定追訴標準的500件,且營利數額超過5萬元,構成侵犯著作權罪,判處有期徒刑1年,并處罰金10萬元。閔刑初字第59號
2非法侵入計算機信息系統罪
根據《刑法》第二百八十五條規定,違反規定侵入國家事務、國防建設、尖端科學技術領域的計算機信息系統的,不論情節嚴重與否,構成非法侵入計算機信息系統罪。
案例:在嚴某犯非法侵入計算機信息系統罪一案中,嚴某是一位協警,通過侵入警局內網,獲取并篡改數據,達到非法獲利的目的,觸犯了“非法侵入計算機信息系統罪”,鋃鐺入獄。廣利州刑初字第260號
3非法獲取計算機信息系統數據罪
《刑法》第二百八十五條還規定,違反規定侵入普通的計算機信息系統或者采用其他技術手段,獲取該計算機信息系統中存儲、處理或者傳輸的數據的,情節嚴重的,構成非法獲取計算機信息系統數據罪。
案例:南京同享網絡法定代表人張某、副總經理沈某組織員工編寫模擬程序,非法獲取掌門科技“WIFI萬能鑰匙”數據庫內的WIFI熱點密碼數據案,最終法院認定構成非法獲取計算機信息系統數據罪,上述兩人最終被判刑三年并處罰金。楊刑初字第232號
4總結
爬取non-PII數據總體風險較低,但仍不要大意。
輕則可能構成侵犯著作權,如果有競爭關系,還可能因實質替代獲取不正當競爭優勢、干擾或破壞他人網絡服務的正常運行,涉嫌構成不正當競爭;
重則可能因繞開技術措施非法獲取數據,涉嫌侵犯商業秘密,涉嫌構成非法侵入計算機信息系統、非法獲取計算機信息系統數據罪等罪。
對于廣大程序員來說,如何避免爬蟲所帶來的法律風險?
敲黑板!!重點來了!!!
如前面所述,爬蟲所帶來的風險主要有:
違反網站意愿,例如網站采取反爬措施后,強行突破其反爬措施;
爬蟲干擾了被訪問網站的正常運營;
爬蟲抓取了受到法律保護的特定類型的數據或信息。
其中,第3類風險主要來自于通過規避反爬蟲措施抓取到了互聯網上未被公開的信息。
因此,爬蟲開發者在使用爬蟲時應注意:
嚴格遵守網站設置的robots協議;
在規避反爬蟲措施的同時,需要優化自己的代碼,避免干擾被訪問網站的正常運行;
在設置抓取策略時,應注意編碼抓取視頻、音樂等可能構成作品的數據,或者針對某些特定網站批量抓取其中的用戶生成內容;
在使用、傳播抓取到的信息時,應審查所抓取的內容,如發現屬于用戶的個人信息、隱私或者他人的商業秘密的,應及時停止并刪除。
參考文獻
《網絡爬蟲全解析:技術、原理與實踐》,羅剛,電子工業出版社《法說數據|“爬”數據有哪些法律風險?》https://www.sohu.com/a/213059054_455817《數據之爭:網絡爬蟲涉及的法律問題》,瞿淼,http://www.kwm.com/zh/cn/knowledge/insights/legal-issues-concerning-web-crawlers-20180525#ref-id-here《爬蟲兇猛:爬支付寶、爬微信、竊取現金貸放貸數據》,戈森,http://36kr.com/p/5102037.html《<網絡安全法>背景下大數據業務合規要點》,http://lawgeek.info/https://baike.baidu.com/item/網絡爬蟲/5162711?fr=aladdin
答謝
大家都知道咸魚也是一個爬蟲愛好者,本文所論述的問題也是咸魚關心的,對于這個問題,咸魚在交流群里和群友討論過也和其他的爬蟲大佬交流過,但畢竟不是相關專業的難免害怕觸碰紅線心里有點虛,正好在咸魚為數不多的讀者中有一位從事法律行業的大佬,于是就有了這篇文章。
本文由群友不二辰投稿,剛剛得知他的職業之后我第一個問的問題就是,爬蟲合法嗎?之后大佬熬夜整理了資料寫下這篇文章,正好解決了咸魚心中的疑慮,希望對正在學習爬蟲或已經入職爬蟲工程師的你們有所幫助,再次感謝不二辰的辛苦付出!
Tags:比特幣HTTCOMAPI比特幣sv和比特幣區別htt幣價格今日行情Cardano ComicsCAPITAL X CELL
尊敬的WBFex用戶: 經與JGJZ項目方協商,將延遲上線JGJZ/USDT交易對,具體上線日期為2019年9月17日16:00.
1900/1/1 0:00:00親愛的用戶: 根據Band的搖號中簽規則,Binance將于2019年09月16日14:00開啟搖號申購,用戶可于網頁申購頁面或Android客戶端中查看申購資格并進行申購.
1900/1/1 0:00:00作者|哈希派-LucyCheng擴展性一直以來都是區塊鏈領域亟待解決的性能瓶頸——以太坊六年間先后提出超十種鏈上鏈下擴容路線,卻遲遲未能實現;號稱百萬TPS的EOS發布至今.
1900/1/1 0:00:00尊敬的LOEx用戶:為了加強SPU超級聯盟生態體系更繁榮,達成共識并推動SPU價值穩步增長,LOEx國際站應SPU項目方要求,于新加坡時間2019年9月18日18:00關閉SPU充幣通道.
1900/1/1 0:00:00為了回饋用戶,GGBTC萬有引力交易所將進一步聯合項目方進行大規模專屬空投,更有充值VGO贈送VGO等福利活動.
1900/1/1 0:00:00?公告編號:2019091603各位關心ZBG.COM的項目方和投資者們:為了提升用戶體驗,平臺對“ZB資產一鍵轉入”和“提幣”功能進行緊急升級維護中.
1900/1/1 0:00:00