最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

從大眾點評訴愛幫網(wǎng)分析,怎么使用爬蟲不違法?

2020-07-09 09:13 作者:自學(xué)Python的小姐姐呀  | 我要投稿

最近公司高層,突然下傳了一個口令,“禁止使用爬蟲,會負刑事責任的!”,一句簡短又有力量的話語,引起了我高度好奇心,爬蟲技術(shù)只是一種技術(shù),為何使用了,就要負刑事責任?所以上網(wǎng)查詢了些資料;


百度百科:


網(wǎng)絡(luò)爬蟲(又稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。


網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實現(xiàn)技術(shù),大致可以分為以下幾種類型:通用網(wǎng)絡(luò)爬蟲(General Purpose Web Crawler)、聚焦網(wǎng)絡(luò)爬蟲(Focused Web Crawler)、增量式網(wǎng)絡(luò)爬蟲(Incremental Web Crawler)、深層網(wǎng)絡(luò)爬蟲(Deep Web Crawler)。 實際的網(wǎng)絡(luò)爬蟲系統(tǒng)通常是幾種爬蟲技術(shù)相結(jié)合實現(xiàn)的




爬蟲作為一種計算機技術(shù)就決定了它的中立性,因此爬蟲本身在法律上并不被禁止,但是利用爬蟲技術(shù)獲取數(shù)據(jù)這一行為是具有違法甚至是犯罪的風險的。所謂具體問題具體分析,正如水果刀本身在法律上并不被禁止使用,但是用來捅人,就不被法律所容忍了。


詳細分析


1.爬取行為的法律風險


1.1民事風險


爬蟲目前能造成的技術(shù)上影響在于野蠻爬取,即多線程爬取,從而導(dǎo)致網(wǎng)站癱瘓或不能訪問,這也是大多數(shù)網(wǎng)絡(luò)攻擊所使用的方法之一。


由于爬蟲會批量訪問網(wǎng)站,因此許多網(wǎng)站會采取反爬措施。例如:1.IP頻率、流量限制;2.請求時間窗口過濾統(tǒng)計;3.識別爬蟲等。


但這些手段都無法阻止爬蟲開發(fā)人員優(yōu)化代碼、使用多IP池等方式規(guī)避反爬措施,實現(xiàn)大批量的數(shù)據(jù)抓取。由于網(wǎng)絡(luò)爬蟲會根據(jù)特定的條件訪問頁面,因而爬蟲的使用將占用被訪問網(wǎng)站的網(wǎng)絡(luò)帶寬并增加網(wǎng)絡(luò)服務(wù)器的處理開銷,甚至無法正常提供服務(wù)。在《反不正當競爭法》第十二條第二款中我們可以發(fā)現(xiàn),法律會對爬蟲的這種行為進行規(guī)制。


即經(jīng)營者不得利用技術(shù)手段,通過影響用戶選擇或者其他方式,實施下列妨礙、破壞其他經(jīng)營者合法提供的網(wǎng)絡(luò)產(chǎn)品或者服務(wù)正常運行的行為:…(四)其他妨礙、破壞其他經(jīng)營者合法提供的網(wǎng)絡(luò)產(chǎn)品或者服務(wù)正常運行的行為。




雖然上述規(guī)定是兜底條款,但其體現(xiàn)了法律禁止通過技術(shù)手段進行對他人非法干繞的總體原則。


因此,如果網(wǎng)站運營者已經(jīng)采取了一定的反扒措施,而爬蟲開發(fā)人員基于經(jīng)營的目的、強行突破網(wǎng)站運營者采取的反爬措施,并客觀上導(dǎo)致了網(wǎng)站無法正常運行,則很有可能構(gòu)成上述規(guī)定所表述的不正當競爭行為。


但是在此種情況下鑒別爬蟲者身份仍然是追責的一大阻礙,很多網(wǎng)站由于反爬機制落后,因而在法院訴訟中無法舉證證明爬蟲者因而得不到法院的支持。(見北京知識產(chǎn)權(quán)法院 (2016)京73民終588號案件)


1.2刑事風險


強行突破某些特定的反爬技術(shù)措施,還會構(gòu)成形式犯罪的行為。


《刑法》第二百八十五條規(guī)定,違反規(guī)定侵入國家事務(wù)、國防建設(shè)、尖端科學(xué)技術(shù)領(lǐng)域的計算機信息系統(tǒng)的,不論情節(jié)嚴重與否,構(gòu)成非法侵入計算機信息系統(tǒng)罪?!缎谭ā返诙侔耸鶙l還規(guī)定,違反國家規(guī)定,對計算機信息系統(tǒng)功能進行刪除、修改、增加、干擾,造成計算機信息系統(tǒng)不能正常運行,后果嚴重的,構(gòu)成犯罪,處五年以下有期徒刑或者拘役;后果特別嚴重的,處五年以上有期徒刑。而違反國家規(guī)定,對計算機信息系統(tǒng)中存儲、處理或者傳輸?shù)臄?shù)據(jù)和應(yīng)用程序進行刪除、修改、增加的操作,后果嚴重的,也構(gòu)成犯罪,依照前款的規(guī)定處罰。




如上所述規(guī)定,爬蟲開發(fā)者在獲取數(shù)據(jù)過程中,一旦突破某些技術(shù)防護措施并且操作不當,造成嚴重后果的,將會構(gòu)成犯罪,面臨牢獄之災(zāi)。


2.爬取特定類型的信息的法律風險


數(shù)據(jù)分為兩類:


第一類:非個人數(shù)據(jù)(non-PII,non-personally identifiable information)即此類數(shù)據(jù)與個人信息無關(guān)(此處需注意,與個人信息無關(guān)不代表與個人無關(guān),而是說不涉及個人隱私或者不能識別到具體個人)。此類數(shù)據(jù)通常是公開數(shù)據(jù)(當然也有作為國家秘密、商業(yè)秘密而采取保密措施不公開的秘密數(shù)據(jù)和秘密信息),因此不適用個人信息保護方面的法律法規(guī)。如企業(yè)工商注冊信息、裁判文書(因涉密或個人隱私不公開的除外)、天氣氣象數(shù)據(jù)、環(huán)境監(jiān)測數(shù)據(jù)、地理測繪、總體性的人口數(shù)據(jù)、網(wǎng)站訪問記錄等。


第二類:個人數(shù)據(jù)(PII,personally identifiable information)。即此類數(shù)據(jù)與個人信息有關(guān),數(shù)據(jù)的來源是個人信息,且能夠或可能識別到個人。其中又包括兩類:


1.已識別個人身份數(shù)據(jù)(personally identified information)。此類數(shù)據(jù)完全適用個人數(shù)據(jù)保護的相關(guān)法律法規(guī)。如姓名、家庭住址、電話號碼等能夠確定識別、關(guān)聯(lián)到特定個人的數(shù)據(jù),需符合個人數(shù)據(jù)保護法全部合規(guī)要求,包括知情同意、允許用戶訪問和更正、數(shù)據(jù)處理正當合法、目的限制、保障安全等。


2.可能識別個人身份的數(shù)據(jù)(personally identifiable information)。此類數(shù)據(jù)結(jié)合業(yè)務(wù)場景,靈活適用個人數(shù)據(jù)保護的相關(guān)法律法規(guī)。如業(yè)務(wù)場景中,識別風險較高,可按照第二類數(shù)據(jù)的合規(guī)性要求處理,需滿足全部合規(guī)要求;如識別風險較低,則可選擇部分適用。




2.1個人信息(PII)的爬取


對于PII信息,其關(guān)鍵點在于用戶授權(quán),用戶未授權(quán)或者授權(quán)不充分帶來的法律風險很大。


2.1.1不正當競爭風險


例如:新浪微博和脈脈發(fā)生的案件,一個因為開放API爬取數(shù)據(jù)引發(fā)的案子。


這個案件中,法院確立了一個原則,即平臺要獲取用戶信息必須獲得授權(quán),平臺之間通過開放API獲取數(shù)據(jù)必須經(jīng)過“用戶授權(quán)-網(wǎng)站授權(quán)-用戶授權(quán)”的規(guī)則。


2.1.2侵犯隱私權(quán)風險


例如(2015)西民初字第28460號:王刃與北京奇虎科技有限公司隱私權(quán)糾紛案件中,原告王刃因個人手機登記為所投資公司聯(lián)系電話,被奇虎科技360手機衛(wèi)士標記手機號碼功能標記顯示為公司號碼,導(dǎo)致原告王刃手機被被叫方誤認為是詐騙電話,因之以侵犯隱私權(quán)起訴360手機安全衛(wèi)士所屬公司奇虎科技。


因而我們可以知道,本案確立了公開獲取數(shù)據(jù)的合法性,但又要求數(shù)據(jù)服務(wù)方對個人信息標記使用應(yīng)獲得用戶同意,也即重申了“默示同意”的許可方式,同時又強調(diào)了“用戶同意”即用戶授權(quán)的原則。


2.1.3刑事風險


爬取個人信息還有可能會面臨牢獄之災(zāi),《中華人民共和國刑法》第二百五十三條之一所涉的“侵犯公民個人信息罪”及第二百八十六條之一所涉的“拒不履行信息網(wǎng)絡(luò)安全管理義務(wù)罪”就是爬蟲在個人信息爬取過程中經(jīng)常觸碰到的“紅線”。


同時,與《網(wǎng)絡(luò)安全法》同日實施的最高人民法院、最高人民檢察院《關(guān)于辦理侵犯公民個人信息刑事案件適用法律若干問題的解釋》也明確了情節(jié)嚴重的幾種類型:


1、非法獲取、出售或者提供行蹤軌跡信息、通信內(nèi)容、征信信息、財產(chǎn)信息五十條以上的;——高度敏感信息


2、非法獲取、出售或者提供住宿信息、通信記錄、健康生理信息、交易信息等其他可能影響人身、財產(chǎn)安全的公民個人信息五百條以上的;——敏感信息


3、非法獲取、出售或者提供第三項、第四項規(guī)定以外的公民個人信息五千條以上的便構(gòu)成“侵犯公民個人信息罪”所要求的“情節(jié)嚴重”。




此外,未經(jīng)被收集者同意,即使是將合法收集的公民個人信息向他人提供的,也屬于刑法第二百五十三條之一規(guī)定的“提供公民個人信息”,可能構(gòu)成犯罪。例如(2016)浙0602刑初1145號案中,當事人就采用非法手段獲取淘寶和支付寶中的個人信息,并提供、轉(zhuǎn)售給他人,非法獲利了巨額的財產(chǎn)。


2.1.4行政處罰風險


《網(wǎng)絡(luò)安全法》第六十四條規(guī)定,違反本法第四十四條規(guī)定,竊取或者以其他非法方式獲取、非法出售或者非法向他人提供個人信息,尚不構(gòu)成犯罪的,由公安機關(guān)沒收違法所得,并處違法所得一倍以上十倍以下罰款,沒有違法所得的,處一百萬元以下罰款。




即便是非法獲取數(shù)據(jù)的嚴重性沒有達到入罪的標準,但是大概率上也會被行政機關(guān)進行處罰的,并且額度還不低,通常都以“萬”來計,就算程序員收入高,也受不了這種程度的處罰吧。


總結(jié)


爬取涉及個人信息的數(shù)據(jù)總體風險較高,如果爬取數(shù)據(jù)沒有獲得用戶授權(quán)(包括通過API接口爬取數(shù)據(jù)的情況)則存在侵犯人格權(quán)(民法總則已經(jīng)明確個人信息權(quán)是一種人格權(quán))的風險。


同時,爬取存在競爭關(guān)系平臺上的數(shù)據(jù)時,還可能因?qū)嵸|(zhì)替代獲取不正當競爭優(yōu)勢、干擾或破壞他人網(wǎng)絡(luò)服務(wù)的正常運行,涉嫌不正當競爭;


更嚴重的是,還可能因非法獲取公民個人信息、非法侵入計算機信息系統(tǒng)、非法獲取計算機信息系統(tǒng)數(shù)據(jù)等涉嫌犯罪,招致刑罰。


2.2non-PII的爬取


對于這類數(shù)據(jù)的爬取,目前市面上通常的做法都是爬取公開數(shù)據(jù),例如靠爬蟲發(fā)家的“聚信立”公司。爬取這類數(shù)據(jù)的風險系數(shù)相對較低,畢竟通常不會涉及個人隱私與個人信息,但也并非毫無風險。可能會有哪些風險呢?


2.2.1著作權(quán)侵權(quán)風險


就著作權(quán)本身而言,無論是文章、圖片、視頻、用戶評論以及網(wǎng)站自身的數(shù)據(jù)庫,都有可能在具備獨創(chuàng)性的情況下構(gòu)成著作權(quán)法保護的作品。對這些信息的獲取,是否構(gòu)成著作權(quán)侵權(quán)需要拆分分析:


1)在訪問頁面的行為下,由于爬蟲是模仿人工訪問機制進行頁面訪問操作的,因而該訪問行為不會構(gòu)成侵權(quán),但如上述分析,如果該訪問行為造成被訪問頁面反爬措施失效或者網(wǎng)站癱瘓,則會構(gòu)成侵權(quán)。


2)對于數(shù)據(jù)保存而言,從著作權(quán)的角度上來說,抓取行為是對信息的復(fù)制,因此該行為有可能侵犯著作權(quán)人的復(fù)制權(quán)。


3)就數(shù)據(jù)提取和使用行為而言,如果爬取的數(shù)據(jù)被用于展示在公開的網(wǎng)站或者渠道,則會侵犯著作權(quán)人的信息網(wǎng)絡(luò)傳播權(quán)。




大眾點評網(wǎng)訴愛幫網(wǎng)的訴訟中,大眾點評網(wǎng)在前兩輪訴訟中就是以愛幫網(wǎng)侵犯原告享有著作權(quán)的商戶介紹和點評為由,起訴了愛幫網(wǎng),最終以愛幫網(wǎng)停止使用該作品勝訴。(2010)海民初字第4253號


2.2.2不正當競爭風險


同樣是大眾點評網(wǎng),在2016年還起訴了百度,原因是百度未經(jīng)許可,使用爬蟲技術(shù)從大眾點評網(wǎng)上大量獲取用戶點評信息,用于自家的百度地圖及百度知道產(chǎn)品。


最終一審判決認定百度構(gòu)成不正當競爭行為,停止侵權(quán)并賠償323萬元。


也即,如果公司業(yè)務(wù)中存在可能爬取競爭對手數(shù)據(jù)的情況,要格外注意這項風險。法院會首先判斷雙方是否存在競爭關(guān)系,進而判斷爬取數(shù)據(jù)的一方是否存在“不勞而獲”和“搭便車”的行為。如果是,就是上面的結(jié)果。


2.2.3 刑事風險


1 侵犯著作權(quán)罪


根據(jù)《中華人民共和國刑法》第二百一十七條規(guī)定,侵犯著作權(quán)罪是指以營利為目的,未經(jīng)著作權(quán)人許可復(fù)制發(fā)行其文字、音像、計算機軟件等作品,出版他人享有獨占出版權(quán)的圖書,未經(jīng)制作者許可復(fù)制發(fā)行其制作的音像制品,制作、展覽假冒他人署名的美術(shù)作品,違法所得數(shù)額較大或者有其他嚴重情節(jié)的行為。




案例:2014年3月,被告人何某設(shè)立“車城小說”網(wǎng)站,其通過租賃海外服務(wù)器并運行其從互聯(lián)網(wǎng)上下載的“關(guān)關(guān)采集”抓取軟件,在未獲起點中文網(wǎng)許可的情況下,擅自抓取、復(fù)制650部文字作品,存儲于自己的服務(wù)器上,供“車城小說”網(wǎng)站用戶免費閱讀。


何某通過在“車城小說”網(wǎng)站網(wǎng)頁內(nèi)刊登廣告獲取廣告收益,非法營利數(shù)額達人民幣19萬余元。法院認定,何某抓取并通過信息網(wǎng)絡(luò)傳播作品的數(shù)量高于法定追訴標準的500件,且營利數(shù)額超過5萬元,構(gòu)成侵犯著作權(quán)罪,判處有期徒刑1年,并處罰金10萬元。 (2015)閔刑(知)初字第59號


2 非法侵入計算機信息系統(tǒng)罪


根據(jù)《刑法》第二百八十五條規(guī)定,違反規(guī)定侵入國家事務(wù)、國防建設(shè)、尖端科學(xué)技術(shù)領(lǐng)域的計算機信息系統(tǒng)的,不論情節(jié)嚴重與否,構(gòu)成非法侵入計算機信息系統(tǒng)罪。




案例:在嚴某犯非法侵入計算機信息系統(tǒng)罪一案中,嚴某是一位協(xié)警,通過侵入警局內(nèi)網(wǎng),獲取并篡改數(shù)據(jù),達到非法獲利的目的,觸犯了“非法侵入計算機信息系統(tǒng)罪”,鋃鐺入獄。(2014)廣利州刑初字第260號


3 非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪


《刑法》第二百八十五條還規(guī)定,違反規(guī)定侵入普通的計算機信息系統(tǒng)或者采用其他技術(shù)手段,獲取該計算機信息系統(tǒng)中存儲、處理或者傳輸?shù)臄?shù)據(jù)的,情節(jié)嚴重的,構(gòu)成非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪。




案例:南京同享網(wǎng)絡(luò)法定代表人張某、副總經(jīng)理沈某組織員工編寫模擬程序,非法獲取掌門科技“WIFI****”數(shù)據(jù)庫內(nèi)的WIFI熱點密碼數(shù)據(jù)案,最終法院認定構(gòu)成非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪,上述兩人最終被判刑三年并處罰金。(2015)楊刑初字第232號


總結(jié)


爬取non-PII數(shù)據(jù)總體風險較低,但仍不要大意。


輕則可能構(gòu)成侵犯著作權(quán)(在被爬取的數(shù)據(jù)具有獨創(chuàng)性構(gòu)成作品的情況下),如果有競爭關(guān)系,還可能因?qū)嵸|(zhì)替代獲取不正當競爭優(yōu)勢、干擾或破壞他人網(wǎng)絡(luò)服務(wù)的正常運行,涉嫌構(gòu)成不正當競爭;


重則可能因繞開技術(shù)措施非法獲取數(shù)據(jù),涉嫌侵犯商業(yè)秘密(嚴重情形涉及刑事責任),涉嫌構(gòu)成非法侵入計算機信息系統(tǒng)、非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪等罪。


敲黑板?。澲攸c?。?!


對于廣大互聯(lián)網(wǎng)從業(yè)人員來說,如何避免爬蟲所帶來的法律風險?


如前面所述,爬蟲所帶來的風險主要有:


1.違反網(wǎng)站意愿,例如網(wǎng)站采取反爬措施后,強行突破其反爬措施;


2.爬蟲干擾了被訪問網(wǎng)站的正常運營;


3.爬蟲抓取了受到法律保護的特定類型的數(shù)據(jù)或信息。


其中,第3類風險主要來自于通過規(guī)避反爬蟲措施抓取到了互聯(lián)網(wǎng)上未被公開的信息。


因此,爬蟲開發(fā)者在使用爬蟲時應(yīng)注意:


1.嚴格遵守網(wǎng)站設(shè)置的robots協(xié)議;


2.在規(guī)避反爬蟲措施的同時,需要優(yōu)化自己的代碼,避免干擾被訪問網(wǎng)站的正常運行;


3.在設(shè)置抓取策略時,應(yīng)注意編碼抓取視頻、音樂等可能構(gòu)成作品的數(shù)據(jù),或者針對某些特定網(wǎng)站批量抓取其中的用戶生成內(nèi)容;


4.在使用、傳播抓取到的信息時,應(yīng)審查所抓取的內(nèi)容,如發(fā)現(xiàn)屬于用戶的個人信息、隱私或者他人的商業(yè)秘密的,應(yīng)及時停止并刪除。


從大眾點評訴愛幫網(wǎng)分析,怎么使用爬蟲不違法?的評論 (共 條)

分享到微博請遵守國家法律
仲巴县| 康乐县| 临朐县| 长白| 潼关县| 华蓥市| 丹巴县| 荣昌县| 灵宝市| 绥棱县| 都安| 仙桃市| 慈溪市| 邯郸县| 和硕县| 淮阳县| 高阳县| 楚雄市| 胶南市| 西盟| 余江县| 曲周县| 林西县| 平果县| 买车| 句容市| 乡城县| 古交市| 信阳市| 湟源县| 靖宇县| 漯河市| 东乡县| 平和县| 富源县| 南投市| 昌图县| 无为县| 深圳市| 清涧县| 新竹县|