名詞解釋:“爬蟲”
一種常見的數(shù)據(jù)捕獲技術(shù),又被稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機(jī)器人,其按照一定的規(guī)則,自動從互聯(lián)網(wǎng)上提取網(wǎng)絡(luò)信息的程序或腳本。
二手交易平臺上不少商家出售所謂“大數(shù)據(jù)”信息采集服務(wù),號稱“專業(yè)爬蟲”。
二手交易平臺上一賣家自稱“專業(yè)老手”,可代寫各類爬蟲軟件。
簡歷采集器設(shè)有城市、兼職崗位、性別、年齡和發(fā)布時間等篩選條件。 網(wǎng)站截圖
“全國各省市三百多行業(yè)數(shù)據(jù)信息采集”、“python爬蟲程序數(shù)據(jù)采集代寫軟件,專業(yè)老手,定制化服務(wù)”……在某二手交易平臺上,有不少提供所謂“大數(shù)據(jù)”采集信息定制業(yè)務(wù)的商家,聲稱可進(jìn)行“專業(yè)爬蟲”、“各大網(wǎng)站數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析”。還有不少商家在QQ群里出售招聘網(wǎng)站簡歷采集器,可“無限量”導(dǎo)數(shù)據(jù)還幫忙介紹“客戶”。
南都記者調(diào)查發(fā)現(xiàn),所謂大數(shù)據(jù)采集定制業(yè)務(wù)“火爆”的背后,隱藏著一條非法爬取用戶數(shù)據(jù)信息的黑色產(chǎn)業(yè)鏈——“專業(yè)老手”編寫爬蟲軟件、提供軟件定制服務(wù)、黑產(chǎn)團(tuán)伙購買軟件批量生成“大數(shù)據(jù)”信息再轉(zhuǎn)手出售。業(yè)內(nèi)專家指出,爬取數(shù)據(jù)信息存在法律風(fēng)險,未經(jīng)平臺授權(quán)的非法爬取行為可能構(gòu)成侵權(quán)、違法甚至犯罪行為。
A
網(wǎng)貸、培訓(xùn)信息、淘寶記錄……各行業(yè)數(shù)據(jù)定制可查
以“大數(shù)據(jù)信息采集”、“數(shù)據(jù)爬取”、“數(shù)據(jù)爬蟲”等為關(guān)鍵詞在某二手交易平臺上進(jìn)行搜索,有很多提供所謂“大數(shù)據(jù)”采集信息服務(wù)的賣家。他們通常打著“數(shù)據(jù)爬蟲”、“數(shù)據(jù)采集”、“數(shù)據(jù)分析”的招牌,聲稱可進(jìn)行“專業(yè)爬蟲”、爬取各大網(wǎng)站的數(shù)據(jù)信息,“只有你想要的,沒有我們做不到的”。
“全國各省市三百多行業(yè)數(shù)據(jù)信息采集”,二手平臺上一名賣家稱,可以爬取的數(shù)據(jù)信息范圍覆蓋美容美發(fā)、餐飲美食、娛樂休閑、教育培訓(xùn)、親子護(hù)理、各類學(xué)校、醫(yī)療保健、物流快遞、建材裝修、汽車數(shù)碼等多個行業(yè),“49元/市/行業(yè)”,“拍下后留下郵箱,采集數(shù)據(jù)當(dāng)晚11點前發(fā)”。
那么,這些被爬取的“大數(shù)據(jù)”信息都包括哪些內(nèi)容?該二手平臺上一位賣家告訴南都記者,爬取的信息包括各類網(wǎng)頁數(shù)據(jù)、公眾號網(wǎng)站、趕集58、鏈家、餓了么等網(wǎng)站平臺的用戶個人信息,還有賣家稱可爬取淘寶買家、商家信息、個人網(wǎng)貸最新一手實時申請數(shù)據(jù)等。
南都記者了解到,根據(jù)采集數(shù)據(jù)的難易程度,售價也不盡相同。前述商家稱數(shù)據(jù)采集“基本版的100,普通版的200,高級版的300,如需制作客戶端軟件,費(fèi)用另加”。交易平臺數(shù)據(jù)顯示,該商品近期已被瀏覽超過3000次,有多名網(wǎng)友在該商品下方留言,詢問是否有唯品會、拼多多買家、58同城應(yīng)聘者電話、小區(qū)業(yè)主等信息數(shù)據(jù),賣家則回復(fù)可以提供,還特別提到“簡歷420萬份,主要是中高端用戶”,并稱具體業(yè)務(wù)“私聊”。
南都記者發(fā)現(xiàn),這些所謂提供“大數(shù)據(jù)”信息采集服務(wù)的賣家有的是個人、有的則是團(tuán)隊化操作的工作室,有賣家稱這類數(shù)據(jù)采集在行業(yè)內(nèi)業(yè)務(wù)需求量大,是“微商線上微信社群營銷必備數(shù)據(jù)資料”,可用于精準(zhǔn)推廣、拓展客戶和商品營銷。
B
招聘網(wǎng)站上萬份簡歷被打包出售, 每份僅1.5元
不久前,智聯(lián)招聘“內(nèi)鬼”私賣16萬份簡歷信息一案引發(fā)關(guān)注,南都記者近日調(diào)查發(fā)現(xiàn),被泄露的個人簡歷被多層轉(zhuǎn)手出售,“黑市”上海量簡歷被打包出售,每份僅1.5元。以“簡歷售賣”、“簡歷下載”為關(guān)鍵詞在QQ群中搜索,就能找到多個出售58同城、智聯(lián)招聘等知名招聘網(wǎng)站的簡歷信息的QQ群,最大的群人數(shù)有上千人。而在貼吧、二手交易平臺上,有不少公開出售智聯(lián)招聘、58同城、BOSS直聘等招聘網(wǎng)站上個人簡歷的帖子。
“全國58簡歷日產(chǎn)5000+,可以篩選年齡篩選重復(fù),還有純二手簡歷,可出視頻驗證,二手0.3元/條”,在一個名叫“58簡歷全國交流群”中,南都記者看到,群內(nèi)不斷有人發(fā)布出售知名招聘網(wǎng)站簡歷實時一手、二手信息的帖子,有的賣家還在群內(nèi)交流互換資源。群內(nèi)信息顯示,該群群成員總計超過2000人,高峰期的在線人數(shù)超過700人。
南都記者隨機(jī)添加一名賣家為QQ好友,對方稱他有全國各行業(yè)各地區(qū)的簡歷信息,“所有簡歷信息都是當(dāng)天實時更新”,還可以指定求職者年齡、性別、地區(qū),售價2.2元/條,而二手的則更便宜,僅售0.3元/條。某二手交易平臺上一賣家稱他手上有上萬份簡歷,“58同城、智聯(lián)招聘、趕集網(wǎng)的都有”,每份簡歷售價1.5元,“全國隨機(jī),不指定地區(qū)”,購買量大價格還可以再優(yōu)惠。
南都記者了解到,這些公開售賣、明碼標(biāo)價的個人信息,根據(jù)地域、行業(yè)類別的不同,簡歷的價格標(biāo)準(zhǔn)也不一樣。二手平臺上一名出售智聯(lián)招聘簡歷的賣家告訴南都記者,“北上廣都比較貴”、“北京地區(qū)每份簡歷要賣六七塊”。而除出售簡歷信息外,企業(yè)賬號也可以被當(dāng)成商品出售或轉(zhuǎn)賣,有賣家告訴記者,購買企業(yè)賬號可以直接下載招聘網(wǎng)站求職者投遞的簡歷信息,“地區(qū)行業(yè)你說了算”。
當(dāng)記者詢問購買簡歷的人拿這些個人信息去做什么,賣家提高了警惕,回復(fù)稱“不管你拿去干什么”,還不耐煩地表示“不用跟我說這個”,隨后便把記者拉進(jìn)了黑名單。
C
裁判文書網(wǎng)、知網(wǎng)數(shù)據(jù)也被爬 最低0.1元/條
南都記者注意到,除爬取各行業(yè)網(wǎng)站等用戶消費(fèi)、瀏覽數(shù)據(jù)外,中國裁判文書網(wǎng)判決文書也被當(dāng)成商品出現(xiàn)在二手交易平臺,有賣家稱可通過數(shù)據(jù)爬蟲技術(shù),導(dǎo)出幾百萬甚至上千萬條裁判文書網(wǎng)判決文書。
“裁判文書爬取,可長期提供更新全量數(shù)據(jù),需要的私聊”,“裁判文書網(wǎng)6500萬數(shù)據(jù),0.1元/條,低于100萬的數(shù)據(jù),0.2元/條,低于1萬的數(shù)據(jù),0.5元/條,低于10條的數(shù)據(jù),查詢成本太高,不提供,有需要可以詳聊”……某二手交易平臺上,不少賣家稱有海量裁判文書網(wǎng)判決書出售。
有賣家告訴南都記者,此類判決書可以根據(jù)客戶需要的條件檢索爬取,只要給出案件類型、審判程序、案由等關(guān)鍵詞,就可以按類別進(jìn)行海量數(shù)據(jù)導(dǎo)出,最終交付形式是Word或者Excel格式,提供SQL文件(數(shù)據(jù)庫腳本文件)。
此前,有不少用戶反映裁判文書網(wǎng)網(wǎng)站運(yùn)行速度慢,故障頻繁,經(jīng)常出現(xiàn)頁面無法顯示的問題,今年2月,最高人民法院在其官網(wǎng)答復(fù)稱,出現(xiàn)此問題的原因在于有大量技術(shù)公司通過爬蟲系統(tǒng)無限制并發(fā)訪問非法獲取裁判文書數(shù)據(jù),造成網(wǎng)站負(fù)荷過大。針對此問題,最高法表示自2018年7月起以驗證碼的方式上線系統(tǒng)軟件防爬功能。
而除了裁判文書網(wǎng),南都記者發(fā)現(xiàn),一些付費(fèi)網(wǎng)站的數(shù)據(jù)也同樣能被爬取,二手平臺上有不少賣家出售知網(wǎng)、萬方、知識庫;維普等文獻(xiàn)期刊數(shù)據(jù),“全庫數(shù)據(jù)爬蟲抓取,2元起”。
背景
非法爬取“大數(shù)據(jù)”已呈公司化運(yùn)營
去年8月,南都聯(lián)合阿里安全部發(fā)布的《2018網(wǎng)絡(luò)黑灰產(chǎn)治理研究報告》顯示,2017年我國網(wǎng)絡(luò)安全產(chǎn)業(yè)規(guī)模為450多億元,而黑灰產(chǎn)已達(dá)近千億元規(guī)模。在網(wǎng)絡(luò)黑灰產(chǎn)的整條產(chǎn)業(yè)鏈中,利用各種手段爬取、竊取或者通過買賣的方式獲得個人信息,成為黑灰產(chǎn)獲利的主要方式,由此滋生出的電信詐騙、敲詐勒索等下游違法犯罪行為,對公民個人信息安全、財產(chǎn)安全造成嚴(yán)重威脅,成為侵蝕互聯(lián)網(wǎng)經(jīng)濟(jì)正常運(yùn)轉(zhuǎn)的毒瘤。
今年4月,北京警方破獲的巧達(dá)科技非法獲取計算機(jī)信息系統(tǒng)數(shù)據(jù)案引發(fā)關(guān)注。這個號稱中國最大的簡歷大數(shù)據(jù)公司,專業(yè)提供招聘工具軟件和大數(shù)據(jù)分析服務(wù),擁有一系列的人力資源類大數(shù)據(jù)產(chǎn)品,包括喬大招、妙招網(wǎng)及愛伙伴等,還曾獲得天使輪、A輪和B輪融資,資方包括李開復(fù)的創(chuàng)新工場、中信產(chǎn)業(yè)基金等。
據(jù)警方披露,2018年10月,某互聯(lián)網(wǎng)公司報案稱,其公司員工發(fā)現(xiàn)有人在互聯(lián)網(wǎng)上兜售疑似為該公司用戶信息的數(shù)據(jù)。通過對該公司服務(wù)器日志進(jìn)行調(diào)取、梳理、分析,初步還原了數(shù)據(jù)被竊取的全過程。巧達(dá)科技公司在未經(jīng)授權(quán)的情況下,通過利用大量代理IP地址、偽造設(shè)備標(biāo)識等技術(shù)手段,繞過該公司服務(wù)器防護(hù)策略,大量惡意竊取存放在服務(wù)器上的用戶數(shù)據(jù)。且在竊取過程中,由于傳輸數(shù)據(jù)量過大,導(dǎo)致服務(wù)器數(shù)十次中斷服務(wù),影響上千萬用戶正常訪問,給該公司帶來了嚴(yán)重的經(jīng)濟(jì)損失。
律師說法
未經(jīng)平臺授權(quán)爬取數(shù)據(jù)信息或構(gòu)成侵權(quán)、違法甚至犯罪
在對上述所謂“大數(shù)據(jù)”軟件提供信息采集服務(wù)的現(xiàn)象進(jìn)行調(diào)查中,南都記者注意到,有賣家在其業(yè)務(wù)介紹中自證清白稱“違法亂紀(jì)的不做”,所提供的軟件外包和數(shù)據(jù)爬取等業(yè)務(wù)只爬取各種網(wǎng)頁、App公開的“看得見”的數(shù)據(jù)。
那么,按照大數(shù)據(jù)采集商的觀點,如果爬取的是網(wǎng)頁等公開數(shù)據(jù),這種行為就真的合理合規(guī)?
事實上,非法獲取數(shù)據(jù)存在諸多法律風(fēng)險,雖然利用爬蟲軟件等各種技術(shù)手段爬取互聯(lián)網(wǎng)數(shù)據(jù)的行為廣泛存在,但為保護(hù)自身數(shù)據(jù)不被爬取,很多企業(yè)也都設(shè)置了反爬蟲策略。當(dāng)網(wǎng)絡(luò)爬蟲非法抓取數(shù)據(jù)信息時,可能構(gòu)成的侵權(quán)、違法甚至犯罪行為主要包括危害計算機(jī)信息系統(tǒng)安全類、非法獲取公民個人信息類和侵犯知識產(chǎn)權(quán)類等。
近年來,企業(yè)之間通過數(shù)據(jù)爬取引發(fā)的對于數(shù)據(jù)權(quán)益爭奪的各種案件層出不窮。比如,新浪訴脈脈抓取新浪微博用戶信息案、淘寶訴美景不正當(dāng)競爭案等,對于非法爬取企業(yè)數(shù)據(jù)的行為,法律也更傾向于保護(hù)企業(yè)經(jīng)營者的權(quán)利。
《網(wǎng)絡(luò)安全法》第27條規(guī)定,任何個人和組織不得從事“竊取網(wǎng)絡(luò)數(shù)據(jù)”等危害網(wǎng)絡(luò)安全的活動,不得提供專門用于從事侵入網(wǎng)絡(luò)、干擾網(wǎng)絡(luò)正常功能及防護(hù)措施、竊取網(wǎng)絡(luò)數(shù)據(jù)等危害網(wǎng)絡(luò)安全活動的程序、工具。
述紹興警方破獲的這起大規(guī)模數(shù)據(jù)竊取案件中,上市黑產(chǎn)公司在運(yùn)營商服務(wù)器內(nèi)放置惡意程序清洗流量,導(dǎo)致30億條用戶數(shù)據(jù)被竊取。近日,公司法定代表人周某某等7人因涉嫌非法獲取計算機(jī)信息系統(tǒng)數(shù)據(jù)罪,被檢察機(jī)關(guān)提起公訴。
針對裁判文書網(wǎng)數(shù)據(jù)被爬蟲售賣一事,北京市社會組織法律調(diào)解中心副理事長張新年律師認(rèn)為,裁判文書網(wǎng)站上的內(nèi)容基于司法公開目的,是免費(fèi)的公共資源,未經(jīng)最高人民法院授權(quán),商家售賣裁判文書網(wǎng)數(shù)據(jù)則會構(gòu)成侵權(quán)。
大數(shù)據(jù)爬蟲背后誰在提供技術(shù)支持?
網(wǎng)售大數(shù)據(jù)采集定制業(yè)務(wù)如此“火爆”,這些所謂的“大數(shù)據(jù)”信息從何而來?又是如何被泄露出去的?南都記者調(diào)查發(fā)現(xiàn),這背后隱藏著一條非法爬取用戶數(shù)據(jù)的黑色產(chǎn)業(yè)鏈——“專業(yè)老手”編寫爬蟲軟件、提供軟件訂制服務(wù)、黑產(chǎn)團(tuán)伙購買軟件批量生成“大數(shù)據(jù)”信息再轉(zhuǎn)手出售。
“專業(yè)老手”代寫爬蟲軟件
所謂爬蟲,是一種常見的數(shù)據(jù)捕獲技術(shù),又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,其按照一定的規(guī)則,自動從互聯(lián)網(wǎng)上提取網(wǎng)絡(luò)信息的程序或腳本。雖然利用爬蟲軟件等各種技術(shù)手段爬取互聯(lián)網(wǎng)數(shù)據(jù)的行為廣泛存在,但為保護(hù)自身數(shù)據(jù)不被爬取,很多企業(yè)也都設(shè)置了反爬蟲策略。
“python爬蟲程序數(shù)據(jù)采集代寫軟件,專業(yè)老手,定制化服務(wù)”,二手平臺上一位賣家介紹,其提供各類大數(shù)據(jù)采集軟件代寫訂制服務(wù),可進(jìn)行“各種加密網(wǎng)站破解登錄”,采集數(shù)據(jù)范圍包括攜程春秋航空等旅游網(wǎng)、美團(tuán)天貓京東拼多多、微博知乎豆瓣等電商社交平臺。該賣家稱,他們是“一批精通軟件開發(fā)的編程高手組成”的軟件開發(fā)團(tuán)隊。平臺信息顯示,該賣家近期已完成多筆交易,用戶反饋“好評如潮”。
“網(wǎng)絡(luò)數(shù)據(jù)訂制云端代采集京東淘寶車主金融等所有行業(yè)信息采集,拍下發(fā)軟件”,二手平臺上另一名賣家向南都記者介紹了一款名叫“智能云”的軟件,售價980元,稱該可采集的數(shù)據(jù)信息覆蓋地圖商家、搜索引擎、企業(yè)信息、車主信息等全網(wǎng)大數(shù)據(jù),軟件有導(dǎo)入微信通訊錄、QQ群成員提取、微信群發(fā)、微信營銷、QQ營銷、論壇營銷等多個功能界面。賣家介紹稱,該軟件可用來為各行業(yè)進(jìn)行大數(shù)據(jù)引流、精準(zhǔn)營銷。
簡歷采集器700元/套“無限”導(dǎo)
除提供信息定制服務(wù)外,南都記者調(diào)查發(fā)現(xiàn),網(wǎng)上還有商家出售所謂簡歷信息采集器,可自動爬取知名招聘網(wǎng)站上的海量個人簡歷信息。在QQ群“58趕集簡歷采集”中,QQ網(wǎng)友“無名”稱簡歷采集器可“無限量”導(dǎo)出58同城求職者的個人簡歷信息,“全網(wǎng)實時同步”,“名字、電話、需要的工作、家庭地址都有,兼職全職都有”。
該賣家告訴南都記者,他用這個軟件從招聘網(wǎng)站導(dǎo)出個人簡歷信息,然后在網(wǎng)上售賣,“一手1.5元,二手0.3元”,還向記者打包票軟件“能賺錢”、“好用”,并表示如果買了這個軟件,他還可幫忙介紹“客戶”。
南都記者注意到,商家出售的上述簡歷信息采集器主要是針對58同城,“趕集網(wǎng)和智聯(lián)招聘比較少”。那么,這類簡歷信息采集器是如何批量爬取招聘網(wǎng)站的用戶個人簡歷呢?有業(yè)內(nèi)專家就此分析過58簡歷信息采集器的“盜取手法”:
黑產(chǎn)團(tuán)伙利用58同城在移動端的一個接口批量獲取用戶的簡歷ID以及加密不嚴(yán)謹(jǐn)?shù)挠脩鬒D信息,再通過另一個接口導(dǎo)致用戶包括姓名等真實信息泄漏,最后通過58的微店程序能夠通過用戶ID最終獲取用戶的電話號碼。
一名出售58簡歷信息采集器的QQ網(wǎng)友“大神-售58簡歷采集器”向南都記者表示,他的軟件可實時導(dǎo)出58同城、趕集網(wǎng)簡歷數(shù)據(jù),采用的是“雙接口”和爬蟲技術(shù),軟件安裝在PC端后,設(shè)置好條件便可進(jìn)行實時數(shù)據(jù)導(dǎo)出,“上手快好操作”,售價為700元/月。根據(jù)賣家發(fā)來的視頻截圖,這種簡歷采集器設(shè)有城市、兼職崗位、性別、年齡和發(fā)布時間等篩選條件,采集到的數(shù)據(jù)包括姓名、手機(jī)號碼、學(xué)歷信息、工作年限、期待月薪等個人信息。
(采寫:南都記者 王琦)