chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

實現(xiàn)Java多線程爬蟲的兩點

汽車玩家 ? 來源: 黑馬程序員 ? 作者: 黑馬程序員 ? 2020-05-05 21:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在我們調試爬蟲程序的時候,單線程爬蟲沒什么問題,但是當我們在線上環(huán)境使用單線程爬蟲程序去采集網頁時,單線程就暴露出了兩個致命的問題:

采集效率特別慢,單線程之間都是串行的,下一個執(zhí)行動作需要等上一個執(zhí)行完才能執(zhí)行

對服務器的CUP等利用率不高,想想我們的服務器都是 8核16G,32G 的只跑一個線程會不會太浪費啦

線上環(huán)境不可能像我們本地測試一樣,不在乎采集效率,只要能正確提取結果就行。在這個時間就是金錢的年代,不可能給你時間去慢慢的采集,所以單線程爬蟲程序是行不通的,我們需要將單線程改成多線程的模式,來提升采集效率和提高計算機利用率。

多線程的爬蟲程序設計比單線程就要復雜很多,但是與其他業(yè)務在高并發(fā)下要保證數(shù)據(jù)安全又不同,多線程爬蟲在數(shù)據(jù)安全上到要求不是那么的高,因為每個頁面都可以被看作是一個獨立體。要做好多線程爬蟲就必須做好兩點:第一點就是統(tǒng)一的待采集 URL 維護,第二點就是 URL 的去重,下面我們簡單的來聊一聊這兩點。

維護待采集的 URL

多線程爬蟲程序就不能像單線程那樣,每個線程獨自維護這自己的待采集 URL,如果這樣的話,那么每個線程采集的網頁將是一樣的,你這就不是多線程采集啦,你這是將一個頁面采集的多次。基于這個原因我們就需要將待采集的 URL 統(tǒng)一維護,每個線程從統(tǒng)一 URL 維護處領取采集 URL ,完成采集任務,如果在頁面上發(fā)現(xiàn)新的 URL 鏈接則添加到 統(tǒng)一 URL 維護的容器中。下面是幾種適合用作統(tǒng)一 URL 維護的容器:

JDK 的安全隊列,例如 LinkedBlockingQueue

高性能的 NoSQL,比如 Redis、Mongodb

MQ 消息中間件

URL 的去重

URL 的去重也是多線程采集的關鍵一步,因為如果不去重的話,那么我們將采集到大量重復的 URL,這樣并沒有提升我們的采集效率,比如一個分頁的新聞列表,我們在采集第一頁的時候可以得到 2、3、4、5 頁的鏈接,在采集第二頁的時候又會得到 1、3、4、5 頁的鏈接,待采集的 URL 隊列中將存在大量的列表頁鏈接,這樣就會重復采集甚至進入到一個死循環(huán)當中,所以就需要 URL 去重。URL 去重的方法就非常多啦,下面是幾種常用的 URL 去重方式:

將 URL 保存到數(shù)據(jù)庫進行去重,比如 redis、MongoDB

將 URL 放到哈希表中去重,例如 hashset

將 URL 經過 MD5 之后保存到哈希表中去重,相比于上面一種,能夠節(jié)約空間

使用 布隆過濾器(Bloom Filter)去重,這種方式能夠節(jié)約大量的空間,就是不那么準確。

關于多線程爬蟲的兩個核心知識點我們都知道啦,下面我畫了一個簡單的多線程爬蟲架構圖,如下圖所示:

實現(xiàn)Java多線程爬蟲的兩點

多線程爬蟲架構圖

上面我們主要了解了多線程爬蟲的架構設計,接下來我們不妨來試試 Java 多線程爬蟲,我們以采集虎撲新聞為例來實戰(zhàn)一下 Java 多線程爬蟲,Java 多線程爬蟲中設計到了 待采集 URL 的維護和 URL 去重,由于我們這里只是演示,所以我們就使用 JDK 內置的容器來完成,我們使用 LinkedBlockingQueue 作為待采集 URL 維護容器,HashSet 作為 URL 去重容器。下面是 Java 多線程爬蟲核心代碼,詳細代碼以上傳 GitHub,地址在文末:

實現(xiàn)Java多線程爬蟲的兩點

實現(xiàn)Java多線程爬蟲的兩點

實現(xiàn)Java多線程爬蟲的兩點

我們用 5 個線程去采集虎撲新聞列表頁看看效果如果?運行該程序,得到如下結果:

實現(xiàn)Java多線程爬蟲的兩點

多線程采集結果

結果中可以看出,我們啟動了 5 個線程采集了 61 頁頁面,一共耗時 2 秒鐘,可以說效果還是不錯的,我們來跟單線程對比一下,看看差距有多大?我們將線程數(shù)設置為 1 ,再次啟動程序,得到如下結果:

實現(xiàn)Java多線程爬蟲的兩點

單線程運行結果

可以看出單線程采集虎撲 61 條新聞花費了 7 秒鐘,耗時差不多是多線程的 4 倍,你想想這可只是 61 個頁面,頁面更多的話,差距會越來越大,所以多線程爬蟲效率還是非常高的。

分布式爬蟲架構

分布式爬蟲架構是一個大型采集程序才需要使用的架構,一般情況下使用單機多線程就可以解決業(yè)務需求,反正我是沒有分布式爬蟲項目的經驗,所以這一塊我也沒什么可以講的,但是我們作為技術人員,我們需要對技術保存熱度,雖然不用,但是了解了解也無妨,我查閱了不少資料得出了如下結論:

分布式爬蟲架構跟我們多線程爬蟲架構在思路上來說是一樣的,我們只需要在多線程的基礎上稍加改進就可以變成一個簡單的分布式爬蟲架構。因為分布式爬蟲架構中爬蟲程序部署在不同的機器上,所以我們待采集的 URL 和 采集過的 URL 就不能存放在爬蟲程序機器的內存中啦,我們需要將它統(tǒng)一在某臺機器上維護啦,比如存放在 Redis 或者 MongoDB 中,每臺機器都從這上面獲取采集鏈接,而不是從 LinkedBlockingQueue 這樣的內存隊列中取鏈接啦,這樣一個簡單的分布式爬蟲架構就出現(xiàn)了,當然這里面還會有很多細節(jié)問題,因為我沒有分布式架構的經驗

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • JAVA
    +關注

    關注

    20

    文章

    3005

    瀏覽量

    116813
  • 多線程
    +關注

    關注

    0

    文章

    279

    瀏覽量

    21121
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Java并發(fā)編程的“基石”——多線程概念初識

    。Java 的內存可見性機制(如 happens-before 原則)能夠確保在極端并發(fā)下,任何一個調度節(jié)點看到的集群狀態(tài)都是一致且準確的,從根本上杜絕了“腦裂”和資源超賣。 其次是 精妙的多線程協(xié)同
    發(fā)表于 04-16 18:50

    深視課堂丨激光位移傳感器SD33系列兩點示教操作指南(第四課)

    在實際工業(yè)應用中,僅設置單個閾值往往無法滿足復雜檢測任務的需求。這時,兩點示教模式展現(xiàn)出其獨特優(yōu)勢,它通過設定近端和遠端個閾值,能夠在設定區(qū)間內穩(wěn)定輸出信號,大幅提升操作易用性,
    的頭像 發(fā)表于 01-19 08:18 ?416次閱讀
    深視課堂丨<b class='flag-5'>點</b>激光位移傳感器SD33系列<b class='flag-5'>兩點</b>示教操作指南(第四課)

    【瑞薩RA × Zephyr評測】多線程和看門狗

    本文章旨在評估使用 Zephyr RTOS 在 Renesas FPB-RA6E2 開發(fā)板上實現(xiàn)多線程調度與硬件看門狗功能的應用。評估內容包括任務調度、看門狗初始化流程、主程序邏輯的詳細解析,以及實驗現(xiàn)象與數(shù)據(jù)分析。
    的頭像 發(fā)表于 01-10 10:23 ?2642次閱讀
    【瑞薩RA × Zephyr評測】<b class='flag-5'>多線程</b>和看門狗

    京東關鍵詞搜索商品列表的Python爬蟲實戰(zhàn)

    京東關鍵詞搜索商品列表 Python 爬蟲實戰(zhàn) 你想要實現(xiàn)京東關鍵詞搜索商品的爬蟲,我會從 合規(guī)聲明、環(huán)境準備、頁面分析、代碼實現(xiàn)、反爬優(yōu)化 五個方面展開,幫助你完成實戰(zhàn)項目。 一、前
    的頭像 發(fā)表于 01-04 10:16 ?1206次閱讀

    解析Linux的進程、線程和協(xié)程

    實現(xiàn)協(xié)程。常見的協(xié)程庫包括libcoro和libco。協(xié)程通常在單線程內執(zhí)行,通過手動掛起和恢復來實現(xiàn)協(xié)程切換。 協(xié)程管理的關鍵包括: (1)協(xié)程創(chuàng)建:使用協(xié)程庫提供的函數(shù)來創(chuàng)建和
    發(fā)表于 12-22 11:00

    多線程的系統(tǒng)

    多線程系統(tǒng)的事件響應也是在中斷中完成的,但事件的處理是在線程中完成的。在多線程系統(tǒng)中,線程跟中斷一樣,也具有優(yōu)先級,優(yōu)先級高的線程會被優(yōu)先執(zhí)
    發(fā)表于 12-08 07:55

    Linux多線程對比單線程的優(yōu)勢

    ,而單線程則需要通過進程間通信來實現(xiàn)?!干舷挛那袚Q開銷小」:線程的上下文切換比進程小,因為它們共享相同的地址空間?!柑岣唔憫浴梗?b class='flag-5'>多線程可以使程序更加響應用戶輸入或其他事件,避免阻塞。
    發(fā)表于 12-01 06:11

    # 深度解析:爬蟲技術獲取淘寶商品詳情并封裝為API的全流程應用

    需求。本文將深入探討如何借助爬蟲技術實現(xiàn)淘寶商品詳情的獲取,并將其高效封裝為API。 一、爬蟲技術核心原理與工具 1.1 爬蟲運行機制 網絡爬蟲
    的頭像 發(fā)表于 11-17 09:29 ?454次閱讀

    rt-thread studio 如何進行多線程編譯?

    ,使用的是5800h+32g內存+sn550 ssd,開啟16線程編譯時cpu的占用率也只能到30%,編譯完整個工程需要3分鐘 感覺多線程編譯設置沒有生效,有辦法提高編譯速度嗎 rtthread studio版本是 2.2.9
    發(fā)表于 10-11 09:16

    從 0 到 1:用 PHP 爬蟲優(yōu)雅地拿下京東商品詳情

    PHP 語言 實現(xiàn)一個 可運行的京東商品爬蟲 ,不僅能抓取商品標題、價格、圖片、評價數(shù),還能應對常見的反爬策略。全文附完整代碼, 復制粘貼即可運行 。 一、為什么選擇 PHP 做爬蟲? 雖然 Python 是
    的頭像 發(fā)表于 09-23 16:42 ?1047次閱讀
    從 0 到 1:用 PHP <b class='flag-5'>爬蟲</b>優(yōu)雅地拿下京東商品詳情

    Nginx限流與防爬蟲配置方案

    在互聯(lián)網業(yè)務快速發(fā)展的今天,網站面臨著各種流量沖擊和惡意爬蟲的威脅。作為運維工程師,我們需要在保證正常用戶訪問的同時,有效防范惡意流量和爬蟲攻擊。本文將深入探討基于Nginx的限流與防爬蟲解決方案,從原理到實踐,為大家提供一套完
    的頭像 發(fā)表于 09-09 15:52 ?1056次閱讀

    【HZ-T536開發(fā)板免費體驗】—— linux創(chuàng)建線程

    的執(zhí)行任務成為單線程。多線程是程序中包含多個執(zhí)行流,在一個程序中可以同時運行多個不同的線程來執(zhí)行不同的任務。 多線程提高了CPU的使用鹵率。多線程
    發(fā)表于 09-01 21:31

    多線程的安全注意事項

    多線程安全是指多個線程同時訪問或修改共享資源時,能夠保證程序的正確性和可靠性。 開發(fā)者選擇TaskPool或Worker進行多線程開發(fā)時,在TaskPool和Worker的工作線程中導
    發(fā)表于 06-20 07:49

    鴻蒙5開發(fā)寶藏案例分享---跨線程性能優(yōu)化指南

    ;>Worker</span>做多線程開發(fā)時,總遇到對象跨線程卡頓的問題,原來鴻蒙早就提供了解決方案。下面結合代碼和實戰(zhàn)案例,帶你徹底玩轉性能優(yōu)化! 一、痛:跨線程
    發(fā)表于 06-12 17:13

    工控一體機多線程任務調度優(yōu)化:聚徽分享破解工業(yè)復雜流程高效協(xié)同密碼

    在當今工業(yè) 4.0 的浪潮下,工業(yè)生產正朝著高度自動化、智能化的方向大步邁進。生產流程日益復雜,眾多任務需要同時、高效地協(xié)同執(zhí)行,這對工業(yè)控制系統(tǒng)的核心 —— 工控一體機提出了前所未有的挑戰(zhàn)。多線程
    的頭像 發(fā)表于 05-28 14:06 ?742次閱讀