chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于隨機(jī)分區(qū)的超快并行DBSCAN算法介紹

冬至配餃子 ? 來源:時空實驗室 ? 作者:CUST團(tuán)隊-李文慧 ? 2022-08-02 18:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DBSCAN是一種基于密度的空間聚類算法。如在點(diǎn)p鄰域范圍內(nèi)的點(diǎn)達(dá)到一定數(shù)量則點(diǎn)p稱為核心點(diǎn),若點(diǎn)q在p的鄰域范圍內(nèi),則p直接密度可達(dá)q,且p、q屬于同一密集區(qū)域。由這種關(guān)系連接的最大數(shù)據(jù)點(diǎn)集形成一個簇。DBSCAN算法有檢測任意形狀的簇、不需要提前知道檢測簇的數(shù)量等優(yōu)點(diǎn)。隨著近年來大規(guī)模并行化的熱潮,又出現(xiàn)了許多并行DBSCAN算法。大多數(shù)并行DBSCAN算法中,為并行地發(fā)現(xiàn)直接密度可達(dá)關(guān)系,相鄰的點(diǎn)被分配到相同的數(shù)據(jù)分區(qū)中進(jìn)行并行處理,以方便計算相鄰點(diǎn)的密度。但是,這種數(shù)據(jù)分區(qū)方案會導(dǎo)致一些問題,如分割成本大、子區(qū)域重疊、數(shù)據(jù)分區(qū)之間的負(fù)載不平衡等,其中負(fù)載問題在分布不均勻的數(shù)據(jù)集中尤為體現(xiàn)。

為了解決這些問題,本文提出了一種新的并行DBSCAN算法,隨機(jī)分區(qū)DBSCAN,簡稱RP-DBSCAN,它使用偽隨機(jī)劃分和兩級單元格字典。偽隨機(jī)劃分是一種基于單元格的數(shù)據(jù)劃分方案,它可以隨機(jī)采樣小的單元格,而不是點(diǎn)本身。無論數(shù)據(jù)如何分布,它都可以實現(xiàn)負(fù)載平衡,同時保持DBSCAN所需的數(shù)據(jù)連續(xù)性。兩級單元格字典是整個數(shù)據(jù)集的一個高度凝煉的摘要,來表示每個隨機(jī)分區(qū)。該算法能夠?qū)崿F(xiàn)同時找到每個數(shù)據(jù)分區(qū)的局部聚類,然后將這些局部聚類合并得到全局聚類。

一.偽隨機(jī)劃分

本文定義d維空間中的一個單元格是一個對角線長度為ε 的d維超立方體,ε 是一個表示鄰域半徑的參數(shù)。如果至少有一個數(shù)據(jù)點(diǎn)位于一個密集區(qū)域內(nèi),則可以保證該單元格中的所有數(shù)據(jù)點(diǎn)都屬于同一簇。這大大簡化了之后的聚類合并過程。在進(jìn)行數(shù)據(jù)分區(qū)時,我們隨機(jī)采樣單元格,而不是采樣數(shù)據(jù)點(diǎn),因此稱為偽隨機(jī)劃分。然后,將相同顏色的單元格及其內(nèi)部的數(shù)據(jù)點(diǎn)劃分為同一個分區(qū)。由于ε 遠(yuǎn)小于整個空間的長度,這種劃分也可以實現(xiàn)真正的隨機(jī)劃分的效果。圖 1 說明了偽隨機(jī)分區(qū)的思想,不同顏色代表不同分區(qū)。

poYBAGLo96uAYrieAABXgo6-Kks728.png

圖1 偽隨機(jī)劃分

二.兩級單元格字典

兩級單元格字典是整個數(shù)據(jù)集的一個摘要。本質(zhì)上它是一個兩級的樹。第一級的節(jié)點(diǎn)對應(yīng)單元格,第二級的節(jié)點(diǎn)對應(yīng)子單元格,其邊長為單元格的h分之一,其中h由用戶給出以指定近似度。每個節(jié)點(diǎn)編碼每個(子)單元格的密度及其位置。密度是其內(nèi)部的點(diǎn)數(shù),而位置可以用它們所屬單元內(nèi)的子單元的順序來表示,故只用d(h? 1)位。(d是維度,h是字典級數(shù))如圖 2,h = 2,d= 2,只需兩位來表示子單元格位置(00,01,10,11)。

pYYBAGLo9-SAL7HlAACMb2C3O7M436.png

圖2 兩級單元格字典的構(gòu)建

因此,可以得出兩級單元格字典總大小為

poYBAGLo9_aAHXeCAABA7NfnqPQ155.png

如果數(shù)據(jù)集非常大,由于內(nèi)存的限制,有可能無法立即加載整個兩級單元格字典,因此把字典劃分成較小的子字典,它由根節(jié)點(diǎn)集合的一個子集以及與它們連接的葉節(jié)點(diǎn)組成。

三. 算法實現(xiàn)的三個階段

1. 數(shù)據(jù)分區(qū)

通過偽隨機(jī)劃分對整個數(shù)據(jù)集進(jìn)行分區(qū),并構(gòu)建兩級單元格字典,為并行處理做好準(zhǔn)備。向并行系統(tǒng)中的每個工作者發(fā)送一個分區(qū)和對應(yīng)的兩級單元格字典。如圖3,整個空間被劃分為諸多單元格,其中沒有為空區(qū)域創(chuàng)建單元格。將黃色和綠色單元格劃分到兩個不同的分區(qū)P1和P2中。然后為每個分區(qū)生成一個兩級單元格字典。

pYYBAGLo-AyAZPmDAABr0Xs66Po037.png

圖3 數(shù)據(jù)分區(qū)

2. 單元格圖的構(gòu)造

通過(ε, ρ)區(qū)域查詢的方式區(qū)分單元格是否為核心單元格,構(gòu)造單元格圖時將排除非核心單元格。如圖3中的Cnc1-Cnc5判斷為非核的,它們在圖4中將被排除。然后,從每個分區(qū)的每個核心單元搜索其所有完全或部分直接可達(dá)的單元格來構(gòu)建一個單元圖。這些單獨(dú)的關(guān)系可以在單元格級別上進(jìn)行聚合,從而生成一個單元格圖。單元格圖的頂點(diǎn)是單元格,邊是單元格之間的可達(dá)性關(guān)系??偟膩碚f,一個單元格圖表示從一個給定的分區(qū)中獲得的局部聚類。

pYYBAGLo-B6AYjD6AAB59PRKtRs912.png

圖4 單元格圖構(gòu)造

(ε, ρ)區(qū)域查詢:

如圖5所示,若點(diǎn)p與子單元格中心scn的距離小于ε ,那么,就將這個子單元格加入到點(diǎn)p的鄰居集合當(dāng)中。當(dāng)點(diǎn)p的鄰居點(diǎn)數(shù)大于等于設(shè)定的參數(shù)minPts,就把包含p的單元格標(biāo)記為核心單元格。

poYBAGLo-D-AE6__AABp0mwIOXk495.png

圖5 (ε,ρ)區(qū)域查詢

3. 單元格圖的合并

這一部分主要包括漸進(jìn)式圖合并和點(diǎn)標(biāo)記兩個過程。首先,結(jié)合從每個工作者返回的對應(yīng)每個分區(qū)的單元格圖,確認(rèn)每條邊直接可達(dá)性關(guān)系,以合并成全局單元格圖。之后,根據(jù)合并后的圖對聚類進(jìn)行擴(kuò)展,并根據(jù)最終的聚類結(jié)果來標(biāo)記所有的點(diǎn)。整個過程就是由局部聚類產(chǎn)生全局聚類。例如在圖 6 中,單元格圖簡單合并后要進(jìn)行邊類型檢測,即判斷是完全邊(深色實線),部分邊(實線箭頭)還是未知邊(虛線箭頭),還要進(jìn)行減邊操作,根據(jù)樹的結(jié)構(gòu)去除冗余邊,最終得到一個樹式的全局單元格圖。然后,圖 7 中進(jìn)行點(diǎn)標(biāo)記,圖4中位于P1和P2左下角的單元格在圖 7 中形成了一個C1簇,將單元格其中的點(diǎn)標(biāo)記為同一個顏色,即為最終聚類的結(jié)果。

pYYBAGLo-FSAc8E1AABea8qfc-M330.png

圖6 漸進(jìn)式圖合并

poYBAGLo-GWAamDyAABXZ_erRbQ964.png

圖7 點(diǎn)標(biāo)記

四. 總結(jié)

本文提出采用隨機(jī)劃分策略并行運(yùn)行DBSCAN。為此,提出了一種基于單元格的數(shù)據(jù)分割策略,即偽隨機(jī)劃分,它具有區(qū)域劃分策略和隨機(jī)劃分策略的優(yōu)點(diǎn)。為了能夠在隨機(jī)分割上執(zhí)行區(qū)域查詢,本文設(shè)計了兩級單元格字典,它是整個數(shù)據(jù)集的一個高度凝煉的摘要。將它們放在一起,開發(fā)了一個高效的并行DBSCAN算法RP-DBSCAN。本文使用GeoLife,Cosmo50,OpenStreetMap等大規(guī)模數(shù)據(jù)集進(jìn)行實驗,將RP-DBSCAN與SPARK-DBSCAN,ESP-DBSCAN等其它6種算法進(jìn)行效率和精確度的對比。結(jié)果顯示,RP-DBSCAN更快,更精準(zhǔn),更高效且可擴(kuò)展性強(qiáng)。RP-DBSCAN顯著地超過了最先進(jìn)的并行DBSCAN算法高達(dá)180倍。此外,只有RP-DBSCAN可以處理最大的362GB數(shù)據(jù)集,而其他算法則不能,有力地驗證了其性能的優(yōu)越性。本文的研究工作顯著地提高了DBSCAN算法在大數(shù)據(jù)時代的可用性。


審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼
    +關(guān)注

    關(guān)注

    6

    文章

    1037

    瀏覽量

    56926
  • DBSCAN
    +關(guān)注

    關(guān)注

    0

    文章

    7

    瀏覽量

    10539
  • DBSCAN算法
    +關(guān)注

    關(guān)注

    0

    文章

    3

    瀏覽量

    1344
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    RK平臺系統(tǒng)分區(qū)調(diào)整與自動分區(qū)工具介紹

    當(dāng)系統(tǒng)新增功能模塊(如引入更復(fù)雜的應(yīng)用、新增系統(tǒng)服務(wù)),或系統(tǒng)版本升級(如 Android 版本更新)時,原有分區(qū)可能無法容納新的鏡像 / 數(shù)據(jù)。
    的頭像 發(fā)表于 02-06 16:37 ?2120次閱讀
    RK平臺系統(tǒng)<b class='flag-5'>分區(qū)</b>調(diào)整與自動<b class='flag-5'>分區(qū)</b>工具<b class='flag-5'>介紹</b>

    并行sram芯片介紹,并行sram芯片應(yīng)用場景

    靜態(tài)隨機(jī)存取存儲器(SRAM)是一種易失性存儲器,即在斷電后數(shù)據(jù)會丟失,但其無需刷新的特性與由晶體管觸發(fā)器構(gòu)成的存儲單元,確保了在持續(xù)供電期間數(shù)據(jù)的穩(wěn)定與快速訪問。其中,并行SRAM作為一種關(guān)鍵類型
    的頭像 發(fā)表于 02-02 15:02 ?158次閱讀
    <b class='flag-5'>并行</b>sram芯片<b class='flag-5'>介紹</b>,<b class='flag-5'>并行</b>sram芯片應(yīng)用場景

    如何在LTspice仿真中實現(xiàn)偽隨機(jī)數(shù)和真隨機(jī)數(shù)的生成

    本文討論如何在LTspice仿真中利用flat()、gauss()和mc()函數(shù)來實現(xiàn)偽隨機(jī)數(shù)和真隨機(jī)數(shù)的生成,并介紹如何使用設(shè)置面板的Hacks部分中的 Use the clock
    的頭像 發(fā)表于 01-09 14:08 ?4404次閱讀
    如何在LTspice仿真中實現(xiàn)偽<b class='flag-5'>隨機(jī)</b>數(shù)和真<b class='flag-5'>隨機(jī)</b>數(shù)的生成

    AD96685/AD96687比較器:高速應(yīng)用的理想之選

    AD96685/AD96687比較器:高速應(yīng)用的理想之選 在電子設(shè)計領(lǐng)域,高速比較器的性能對于許多應(yīng)用至關(guān)重要。今天,我們就來深入探討一下ADI公司的AD96685和AD96687這兩款
    的頭像 發(fā)表于 01-07 14:50 ?193次閱讀

    解析電壓比較器ADCMP567:性能、應(yīng)用與設(shè)計要點(diǎn)

    解析電壓比較器ADCMP567:性能、應(yīng)用與設(shè)計要點(diǎn) 作為一名電子工程師,在高速電路設(shè)計領(lǐng)域,電壓比較器是不可或缺的關(guān)鍵器件。其中,Analog Devices的ADCMP56
    的頭像 發(fā)表于 01-07 10:00 ?247次閱讀

    串行通訊與并行通訊介紹

    按數(shù)據(jù)傳送的方式,通訊可分為串行通訊與并行通訊,串行通訊是指設(shè)備之間通過少量數(shù)據(jù)信號線(一般是8根以下), 地線以及控制信號線,按數(shù)據(jù)位形式一位一位地傳輸數(shù)據(jù)的通訊方式。而并行通訊一般是指使用8
    發(fā)表于 12-11 06:52

    XUV光源的多維度在線表征

    圖一.HHG的實驗裝置和表征(左圖)安裝在DN200 CF法蘭上的VUV光譜儀和束斑分析儀(右圖) 科學(xué)的“眼睛” 高次諧波(HHG)技術(shù)因其能在實驗室產(chǎn)生飛秒甚至阿秒量級的相干XUV脈沖(短
    的頭像 發(fā)表于 11-27 07:44 ?194次閱讀
    <b class='flag-5'>超</b><b class='flag-5'>快</b>XUV光源的多維度在線表征

    STTH30RQ06L2高壓整流器技術(shù)解析與應(yīng)用指南

    STMicroelectronics STTH30RQ06L2高壓整流器采用HU3PAK封裝,是一款采用ST 600V技術(shù)的600V、30A器件。該器件具有高結(jié)溫能力和開關(guān)速度
    的頭像 發(fā)表于 10-27 15:13 ?648次閱讀
    STTH30RQ06L2<b class='flag-5'>超</b><b class='flag-5'>快</b>高壓整流器技術(shù)解析與應(yīng)用指南

    國密系列算法簡介及SM4算法原理介紹

    保證,而國產(chǎn)密碼算法實現(xiàn)了密碼算法的自主可控,對于保障我國的國家安全具有重要意義。目前,我國大力推廣國密算法的應(yīng)用,并涌現(xiàn)出一系列國家商用密碼應(yīng)用的優(yōu)秀案例。 本文將對SM4算法的原理
    發(fā)表于 10-24 08:25

    中科采象邀您共同研討高速數(shù)據(jù)采集在與X射線領(lǐng)域應(yīng)用

    2025年與X射線科學(xué)國際研討會時間:2025年5月9日-12日地點(diǎn):上海科技大學(xué)會議中心簡介:2025年與X射線科學(xué)國際研討會將聚焦阿秒物理極限探索、自由電子激光技術(shù)革新及量
    的頭像 發(fā)表于 05-09 14:05 ?537次閱讀
    中科采象邀您共同研討高速數(shù)據(jù)采集在<b class='flag-5'>超</b><b class='flag-5'>快</b>與X射線領(lǐng)域應(yīng)用

    MDD恢復(fù)二極管的耐壓與電流選型:如何確??煽啃裕?/a>

    在高頻開關(guān)電源、功率變換器和新能源應(yīng)用中,恢復(fù)二極管因其短反向恢復(fù)時間(trr)和低開關(guān)損耗而被廣泛采用。然而,在選擇MDD恢復(fù)二極管時,耐壓(VRRM)和電流(IF,IFSM
    的頭像 發(fā)表于 04-09 10:21 ?1019次閱讀
    MDD<b class='flag-5'>超</b><b class='flag-5'>快</b>恢復(fù)二極管的耐壓與電流選型:如何確??煽啃??

    大族激光薄片激光器產(chǎn)品介紹

    激光是激光技術(shù)領(lǐng)域的重要研究方向之一。目前激光作為先進(jìn)制造業(yè)中理想加工利器,在半導(dǎo)體晶圓加工、太陽能電池劃片、新能源電池極片切割等眾多智能制造領(lǐng)域發(fā)揮著至關(guān)重要作用。在技術(shù)創(chuàng)新
    的頭像 發(fā)表于 03-06 10:00 ?1765次閱讀
    大族激光薄片<b class='flag-5'>超</b><b class='flag-5'>快</b>激光器產(chǎn)品<b class='flag-5'>介紹</b>

    磁盤分區(qū)工具parted的使用方法

    傳統(tǒng)的MBR分區(qū)表格式,僅支持最大四個主分區(qū),而且不可以格式化2TB以上的磁盤,因此,大磁盤更適合使用parted工具進(jìn)行GPT的分區(qū)格式。
    的頭像 發(fā)表于 03-03 09:39 ?2414次閱讀

    摩爾線程支持DeepSeek開源通信庫DeepEP和并行算法DualPipe

    DeepSeek開源周第四日,摩爾線程宣布已成功支持DeepSeek開源通信庫DeepEP和并行算法DualPipe,并發(fā)布相關(guān)開源代碼倉庫:MT-DeepEP和MT-DualPipe。
    的頭像 發(fā)表于 02-28 15:58 ?1052次閱讀

    中偉視界:AI防爆型攝像機(jī)有哪些常用算法算法解析與并行運(yùn)行能力介紹

    AI防爆型攝像機(jī)通過多種智能算法,如目標(biāo)檢測、人體識別、行為識別等,具備了對監(jiān)控場景的深度解析與高效管理能力。它能實時監(jiān)測潛在危險并預(yù)警,在無網(wǎng)無電環(huán)境中可獨(dú)立運(yùn)行,充分展示了其強(qiáng)大的并行算法能力,成為安防和工業(yè)領(lǐng)域的重要工具。
    的頭像 發(fā)表于 02-27 10:41 ?1114次閱讀
    中偉視界:AI防爆型攝像機(jī)有哪些常用<b class='flag-5'>算法</b>之<b class='flag-5'>算法</b>解析與<b class='flag-5'>并行</b>運(yùn)行能力<b class='flag-5'>介紹</b>