chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

糾錯技術(shù)的背景

深度學(xué)習(xí)自然語言處理 ? 來源:CS的陋室 ? 作者:CS的陋室 ? 2020-10-10 11:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

糾錯是搜索引擎中一個非常有特色的模塊,對用戶輸入的內(nèi)容進(jìn)行改寫從而讓用戶得到正確的結(jié)果,有的時候也會帶有一些驚喜度,所以糾錯技術(shù)是一個搜索體驗的加分項,近期突然對這塊有興趣,所以就了解了一下。

糾錯技術(shù)的背景

人非圣賢,孰能無過,別說是搜索的時候,哪怕是我們打字、寫作文的時候,都會出現(xiàn)錯字,一般的錯別字不會對最終目標(biāo)帶來很大影響,且出現(xiàn)頻率很低,不拘小節(jié)的我們常常會忽略這樣的小問題,但是,在搜索場景下,錯別字意味著可能就搜不到內(nèi)容了,對于用戶而言,就是需求無法滿足,造成了很差的體驗,因此在搜索場景中,就很有必要去糾錯。

錯誤是如何產(chǎn)生的

要去糾錯,先要去看看錯誤是怎么產(chǎn)生的。

首先是誤操作類型,這種類型可以從輸入法角度去看。

拼音輸入法。常會出現(xiàn)同音異形字,例如周節(jié)倫等。

筆畫輸入法或者手寫輸入法。常會出現(xiàn)形似字,例如博和傅。

然后是用戶的主觀理解,有的時候用戶只是聽說過而沒見過,或者就是理解問題,導(dǎo)致主動地出入了錯誤的內(nèi)容,例如飛揚(yáng)拔(跋)扈,然后有一些名詞,例如小說、音樂、電影等,寫錯字是非常容易的。

當(dāng)然,也有用戶圖方便,或者輸入問題,導(dǎo)致直接輸入拼音或者拼音前綴,或者就是因為記憶的原因,輸錯了。

當(dāng)然這里也要補(bǔ)充一些常見的問題舉例:

諧音。深圳-森圳。

別字。師傅-師博。

中英文。Taylor swift-泰勒斯威夫特。

近義詞。愛情呼叫轉(zhuǎn)移-戀愛呼叫轉(zhuǎn)移。

形近字。高粱-高梁。

全拼。深圳-shenzhen。

拼音前綴。北京-bj。

內(nèi)容不完整。唐人街探案-唐人。

總之錯誤千奇百怪。理解錯誤產(chǎn)生的機(jī)理,我們就可以嘗試去處理這些問題。

詞典與規(guī)則方法

詞典是搜索系統(tǒng)中非常常用的方法,詞典具有高速、高準(zhǔn)的優(yōu)點,如果詞典的覆蓋度高,甚至可以達(dá)到高召回的效果,因此詞典基本是搜索系統(tǒng)中的核心存在,我們不應(yīng)該小看他,而是盡可能挖掘他的潛能。

詞典方法,說白了就是對query找對應(yīng)詞典里有沒有,如果有就改寫過去,這種方法的優(yōu)點在于速度快,而難點在于怎么去挖掘這個詞典。

至于怎么挖掘這個詞典,方法有很多底層數(shù)據(jù)庫抽取,用戶日志等,都有很多構(gòu)建起這樣的詞典,能夠大大降低耗時,復(fù)雜度至于query和單詞長度有關(guān)。那么一般都有什么詞典呢,我們來一個一個看看。

拼音和拼音前綴詞典。先將query或者單詞轉(zhuǎn)為拼音,然后通過通過拼音召回對應(yīng)的結(jié)果,完成糾錯。

別字詞典,記錄一些常見的錯別字,例如百度的形近詞表就很不錯(就在百度百科里面)。

其他改寫字典。一般基于具體業(yè)務(wù)來改寫,例如用戶輸入唐人街探案,其實唐人街探案有3部,我們應(yīng)該給那個,需要基于熱度等方面去改寫到具體最合適的一部。

詞典只是能夠匹配到合適的結(jié)果,但是我們需要知道的是,改寫的內(nèi)容不能和原來差距太遠(yuǎn),否則會出現(xiàn)很多意料之外的結(jié)果,因此改寫不能大改,只能改微調(diào),否則出來的結(jié)果會讓用戶感到很懵逼??刂频姆椒ㄖ饕蔷庉嬀嚯x。

所謂的編輯距離,就是改寫前到改寫后,需要經(jīng)過的操作多少,說人話就是兩句話的不同點有幾個,精確到字級別。深圳-森圳的編輯距離就是1。通過編輯距離的約束,一般能夠讓兩者的差距不是很大。

我知道很多人熱衷于用語義相似度之類的操作,不管別的什么方法,編輯距離一定要約束,用戶強(qiáng)調(diào)的是直觀感受,語義相近與否不是他們第一個關(guān)心的,只有當(dāng)字相近的結(jié)果不好的時候考慮語義相近才是用戶的實際反映,且錯別字帶來的語義變化非常大,此處用予以相似度其實不完全合適。

模型類方法

說是詞典和規(guī)則好處很多,但是在泛化能力上,模型還是很強(qiáng)的。那么在模型視角下,其實會分為下面3個步驟進(jìn)行分析處理。

錯誤診斷。即判斷有沒有錯。

修正召回。召回可能的修改項。保證召回率

修正確認(rèn)。判斷最終需要的修改項。保證準(zhǔn)確率。

當(dāng)然,如果模型足夠強(qiáng)力,召回和確認(rèn)兩個步驟也可以合并,具體看準(zhǔn)招和耗時了。

其實這個思路最廣泛的應(yīng)用就是推薦系統(tǒng),召回和排序分離,這個我在大概是去年很早的一篇文章里談到在這個,這是推薦系統(tǒng)里面非常重要的思想,這個思想其實在很多地方可以遷移下面的一條公眾號文章。

至于模型層面,有下面的思路。

kenlm統(tǒng)計語言工具。運(yùn)用統(tǒng)計學(xué)方法進(jìn)行語言建模從而檢測和修正錯誤。

rnn_attention。RNN加上attention還是一個非常有意思的方法。

rnn_crf模型:說起來你們可能不信,這個思路來自阿里2016參賽中文語法糾錯比賽的第一名的方法。

seq2seq_attention模型:比RNN強(qiáng)一些,長文本效果不錯,但是容易過擬合。

transformer:線性優(yōu)秀的序列表征模型,大家懂的。

bert:中文微調(diào),最妙的是mask可協(xié)助糾正錯別字。

conv_seq2seq模型:基于Facebook出品的fairseq,在NLPCC-2018的中文語法糾錯比賽中,是唯一使用單模型并取得第三名的成績。

小結(jié)

怎么說呢,目前我還只是在探索,深度不是很夠,后面有所補(bǔ)充,再和大家交流,參考文獻(xiàn)放這里吧:

中文文本糾錯算法--錯別字糾正的二三事:https://zhuanlan.zhihu.com/p/40806718

pycorrector:https://github.com/shibing624/pycorrector

中文文本糾錯算法走到多遠(yuǎn)了?:https://blog.csdn.net/sinat_26917383/article/details/86737361

責(zé)任編輯:lq
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 搜索引擎
    +關(guān)注

    關(guān)注

    0

    文章

    120

    瀏覽量

    13844
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3734

    瀏覽量

    52066
  • 語言建模
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    6374

原文標(biāo)題:搜索系統(tǒng)中的糾錯問題

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    字符串,數(shù)字控件如何控制背景顏色和前景字體顏色?

    字符串,數(shù)字控件如何控制背景顏色和前景字體顏色?
    發(fā)表于 01-20 15:12

    FEC前向糾錯技術(shù):讓無線傳輸“自我修復(fù)”的通信衛(wèi)士

    一、什么是前向糾錯(FEC)?前向糾錯(Forward Error Correction,F(xiàn)EC)是一種通過在數(shù)據(jù)傳輸中增加冗余校驗信息,使接收端能夠自行檢測并糾正錯誤的通信技術(shù)。它特別適用于單向
    發(fā)表于 01-09 14:12

    Aumovio案例研究 | 軟件即產(chǎn)品(SWaap)背景下的模型系統(tǒng)工程與閉環(huán)系統(tǒng)驗證

    Aumovio案例研究客戶背景Aumovio作為一家科技公司,致力于為當(dāng)前及未來的移動出行挑戰(zhàn)提供硬件、軟件與服務(wù)的最佳融合方案。挑戰(zhàn)在軟件即產(chǎn)品(SoftwareasaProduct,SWaaP
    的頭像 發(fā)表于 01-07 10:04 ?518次閱讀
    Aumovio案例研究 | 軟件即產(chǎn)品(SWaap)<b class='flag-5'>背景</b>下的模型系統(tǒng)工程與閉環(huán)系統(tǒng)驗證

    如何在Keil中設(shè)置窗口標(biāo)題顏色和背景顏色呢?

    如何在Keil中設(shè)置窗口標(biāo)題顏色和背景顏色呢
    發(fā)表于 12-10 07:56

    IQM與NVIDIA攜手開展NVQLink合作,推動可擴(kuò)展量子糾錯技術(shù)發(fā)展

    全球超導(dǎo)量子計算領(lǐng)域的領(lǐng)軍企業(yè)IQM Quantum Computers今日宣布,將在其量子計算機(jī)中集成NVIDIA的NVQLink技術(shù),以實現(xiàn)量子糾錯的規(guī)?;?。量子糾錯是實現(xiàn)量子計算實際
    的頭像 發(fā)表于 10-31 10:30 ?387次閱讀

    語法糾錯和testbench的自動生成

    。 語法糾錯 在vscode的拓展中,輸入Verilog查找如下插件: 安裝完該插件后就支持了語法高亮和自動補(bǔ)全等功能,但是要實現(xiàn)自動糾錯還需要安裝ctags。這在該擴(kuò)展的細(xì)節(jié)中有介紹,各位可以
    發(fā)表于 10-27 07:07

    指令集測試的一種糾錯方法

    本文描述在進(jìn)行指令集測試的一種糾錯方法 1.打開測試指令集對應(yīng)的dump文件 dump文件是指由匯編文件進(jìn)行反匯編之后,可以供人閱讀指令的反匯編文件。其包含了每一條指令的具體操作的信息。指令集測試
    發(fā)表于 10-24 14:04

    一種抗輻射加固檢錯糾錯電路的設(shè)計

    電子發(fā)燒友網(wǎng)站提供《一種抗輻射加固檢錯糾錯電路的設(shè)計.pdf》資料免費(fèi)下載
    發(fā)表于 08-11 15:38 ?0次下載

    沒有強(qiáng)大糾錯的工業(yè)硬盤,敢叫工業(yè)級SSD固態(tài)硬盤嗎?

    在工業(yè)環(huán)境中,數(shù)據(jù)的精度與穩(wěn)定性往往意味著設(shè)備運(yùn)轉(zhuǎn)的成敗,甚至關(guān)乎系統(tǒng)安全和業(yè)務(wù)連續(xù)性。很多用戶在選購“工業(yè)級SSD固態(tài)硬盤”時,只盯著讀寫速度,卻忽略了一個至關(guān)重要的核心指標(biāo)——糾錯與壞塊管理能力
    的頭像 發(fā)表于 08-02 10:32 ?917次閱讀

    雙電機(jī)驅(qū)動系統(tǒng)消隙技術(shù)分析

    摘要: 雙電機(jī)驅(qū)動系統(tǒng)是電力系統(tǒng)中重要的電機(jī)系統(tǒng),雙電機(jī)驅(qū)動的消隙技術(shù)是雙電機(jī)驅(qū)動系統(tǒng)中的關(guān)鍵技術(shù),雙電機(jī)驅(qū)動系統(tǒng)能否實現(xiàn)正常運(yùn)行關(guān)鍵在于消隙技術(shù)本身的水平。在人們對電機(jī)系統(tǒng)的要求越來越高的
    發(fā)表于 06-19 11:01

    【AIBOX 應(yīng)用案例】通過 U2-Net 實現(xiàn)背景移除

    設(shè)計,高效散熱,保障在高溫運(yùn)行狀態(tài)下的運(yùn)算性能和穩(wěn)定性,滿足各種工業(yè)級的應(yīng)用需求。應(yīng)用案例:背景移除BackgroundRemoval(背景移除)技術(shù)已成為圖像處理
    的頭像 發(fā)表于 06-11 16:32 ?646次閱讀
    【AIBOX 應(yīng)用案例】通過 U2-Net 實現(xiàn)<b class='flag-5'>背景</b>移除

    PCB應(yīng)變測試的背景和目的

    一、背景 目前隨處可見的電子產(chǎn)品如電子計算機(jī)、PDA、手機(jī)、數(shù)位照相機(jī)、電子儀器、車輛衛(wèi)星導(dǎo)航器、汽車驅(qū)動零件等電路,無一不使用PCB產(chǎn)品。隨著電子產(chǎn)品功能多樣化、體積小型化及質(zhì)量輕量化之設(shè)計趨勢
    的頭像 發(fā)表于 06-06 16:40 ?632次閱讀
    PCB應(yīng)變測試的<b class='flag-5'>背景</b>和目的

    漢思新材料:國際關(guān)稅貿(mào)易戰(zhàn)背景下電子芯片膠國產(chǎn)化的必要性

    國際關(guān)稅貿(mào)易戰(zhàn)背景下電子芯片膠國產(chǎn)化的必要性分析一、引言近年來,中美關(guān)稅貿(mào)易戰(zhàn)持續(xù)升級,雙方在半導(dǎo)體、電子設(shè)備等關(guān)鍵領(lǐng)域展開激烈博弈。美國通過加征關(guān)稅(如對華商品最高稅率達(dá)145%)、限制技術(shù)出口
    的頭像 發(fā)表于 04-18 10:44 ?827次閱讀
    漢思新材料:國際關(guān)稅貿(mào)易戰(zhàn)<b class='flag-5'>背景</b>下電子芯片膠國產(chǎn)化的必要性

    GUIguider1.9.0能不能增加,將背景圖也放入外部存儲類型中?

    GUIguider1.9.0 能不能增加,將背景圖也放入外部存儲類型中,目前只能在界面上創(chuàng)建一個img,這個時候才有外部存儲的選項,按鈕的背景圖也沒看到 有 外部存儲的選項
    發(fā)表于 03-26 06:56

    安森美SiC Cascode JFET的背景知識和并聯(lián)設(shè)計

    )關(guān)鍵參數(shù)和并聯(lián)振蕩的分析,以及設(shè)計指南。本文為第一篇,聚焦Cascode產(chǎn)品介紹、Cascode背景知識和并聯(lián)設(shè)計。
    的頭像 發(fā)表于 02-27 14:10 ?1911次閱讀
    安森美SiC Cascode JFET的<b class='flag-5'>背景</b>知識和并聯(lián)設(shè)計