2020最新日韩中文字幕视频,欧洲美熟女乱又伦AV软件,伊人久久影院亚洲

很多圖像算法不涉及對顏色的識別，僅需要識別灰度目標的變化即可，因此很多時候需要將彩色圖像轉(zhuǎn)換為灰度圖像，在進行進一步的處理。彩色轉(zhuǎn)灰度計算公式如下：Y=0.299*R + 0.587*G + 0.144*B，作者以05年的嵌入式系統(tǒng)計算，采用640*480的圖像進行試驗，一系列的圖像優(yōu)化如下（只是類比，不要太在意數(shù)據(jù)）：

1）一維數(shù)組索引比三維快，因此先將RGB三維數(shù)組轉(zhuǎn)成一維數(shù)組，再直接用上述公式進行計算，嵌入式系統(tǒng)計算時間為120秒；

2）由于Windows位圖是ARGB8888的精度，因此計算結(jié)果僅需要8bit整形，可忽略小數(shù)，假定左右擴大1000倍去轉(zhuǎn)定點計算，則新的公式如下：Y=(299R + 587*G + 144*B)/1000，此時嵌入式系統(tǒng)計算時間加快到45秒；

3）除法計算太慢，擴大2N次方可轉(zhuǎn)移位操作，假定擴大4096倍轉(zhuǎn)定點，則新的公式如下：Y=（R*1224+G*2404+B*467）>>12，計算進一步加快到30秒；

4）由于RGB的取值是固定的[0,255]，因此公式中每一步運算其實都可以提前計算好，然后直接索引——查找表，這樣將執(zhí)行計算轉(zhuǎn)換成了執(zhí)行索引，此時再測試計算速度驚人的提升到了2秒；

5）接著作者再馬力全開，采用2個ALU并行計算，并且將查找表從int型改成unsigned short型，以及函數(shù)聲明為inline，減少CPU的調(diào)用開銷，最后在嵌入式系統(tǒng)上將計算速度提升到了0.5秒。

以上為conquer 05年《讓你的軟件飛起來》中的相關(guān)數(shù)據(jù)，通過軟件優(yōu)化的提升，從最初的120S提升到了0.5S，將近240倍，足以見得一個優(yōu)秀的軟件工程師的重要性，也許IOS和Windows的性能差距那么大，也由此方面原因吧。

目前多媒體視頻普遍到了2K/4K的分辨率，以4K視頻為例，其運算量是640*480的30.7倍（(4096*2304)/(640*480)≈30.7），那么0.5*30.7=15.35秒怎么做到實時視頻處理/顯示呢（60FPS下單幀16.667ms），差92000倍呢。PC采用GPU加速處理完成圖形運算，但如果是終端產(chǎn)品，如果沒有昂貴的CPU，也沒有其他加速引擎，那簡直天方夜譚。那么，此時主角該上場了——硬件加速器，讓我們開始他的表演。
以4096*2304的4K60視頻RGB轉(zhuǎn)YUV為例，進行硬件思維的加速計算解說。不管是FPGA還是ASIC，以門級電路并行加速運算，時序邏輯每個時鐘翻轉(zhuǎn)完成一次計算。前面《讓你的軟件飛起來》中（2）已經(jīng)完成了定點化，然后（3）采用乘法+移位的方式實現(xiàn)，（4）采用查找表再累加的方式實現(xiàn)。單從效率上考慮，兩者計算一個像素的灰度均耗用3個CLK（乘法、累加、移位，或給RAM地址、讀RAM數(shù)據(jù)，累加）；但從資源上對比，前者占用3個乘法器和2個加法器，乘法器數(shù)量不多，但是綜合速率受器件的限制，后者則需要3個19bit*256深度的RAM，占用了更多的面積，綜合速率上也受到RAM的限制。兩者都用了專用單元庫，但采用硬件乘法器面積更小，且靈活性更強，工作量也更?。ú挥脤ｉT去生成），因此用硬件加速首選采用優(yōu)化方式（3），具體實現(xiàn)流水線如下：

STEP1：采用三個乘法器，并行計算當(dāng)前輸入像素的RGB通道乘法，即R*1224，G*2404， B*467；

STEP2：將上述三個結(jié)果直接進行累加；同時計算下一個像素的STEP1操作；

STEP3：將累加后的結(jié)果向右移動12bit，取低8bit得到最后的結(jié)果；同時計算下一個像素的STEP1，STEP2。

以流水線式循環(huán)操作完一副完整的圖像，如果是輸入到下一級算法處理，則整體的延時僅為3個CLK，因為三個時鐘后得到灰度圖像的1個像素，立馬可以進行下一級運算；如果圖像寫回緩存，我們再來精算一下：以主頻250MHz為例（事實上28nm ASIC跑500MHz甚至1GHz都不是問題，F(xiàn)PGA 45nm的250MHz也沒有問題），則需要（4096*2304+2）*4ns=37.75ms>16.667ms。

直接流水線實現(xiàn)，貌似這還不夠滿足我們實時的需求，畢竟很多運算需要從內(nèi)存中來，回到內(nèi)存中去，還得給別的算法預(yù)留時間，彩色轉(zhuǎn)灰度這只是算法的第一步而已，復(fù)雜的還沒來呢。那我們繼續(xù)想辦法突變限制，充分利用硬件加速，挑戰(zhàn)不可能。既然采用門級電路，那不存在線程的約束，然而我們已經(jīng)采用了流水線并行計算灰度值，那進一步想是否可以同時計算n個像素的灰度值呢？答案是肯定的，如下圖所示：

假設(shè)DDR 控制器位寬是256bit，則一次性可以讀取32個pixel的數(shù)據(jù)，32個像素同時計算需要96個乘法器，64個加法器，這些資源的需求甚至對低端的FPGA都不是問題，對于ASIC來說沒有太大的面積影響。因此還是在主頻250MHz，DDR控制器帶寬256bit條件下，我們處理一副4096*2304彩轉(zhuǎn)灰圖像的時間為：37.35/32≈1.17ms<16.667ms，采用并行運算提升32倍效率后，4K圖像僅需要1.17ms，完全能夠滿足實時性，甚至還給后續(xù)算法預(yù)留了90%以上的時間，可以滿足系統(tǒng)的需求。

綜上，采用硬件加速實現(xiàn)的幾種基本思維，總結(jié)如下：

1）浮點轉(zhuǎn)定點，硬件乘法+移位實現(xiàn)加速；

2）資源夠的前提下，充分利用并行計算，在單位時間提升計算量；

3）充分利用流水線特性，算法采用Pipeline的方式進行計算，能不回內(nèi)存就不回內(nèi)存，能用localbuffer就用localbuffer；

4）盡量少用CPU參與計算，硬件自動完成狀態(tài)跳轉(zhuǎn)，除非最終結(jié)果浮點等復(fù)雜的運算；

文章出處：【微信公眾號：FPGA自習(xí)室】

責(zé)任編輯：gt

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴