chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

讓GAN再次偉大!拽一拽關(guān)鍵點就能讓獅子張嘴&大象轉(zhuǎn)身

OpenCV學(xué)堂 ? 來源:量子位 ? 2023-05-24 15:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這兩天,一段AI修圖視頻在國內(nèi)外社交媒體上傳瘋了。

不僅直接躥升B站關(guān)鍵詞聯(lián)想搜索第一,視頻播放上百萬,微博推特也是火得一塌糊涂,轉(zhuǎn)發(fā)者紛紛直呼“PS已死”。

e9ff026e-f8f4-11ed-90ce-dac502259ad0.png

怎么回事?

原來,現(xiàn)在P圖真的只需要“輕輕點兩下”,AI就能徹底理解你的想法!

小到豎起狗子的耳朵:

ea4c2062-f8f4-11ed-90ce-dac502259ad0.gif

大到讓整只狗子蹲下來,甚至讓馬岔開腿“跑跑步”,都只需要設(shè)置一個起始點和結(jié)束點,外加拽一拽就能搞定:

ea59d586-f8f4-11ed-90ce-dac502259ad0.gif

不止是動物的調(diào)整,連像汽車這樣的“非生物”,也能一鍵拉升底座,甚至升級成“加長豪華車”:

eb9002cc-f8f4-11ed-90ce-dac502259ad0.gif

這還只是AI修圖的“基操”。

要是想對圖像實現(xiàn)更精準(zhǔn)的控制,只需畫個圈給指定區(qū)域“涂白”,就能讓狗子轉(zhuǎn)個頭看向你:

ed972ac8-f8f4-11ed-90ce-dac502259ad0.gif

或是讓照片中的小姐姐“眨眨眼”:

f8c026de-f8f4-11ed-90ce-dac502259ad0.gif

甚至是讓獅子張大嘴,連牙齒都不需要作為素材放入,AI自動就能給它“安上”:

f8fd2ab6-f8f4-11ed-90ce-dac502259ad0.gif

f91171f6-f8f4-11ed-90ce-dac502259ad0.png

如此“有手就能做”的修圖神器,來自一個MIT、谷歌、馬普所等機(jī)構(gòu)聯(lián)手打造的DragGAN新模型,論文已入選SIGGRAPH 2023。

f93be5d0-f8f4-11ed-90ce-dac502259ad0.png

沒錯,在擴(kuò)散模型獨(dú)領(lǐng)風(fēng)騷的時代,竟然還能有人把GAN玩出新花樣!

f99a34f0-f8f4-11ed-90ce-dac502259ad0.png

f9b98d00-f8f4-11ed-90ce-dac502259ad0.gif

目前這個項目在GitHub上已經(jīng)有5k+ Star,熱度還在不斷上漲中(盡管一行代碼還沒發(fā))。

f9d4ca8e-f8f4-11ed-90ce-dac502259ad0.png

所以,DragGAN模型究竟長啥樣?它又如何實現(xiàn)上述“神一般的操作”?

f9ee9b26-f8f4-11ed-90ce-dac502259ad0.gif

拽一拽關(guān)鍵點,就能修改圖像細(xì)節(jié)

這個名叫DragGAN的模型,本質(zhì)上是為各種GAN開發(fā)的一種交互式圖像操作方法。

論文以StyleGAN2架構(gòu)為基礎(chǔ),實現(xiàn)了點點鼠標(biāo)、拽一拽關(guān)鍵點就能P圖的效果。

具體而言,給定StyleGAN2生成的一張圖像,用戶只需要設(shè)置幾個控制點(紅點)和目標(biāo)點(藍(lán)點),以及圈出將要移動的區(qū)域(比如狗轉(zhuǎn)頭,就圈狗頭)。

fabe604a-f8f4-11ed-90ce-dac502259ad0.png

然后模型就將迭代執(zhí)行運(yùn)動監(jiān)督和點跟蹤這兩個步驟,其中運(yùn)動監(jiān)督會驅(qū)動紅色的控制點向藍(lán)色的目標(biāo)點移動,點跟蹤則用于更新控制點來跟蹤圖像中的被修改對象。

這個過程一直持續(xù)到控制點到達(dá)它們對應(yīng)的目標(biāo)點。

faf726b4-f8f4-11ed-90ce-dac502259ad0.png

不錯,運(yùn)動監(jiān)督和點跟蹤就是我們今天要講的重點,它是DragGAN模型中最主要的兩個組件。

先說運(yùn)動監(jiān)督。在此之前,業(yè)界還沒有太多關(guān)于如何監(jiān)督GAN生成圖像的點運(yùn)動的研究。

在這項研究中,作者提出了一種不依賴于任何額外神經(jīng)網(wǎng)絡(luò)的運(yùn)動監(jiān)督損失(loss)。

其關(guān)鍵思想是,生成器的中間特征具有很強(qiáng)的鑒別能力,因此一個簡單的損失就足以監(jiān)督運(yùn)動。

所以,DragGAN的運(yùn)動監(jiān)督是通過生成器特征圖上的偏移補(bǔ)丁損失(shifted patch loss)來實現(xiàn)的。

如下圖所示,要移動控制點p到目標(biāo)點t,就要監(jiān)督p點周圍的一小塊patch(紅圈)向前移動的一小步(藍(lán)圈)。

faff489e-f8f4-11ed-90ce-dac502259ad0.png

再看點跟蹤。

先前的運(yùn)動監(jiān)督會產(chǎn)生一個新的latent code、一個新特征圖和新圖像。

由于運(yùn)動監(jiān)督步驟不容易提供控制點的精確新位置,因此我們的目標(biāo)是更新每個手柄點p使其跟蹤上對象上的對應(yīng)點。

此前,點跟蹤通常通過光流估計模型或粒子視頻方法實現(xiàn)。

但同樣,這些額外的模型可能會嚴(yán)重影響效率,并且在GAN模型中存在偽影的情況下可能使模型遭受累積誤差。

因此,作者提供了一種新方法,該方法通過最近鄰檢索在相同的特征空間上進(jìn)行點跟蹤。

而這主要是因為GAN模型的判別特征可以很好地捕捉到密集對應(yīng)關(guān)系。

基于這以上兩大組件,DragGAN就能通過精確控制像素的位置,來操縱不同類別的對象完成姿勢、形狀、布局等方面的變形。

作者表示,由于這些變形都是在GAN學(xué)習(xí)的圖像流形上進(jìn)行的,它遵從底層的目標(biāo)結(jié)構(gòu),因此面對一些復(fù)雜的任務(wù)(比如有遮擋),DragGAN也能產(chǎn)生逼真的輸出。

單張3090幾秒鐘出圖

所以,要實現(xiàn)幾秒鐘“精準(zhǔn)控圖”的效果,是否需要巨大的算力?

nonono。大部分情況下,每一步拖拽修圖,單張RTX 3090 GPU在數(shù)秒鐘內(nèi)就能搞定。

fb5c5674-f8f4-11ed-90ce-dac502259ad0.png

具體到生成圖像的效果上,實際評估(均方誤差MSE、感知損失LPIPS)也超越了一系列類似的“AI修圖”模型,包括RAFT和PIPs等等:

fb77141e-f8f4-11ed-90ce-dac502259ad0.png

如果說文字的還不太直觀,具體到視覺效果上就能感受到差異了:

fba846e2-f8f4-11ed-90ce-dac502259ad0.png

值得一提的是,DragGAN的“潛力”還不止于此。

一方面,如果增加關(guān)鍵點的數(shù)量,還能實現(xiàn)更加精細(xì)的AI修圖效果,用在人臉這類對修圖要求比較嚴(yán)格的照片上,也是完全沒問題:

fbb3bcf2-f8f4-11ed-90ce-dac502259ad0.png

另一方面,不止開頭展示的人物和動物,放在汽車、細(xì)胞、風(fēng)景和天氣等不同類型的圖像上,DragGAN也都能精修搞定。

fc41f0bc-f8f4-11ed-90ce-dac502259ad0.png

除了不同的照片類型,從站到坐、從直立到跑步、從跨站到并腿站立這種姿勢變動較大的圖像,也能通過DragGAN實現(xiàn):

fc88679a-f8f4-11ed-90ce-dac502259ad0.png

也難怪網(wǎng)友會調(diào)侃“遠(yuǎn)古的PS段子成真”,把大象轉(zhuǎn)個身這種甲方需求也能實現(xiàn)了。

fda8e65e-f8f4-11ed-90ce-dac502259ad0.png

不過,也有網(wǎng)友指出了DragGAN目前面臨的一些問題。

例如,由于它是基于StyleGAN2生成的圖像進(jìn)行P圖的,而后者訓(xùn)練成本很高,因此距離真正商業(yè)落地可能還有一段距離。

fdb19b28-f8f4-11ed-90ce-dac502259ad0.png

除此之外,在論文中提到的“單卡幾秒鐘修圖”的效果,主要還是基于256×256分辨率圖像:

fdcd008e-f8f4-11ed-90ce-dac502259ad0.png

至于模型是否能擴(kuò)展到256×256以外圖像,生成的效果又是如何,都還是未知數(shù)。

有網(wǎng)友表示“至少高分辨率圖像從生成時間來看,肯定還要更長”。

fdef08e6-f8f4-11ed-90ce-dac502259ad0.png

實際上手的效果究竟如何,我們可以等6月論文代碼開源后,一測見真章。

團(tuán)隊介紹

DragGAN的作者一共6位,分別來自馬克斯?普朗克計算機(jī)科學(xué)研究,薩爾布呂肯視覺計算、交互與AI研究中心,MIT,賓夕法尼亞大學(xué)和谷歌AR/VR部門。

fe09d5d6-f8f4-11ed-90ce-dac502259ad0.png

其中包括兩位華人:

一作潘新鋼,他本科畢業(yè)于清華大學(xué)(2016年),博士畢業(yè)于香港中文大學(xué)(2021年),師從湯曉鷗教授。

現(xiàn)在是馬普計算機(jī)科學(xué)研究所的博士后,今年6月,他將進(jìn)入南洋理工大學(xué)擔(dān)任助理教授(正在招收博士學(xué)生)。

fe1298a6-f8f4-11ed-90ce-dac502259ad0.png

另一位是Liu Lingjie,香港大學(xué)博士畢業(yè)(2019年),后在馬普信息學(xué)研究所做博士后研究,現(xiàn)在是賓夕法尼亞大學(xué)助理教授(也在招學(xué)生),領(lǐng)導(dǎo)該校計算機(jī)圖形實驗室,也是通用機(jī)器人、自動化、傳感與感知 (GRASP)實驗室成員。

fe86264a-f8f4-11ed-90ce-dac502259ad0.png

值得一提的是,為了展示DragGAN的可控性,一作還親自上陣,演示了生發(fā)、瘦臉和露齒笑的三連P圖效果:

fed26ee2-f8f4-11ed-90ce-dac502259ad0.png

是時候給自己的主頁照片“修修圖”了(手動狗頭)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39540

    瀏覽量

    301084
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    21

    文章

    2362

    瀏覽量

    81848
  • GitHub
    +關(guān)注

    關(guān)注

    3

    文章

    488

    瀏覽量

    18620

原文標(biāo)題:讓GAN再次偉大!拽一拽關(guān)鍵點就能讓獅子張嘴&大象轉(zhuǎn)身,DragGAN爆火

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    ZM82:顆國產(chǎn)模組,如何傳統(tǒng)路燈變"聰明"?

    架構(gòu),普遍面臨能源利用率低、調(diào)控手段單、故障響應(yīng)滯后等痛,運(yùn)維環(huán)節(jié)更需投入大量人力巡檢。在"雙碳"戰(zhàn)略與智慧城市建設(shè)的雙重驅(qū)動下,構(gòu)建高效、智能、可感知的道路照
    的頭像 發(fā)表于 01-29 11:46 ?169次閱讀
    ZM82:<b class='flag-5'>一</b>顆國產(chǎn)模組,如何<b class='flag-5'>讓</b>傳統(tǒng)路燈變&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;聰明&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;?

    探索高性能儀表放大器AMP01:特性、原理與應(yīng)用

    探索高性能儀表放大器AMP01:特性、原理與應(yīng)用 在電子工程師的工具箱中,儀表放大器是實現(xiàn)高精度數(shù)據(jù)采集和處理的關(guān)鍵組件。今天,我們來深入了解款出色的儀表放大器——Analog Devices
    的頭像 發(fā)表于 01-16 10:20 ?212次閱讀

    高精度儀表放大器AMP02:特性、應(yīng)用與設(shè)計要點

    高精度儀表放大器AMP02:特性、應(yīng)用與設(shè)計要點 在電子工程師的日常設(shè)計中,儀表放大器是種常見且關(guān)鍵的器件,它能在各種復(fù)雜的測量和信號處理場景中發(fā)揮重要作用。今天,我們就來詳細(xì)探討
    的頭像 發(fā)表于 01-16 10:20 ?255次閱讀

    解析AMP03:高精度、高速差分放大器的卓越之選

    款高精度、高速的差分放大器,在眾多領(lǐng)域都有廣泛的應(yīng)用。 文件下載: AMP03.pdf 1. 產(chǎn)品概述 AMP03是款單片式單位增益、高速差分放大器。它集成了匹配的薄膜電阻網(wǎng)絡(luò),無需昂貴的外部匹配組件,
    的頭像 發(fā)表于 01-12 11:50 ?248次閱讀

    為你的STM32畢設(shè)項目加點“料”:&amp;amp;quot;AI智能照明助手&amp;amp;quot;光環(huán)境自適應(yīng)控制系統(tǒng)

    人做過了,怎樣才能讓項目既有技術(shù)含量,又有些新意,足以人眼前亮呢?我們意識到,問題的關(guān)鍵或許不在于STM32本身,而在于如何為它加點“料”——如何
    的頭像 發(fā)表于 12-09 16:47 ?991次閱讀
    為你的STM32畢設(shè)項目加點“料”:&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;AI智能照明助手&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;光環(huán)境自適應(yīng)控制系統(tǒng)

    羅德與施瓦茨宣布推出新頻段 R&amp;amp;amp;S ZNB3000 矢量網(wǎng)絡(luò)分析儀,頻率高達(dá) 54 GHz

    R&amp;SZNB3000以業(yè)界領(lǐng)先的測量速度、出色的擴(kuò)展能力及流射頻性能,為中端矢量網(wǎng)絡(luò)分析儀市場樹立了新標(biāo)桿。隨著高頻型號的加入,R&amp;SZNB3000將覆蓋更廣泛的應(yīng)用場景。羅德與施
    的頭像 發(fā)表于 12-04 17:04 ?606次閱讀
    羅德與施瓦茨宣布推出新頻段 R&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;S ZNB3000 矢量網(wǎng)絡(luò)分析儀,頻率高達(dá) 54 GHz

    森木磊石2025 CPEEC&amp;amp;amp;CPSSC展會活動圓滿落幕,期待與您再次相遇!

    CPEEC&amp;CPSSCCongressandExposition:由中國電源學(xué)會主辦的國際性、綜合性展會和合作平臺,順應(yīng)全球電源、電力電子快速發(fā)展的趨勢,集“展覽、會議、評獎、大賽”四大
    的頭像 發(fā)表于 11-13 17:10 ?809次閱讀
    森木磊石2025 CPEEC&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;CPSSC展會活動圓滿落幕,期待與您<b class='flag-5'>再次</b>相遇!

    DYY-AMP運(yùn)算放大器評估模塊技術(shù)解析與應(yīng)用指南

    Instruments DYY-AMP-EVM可以輕松配置為反向放大器、非反向放大器和差分放大器,工程師可以快速評估和驗證設(shè)計概念。
    的頭像 發(fā)表于 09-12 11:21 ?973次閱讀
    DYY-<b class='flag-5'>AMP</b>運(yùn)算放大器評估模塊技術(shù)解析與應(yīng)用指南

    明治科普 | 機(jī)器人擁有&amp;amp;quot;觸感&amp;amp;quot;:電子皮膚如何實現(xiàn)?

    ,還能模擬人類的觸覺與感知。電子皮膚(E-skin):是種能夠模仿人類皮膚結(jié)構(gòu)和感知功能的柔性電子系統(tǒng)。它不僅能讓機(jī)器人“感受”到壓力、溫度、濕度、紋理等外界刺激
    的頭像 發(fā)表于 09-02 07:34 ?1687次閱讀
    明治科普 | <b class='flag-5'>讓</b>機(jī)器人擁有&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;觸感&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;:電子皮膚如何實現(xiàn)?

    1218 MHz 高輸出 GaN CATV 功率倍增器 Amp擴(kuò)音器 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()1218 MHz 高輸出 GaN CATV 功率倍增器 Amp擴(kuò)音器相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊,更有1218 MHz 高輸出 GaN CATV 功率倍增器 Amp擴(kuò)
    發(fā)表于 09-01 18:30
    1218 MHz 高輸出 <b class='flag-5'>GaN</b> CATV 功率倍增器 <b class='flag-5'>Amp</b>擴(kuò)音器 skyworksinc

    CS86706適用1~3節(jié)鋰電應(yīng)用,內(nèi)置升壓模塊,2×30W立體聲&amp;amp;amp;50W單聲道R類音頻功率放大器

    CS86706適用1~3節(jié)鋰電應(yīng)用,內(nèi)置升壓模塊,2×30W立體聲&amp;amp;50W單聲道R類音頻功率放大器
    的頭像 發(fā)表于 07-16 20:42 ?622次閱讀
    CS86706適用1~3節(jié)鋰電應(yīng)用,內(nèi)置升壓模塊,2×30W立體聲&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;50W單聲道R類音頻功率放大器

    新知|Verizon與AT&amp;amp;amp;T也可以手機(jī)直接連接衛(wèi)星了

    近日,Verizon與AT&amp;T宣布,手機(jī)直連衛(wèi)星方面取得重要進(jìn)展,使用普通手機(jī)實現(xiàn)了通過衛(wèi)星的視頻通話。很顯然,Verizon與AT&amp;T的這舉措是針對此前T-Mobile
    的頭像 發(fā)表于 06-19 07:07 ?1112次閱讀
    新知|Verizon與AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T也可以手機(jī)直接連接衛(wèi)星了

    多模塊配置!YU系列USB、Type-C連接器為工控機(jī)打造&amp;amp;quot;全能型&amp;amp;quot;數(shù)據(jù)傳輸方案

    背景介紹工控機(jī)是類用于工業(yè)、野外等復(fù)雜惡劣環(huán)境的專用計算機(jī)設(shè)備,如何實現(xiàn)穩(wěn)如磐石的數(shù)據(jù)傳輸是關(guān)鍵?凌科電氣YU-USB&amp;Type-C工業(yè)連接器,以嚴(yán)苛環(huán)境適配性及長期穩(wěn)定的性能表現(xiàn),成為
    的頭像 發(fā)表于 05-07 18:27 ?663次閱讀
    多模塊配置!YU系列USB、Type-C連接器為工控機(jī)打造&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;全能型&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;數(shù)據(jù)傳輸方案

    TFT&amp;amp;LCD,是電阻屏還是電容屏?

    TFT&amp; LCD是采用薄膜晶體管技術(shù)的液晶觸摸顯示器,它本身并不決定是電阻屏還是電容屏。電阻屏和電容屏指的是不同的觸摸技術(shù),電容屏在現(xiàn)代設(shè)備中更為常見。
    的頭像 發(fā)表于 04-14 13:35 ?1869次閱讀
    TFT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;LCD,是電阻屏還是電容屏?

    在線研討會 @4/10 ASTRA?賦能邊緣 AI:探索 Synaptics SL &amp;amp;amp; SR 處理器的無限可能

    邊緣AI的發(fā)展正在改變智能設(shè)備的未來,而cASTRA系列處理器正是這領(lǐng)域的佼佼者。2025年4月10日(周四)上午10至11,大聯(lián)大詮鼎集團(tuán)聯(lián)合Synaptics新突思將舉辦“ASTRA賦能
    的頭像 發(fā)表于 04-02 16:34 ?851次閱讀
    在線研討會 @4/10 ASTRA?賦能邊緣 AI:探索 Synaptics SL &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; SR 處理器的無限可能