真人抽搐一进一出在线视频,美女丝袜高潮视频在线观看,夜夜橹橹网站夜夜橹橹

生成模型通常使用人工評(píng)估來(lái)確定和證明進(jìn)展。不幸的是，現(xiàn)有的人類(lèi)評(píng)估方法目前還沒(méi)有標(biāo)準(zhǔn)化，李飛飛等人ICLR2019論文構(gòu)建人類(lèi)眼睛感知評(píng)估（HYPE），帶給你新的認(rèn)知。

HYPE是一種人類(lèi)眼睛感知評(píng)估，它具有四大特點(diǎn)：

（1）以感知的心理物理學(xué)研究為基礎(chǔ)，

（2）在一個(gè)模型的不同隨機(jī)抽樣輸出集合中是可靠的，

（3）能夠產(chǎn)生可分離的模型性能，

（4）在成本和時(shí)間上是有效的。

我們引入了兩種變體：一種是在自適應(yīng)時(shí)間約束下測(cè)量視覺(jué)感知，以確定模型輸出顯示為真實(shí)的閾值（例如250毫秒），另一種是在無(wú)時(shí)間約束的假圖像和真實(shí)圖像上測(cè)量人為錯(cuò)誤率的較便宜變體。

我們測(cè)試了六種最先進(jìn)的生成對(duì)抗網(wǎng)絡(luò)和兩種采樣技術(shù)，利用四種數(shù)據(jù)集（CelebA, FFHQ, CIFAR-10和ImageNet）生成有條件和無(wú)條件圖像。我們發(fā)現(xiàn)HYPE可以跟蹤模型之間的相對(duì)改進(jìn)，并通過(guò)引導(dǎo)抽樣確認(rèn)這些測(cè)量是一致且可復(fù)制的。

圖1：我們的人的評(píng)估指標(biāo)，HYPE，可以一直區(qū)分彼此模型：這里，我們比較不同的生成模型在FFHQ上的表現(xiàn)。50%的分?jǐn)?shù)代表取自真實(shí)的不可區(qū)分的結(jié)果，而50%以上的分?jǐn)?shù)代表超現(xiàn)實(shí)。

我們進(jìn)行了兩次大規(guī)模實(shí)驗(yàn)。首先，在CelebA-64，我們通過(guò)四個(gè)生成對(duì)抗網(wǎng)絡(luò)（GANs）展示了HYPE在無(wú)條件人臉生成上的表現(xiàn)。我們還在FFHQ-1024上評(píng)估了的兩個(gè)較新的GANs。HYPE表明，GANs之間有明顯的、可測(cè)量的知覺(jué)差異；這種排名在HYPE和HYPE∞上都是相同的。表現(xiàn)最好的模型StyleGAN在FFHQ上接受了訓(xùn)練，并使用截尾技巧（截?cái)嗉记桑┻M(jìn)行了采樣，HYPE∞表現(xiàn)27.6%，這表明改進(jìn)的機(jī)會(huì)很大。我們可以以60美元的價(jià)格用30名人工評(píng)估人員用10分鐘的時(shí)間重現(xiàn)這些結(jié)果，以95%的置信區(qū)間。

我們?cè)贗mageNet的和CIFAR-10數(shù)據(jù)集上對(duì)HYPE的性能進(jìn)行了測(cè)試。當(dāng)產(chǎn)生CIFAR-10時(shí)，像BEGAN這樣的早期GANs在HYPE∞中是不可分離的：它們沒(méi)有一個(gè)能產(chǎn)生令人信服的結(jié)果，證明這是一項(xiàng)比面部生成更困難的任務(wù)。較新的StyleGAN顯示出可分離的改進(jìn)，這表明它比以前的模型有了進(jìn)步。有了ImageNet-5，GANs已經(jīng)改進(jìn)了被認(rèn)為“更容易”生成的類(lèi)（例如檸檬），但在所有較難生成類(lèi)（例如法國(guó)號(hào)）的模型中，它的分?jǐn)?shù)始終較低。

對(duì)于研究人員來(lái)說(shuō)，HYPE是一種快速的解決方案，可以測(cè)量他們的生成模型，只需點(diǎn)擊一下就可以得出可靠的分?jǐn)?shù)并測(cè)量進(jìn)展。

HYPE：人眼感知評(píng)價(jià)的基準(zhǔn)

HYPE在Amazon Mechanical Turk上向眾包評(píng)估人員逐個(gè)顯示一系列圖像，并要求評(píng)估人員評(píng)估每個(gè)圖像是真是假。一半的圖像是真實(shí)圖像，從模型的訓(xùn)練集（例如，F(xiàn)FHQ, CelebA, ImageNet或CIFAR-10）中繪制。另一半來(lái)自模型的輸出。我們使用現(xiàn)代眾包培訓(xùn)和質(zhì)量控制技術(shù)來(lái)確保高質(zhì)量的標(biāo)簽。模型創(chuàng)建者可以選擇執(zhí)行兩種不同的評(píng)估：HYPEtime，它收集時(shí)間限制的感知閾值來(lái)測(cè)量心理測(cè)量功能并報(bào)告人們進(jìn)行準(zhǔn)確分類(lèi)所需的最短時(shí)間；HYPE∞，一種簡(jiǎn)單的方法，它在無(wú)時(shí)間限制的情況下評(píng)估人們的錯(cuò)誤率。

圖2：使用在FFHQ上訓(xùn)練的StyleGAN的截?cái)嗉记刹蓸拥氖纠龍D像。右邊的圖像顯示出最高的HYPE∞分?jǐn)?shù)，最高的人類(lèi)感知。

HYPEtime：基于心理物理學(xué)的知覺(jué)保真度

我們的第一種方法，HYPEtime，測(cè)量時(shí)間限制的知覺(jué)閾值。它屬于心理學(xué)文獻(xiàn)，一個(gè)專(zhuān)門(mén)研究人類(lèi)如何感知刺激的領(lǐng)域，在感知圖像時(shí)評(píng)估人類(lèi)時(shí)間閾值。我們的評(píng)估方案遵循所謂的自適應(yīng)階梯法（圖3）程序。圖像在有限的時(shí)間內(nèi)被閃爍，之后評(píng)估者被要求判斷它是真是假。如果評(píng)估者一直回答正確，樓梯會(huì)下降并以更少的時(shí)間閃爍下一個(gè)圖像。如果評(píng)估者不正確，樓梯會(huì)上升并提供更多的時(shí)間。

圖3：自適應(yīng)階梯法向評(píng)估者顯示不同時(shí)間曝光的圖像。正確時(shí)減少，錯(cuò)誤時(shí)增加。模態(tài)暴露測(cè)量他們的感知閾值。

這個(gè)過(guò)程需要足夠的迭代來(lái)收斂到評(píng)估者的感知閾值：他們能夠保持有效性能的最短曝光時(shí)間。這個(gè)過(guò)程產(chǎn)生了所謂的心理測(cè)量功能，即時(shí)間刺激暴露與準(zhǔn)確性的關(guān)系。例如，對(duì)于一組易于識(shí)別的生成圖像，人類(lèi)評(píng)估人員將立即降低到最低毫秒曝光。HYPEtime為每個(gè)評(píng)估者顯示三個(gè)樓梯塊。圖像評(píng)估從3-2-1倒計(jì)時(shí)時(shí)鐘開(kāi)始，每個(gè)數(shù)字顯示500毫秒。然后顯示當(dāng)前曝光時(shí)間的采樣圖像。每幅圖像后立即快速顯示四幅感知掩模圖像各30毫秒。這些噪聲面罩被扭曲，以防止圖像消失后的視網(wǎng)膜后像和進(jìn)一步的感官處理。我們使用現(xiàn)有的紋理合成算法生成遮罩。每次提交報(bào)告時(shí)，HYPE都會(huì)向評(píng)估者揭示報(bào)告是否正確。圖像曝光范圍[100毫秒，1000毫秒]，來(lái)源于感知文獻(xiàn)。所有塊從500毫秒開(kāi)始，持續(xù)150個(gè)圖像（50%生成，50%真實(shí)），根據(jù)之前的工作經(jīng)驗(yàn)調(diào)整值。在3向上/1向下自適應(yīng)階梯方法之后，曝光時(shí)間以10毫秒的增量增加，并以30毫秒的降幅減少，理論上這會(huì)導(dǎo)致接近人類(lèi)感知閾值的75%精度閾值。每個(gè)評(píng)估人員在不同的圖像集上完成多個(gè)稱(chēng)為塊的樓梯。因此，我們觀察到模型的多個(gè)度量。我們采用三個(gè)區(qū)塊，以平衡評(píng)估人員的疲勞。我們對(duì)各模塊的模態(tài)暴露時(shí)間進(jìn)行平均，以計(jì)算每個(gè)評(píng)估者的最終值。分?jǐn)?shù)越高表明模型越好，其輸出需要更長(zhǎng)的時(shí)間曝光才能從真實(shí)圖像中辨別出來(lái)。

HYPE∞：成本效益近似

在前面的方法的基礎(chǔ)上，我們引入了HYPE∞：一種簡(jiǎn)單、快速、廉價(jià)的方法，在除去HYPEtime后優(yōu)化速度、成本和解釋的方便性。HYPE∞在給定的無(wú)限評(píng)估時(shí)間內(nèi)，從感知時(shí)間的測(cè)量值轉(zhuǎn)變?yōu)槿祟?lèi)欺騙率的測(cè)量值。HYPE∞分?jǐn)?shù)測(cè)量任務(wù)的總誤差，使測(cè)量能夠捕獲假圖像和真實(shí)圖像上的誤差，以及假圖像看起來(lái)比真實(shí)圖像更逼真時(shí)超現(xiàn)實(shí)生成的效果。HYPE∞比HYPEtime需要更少的圖像才能找到穩(wěn)定的值，經(jīng)驗(yàn)上可以減少6倍的時(shí)間和成本（每個(gè)評(píng)估者10分鐘，而不是60分鐘，同樣的速度是每小時(shí)12美元）。分?jǐn)?shù)越高越好：10%的HYPE∞表示只有10%的圖像欺騙了人，而50%的人則表示人們偶然會(huì)誤認(rèn)為真實(shí)和虛假圖像，從而使虛假圖像與真實(shí)圖像無(wú)法區(qū)分。超過(guò)50%的分?jǐn)?shù)表明是超現(xiàn)實(shí)的圖像，因?yàn)樵u(píng)估者錯(cuò)誤的圖像的概率大于偶然性。HYPE∞向每個(gè)評(píng)估者顯示總共100張圖像：50張真實(shí)圖像和50張假圖像。我們計(jì)算錯(cuò)誤判斷的圖像比例，并將K圖像上n個(gè)評(píng)價(jià)者的判斷匯總，得出給定模型的最終得分。

設(shè)計(jì)一致可靠

為了確保我們報(bào)告的分?jǐn)?shù)是一致和可靠的，我們需要從模型中充分抽樣，并雇用、鑒定和適當(dāng)支付足夠的評(píng)估人員。

采樣足夠的模型輸出。從特定模型中選擇要評(píng)估的K圖像是公平和有用評(píng)估的關(guān)鍵組成部分。我們必須對(duì)足夠多的圖像進(jìn)行采樣，以充分捕捉模型的生成多樣性，同時(shí)在評(píng)估中平衡這一點(diǎn)與可跟蹤成本。我們遵循現(xiàn)有的工作，通過(guò)從每個(gè)模型中抽取k=5000個(gè)生成圖像和從訓(xùn)練集中抽取k=5000個(gè)真實(shí)圖像來(lái)評(píng)估生成輸出。從這些樣本中，我們隨機(jī)選擇要給每個(gè)評(píng)價(jià)者的圖像。

評(píng)估人員的質(zhì)量。為了獲得一個(gè)高質(zhì)量的評(píng)估人員庫(kù)，每個(gè)人都需要通過(guò)一個(gè)資格鑒定任務(wù)。這種任務(wù)前過(guò)濾方法，有時(shí)被稱(chēng)為面向人的策略，其性能優(yōu)于執(zhí)行任務(wù)后數(shù)據(jù)過(guò)濾或處理的面向過(guò)程的策略。我們的鑒定任務(wù)顯示100個(gè)圖像（50個(gè)真實(shí)圖像和50個(gè)假圖像），沒(méi)有時(shí)間限制。評(píng)估人員必須正確分類(lèi)65%的真實(shí)和虛假圖像。該閾值應(yīng)被視為一個(gè)超參數(shù)，并可能根據(jù)教程中使用的GANs和所選評(píng)估者的期望識(shí)別能力而改變。我們根據(jù)100個(gè)答案中65個(gè)二項(xiàng)選擇答案的累積二項(xiàng)式概率選擇65%：只有千分之一的概率評(píng)價(jià)者有資格通過(guò)隨機(jī)猜測(cè)。

與任務(wù)本身不同的是，虛假的資格圖像是從多個(gè)不同的GANs抽取出的，以確保所有主體都具有公平的主體資格。資格鑒定是偶爾進(jìn)行的，這樣一批評(píng)估人員就可以根據(jù)需要評(píng)估新的模型。

付款。評(píng)估人員的基本工資為1美元，用于完成資格鑒定任務(wù)。為了激勵(lì)評(píng)估人員在整個(gè)任務(wù)中保持參與，資格認(rèn)證后的所有進(jìn)一步薪酬都來(lái)自每幅正確標(biāo)記的圖像0.02美元的獎(jiǎng)金，通常總計(jì)工資為12美元/小時(shí)。

實(shí)驗(yàn)1：人臉的HYPEtime和HYPE∞

我們報(bào)告了HYPEtime的結(jié)果，并證明HYPE∞的結(jié)果與HYPEtime的結(jié)果接近，只是成本和時(shí)間的一小部分。

HYPEtime

CelebA-64。我們發(fā)現(xiàn)StyleGANtrunc的HYPE得分最高（模式曝光時(shí)間），平均為439.3毫秒，這表明評(píng)估者需要近半秒的曝光來(lái)準(zhǔn)確分類(lèi)StyleGANtrunc圖像（表？？）StyleGANtrunc之后是ProGAN，速度為363.7毫秒，時(shí)間下降17%。BEGAN 和WGAN-GP都很容易被識(shí)別為假的，因此它們?cè)诳捎玫淖钚∑毓鈺r(shí)間100毫秒左右排在第三位。BEGAN 和WGAN-GP都表現(xiàn)出一種觸底效應(yīng)——快速一致地達(dá)到最小曝光時(shí)間100毫秒。

為了證明模型之間的可分性，我們報(bào)告了單向方差分析（ANOVA）測(cè)試的結(jié)果，其中每個(gè)模型的輸入是每個(gè)模型的30個(gè)評(píng)估者的模式列表。ANOVA結(jié)果證實(shí)存在統(tǒng)計(jì)學(xué)上顯著的綜合差異（F（3，29）=83.5，P<0.0001）。使用Tukey測(cè)試進(jìn)行的成對(duì)事后分析證實(shí)，除了BEGAN 和?WGAN-GP (n.s.).之外，所有模型對(duì)都是可分離的（所有p<0.05）。

FFHQ-1024.我們發(fā)現(xiàn)，StyleGANtrunc的曝光時(shí)間比StyleGANno-trunc高，分別為363.2 毫秒和240.7 毫秒（表1）。雖然95%的置信區(qū)間代表2.7 毫秒的保守重疊，但未配對(duì)的t-test證實(shí)兩種模型之間的差異是顯著的（t（58）=2.3，p=0.02）。

HYPE常數(shù)

CelebA-64。表2是CelebA-64的HYPE∞結(jié)果。我們發(fā)現(xiàn)StyleGANtrunc使得HYPE∞得分最高，50.7%會(huì)欺騙評(píng)估者。StyleGANtrunc之后是ProGAN，為40.3%，開(kāi)始于10.0%，WGAN-GP為3.8%。無(wú)重疊的置信區(qū)間，方差分析檢驗(yàn)顯著（F（3，29）=404.4，P<0.001）。成對(duì)的事后Tukey檢驗(yàn)表明，所有的模型對(duì)都是可分離的（p<0.05）。值得注意的是，HYPE∞導(dǎo)致了BEGAN 和?WGAN-GP的可分離結(jié)果，而在HYPEtime中，由于自下而上的影響，它們不可分離。

表2：在CelebA-64上訓(xùn)練的四個(gè)GANs上的HYPE∞。與直覺(jué)相反，真實(shí)誤差隨著假圖像上的誤差而增加，因?yàn)樵u(píng)價(jià)者變得更加困惑，兩種分布之間的區(qū)分因素變得更加難以辨別。

FFHQ-1024.我們觀察到StyleGANtrunc和StyleGANno-trunc之間的一致可分離性差異，以及模型之間的清晰輪廓（表3）。HYPE∞將StyleGANtrunc（27.6%）排在StyleGANtrunc（19.0%）之上，沒(méi)有重疊的CIs?？煞蛛x性通過(guò)未配對(duì)t檢驗(yàn)（t（58）=8.3，p<0.001）得到確認(rèn)。

表3:FFHQ-1024培訓(xùn)的StyleGANtrunc和StyleGANno-trunc上的HYPE∞。評(píng)價(jià)者經(jīng)常被StyleGANtrunc欺騙。

準(zhǔn)確度和時(shí)間的成本權(quán)衡

HYPE的目標(biāo)之一是節(jié)約成本和時(shí)間。當(dāng)運(yùn)行HYPE時(shí)，在準(zhǔn)確性和時(shí)間以及準(zhǔn)確性和成本之間有一個(gè)內(nèi)在的權(quán)衡。這是由大量法律驅(qū)動(dòng)的：在眾包任務(wù)中招聘額外的評(píng)估人員通常會(huì)產(chǎn)生更一致的結(jié)果，但成本更高（因?yàn)槊總€(gè)評(píng)估人員的工作都是付費(fèi)的），而且完成的時(shí)間更長(zhǎng)（因?yàn)楸仨氄衅父嗟脑u(píng)估人員，并且必須完成他們的工作）。

為了處理這種權(quán)衡，我們?cè)赟tyleGANtrunc上運(yùn)行了一個(gè)HYPE∞實(shí)驗(yàn)。我們用60個(gè)評(píng)估者完成了一個(gè)額外的評(píng)估，并計(jì)算了95%的自舉置信區(qū)間，從10到120個(gè)評(píng)估者中進(jìn)行選擇（圖4）。我們看到CI開(kāi)始聚集大約30名評(píng)估人員，這是我們推薦的要招聘的評(píng)估人員數(shù)量。

圖4：更多評(píng)估者對(duì)CI的影響

對(duì)評(píng)估人員的付款按照“方法”一節(jié)中的描述進(jìn)行計(jì)算。在30個(gè)評(píng)估者中，在一個(gè)模型上運(yùn)行HYPEtime的成本約為360美元，而在同一個(gè)模型上運(yùn)行HYPE∞的成本約為60美元。兩項(xiàng)任務(wù)的每個(gè)評(píng)估人員的報(bào)酬約為12美元/小時(shí)，評(píng)估人員平均花在一項(xiàng)HYPE任務(wù)上的時(shí)間為一小時(shí)，在HYPE∞任務(wù)上花費(fèi)的時(shí)間為10分鐘。因此，HYPE∞的目標(biāo)是在保持一致性的同時(shí)，運(yùn)行起來(lái)要比HYPEtime便宜得多。

與自動(dòng)化指標(biāo)的比較

由于FID是最常用的無(wú)條件圖像生成評(píng)估方法之一，因此有必要在相同的模型上將HYPE與FID進(jìn)行比較。我們還比較了兩個(gè)新的自動(dòng)化指標(biāo)：KID，一個(gè)獨(dú)立于樣本大小的無(wú)偏估計(jì)量，以及F1/8（精度），它獨(dú)立的捕獲保真度。我們通過(guò)Spearman秩次相關(guān)系數(shù)表明，HYPE分?jǐn)?shù)與FID不相關(guān)（ρ=-0.029，p=0.96），其中-1.0的Spearman相關(guān)性是理想的，因?yàn)檩^低的FID和較高的HYPE分?jǐn)?shù)表示更強(qiáng)的模型。因此，我們發(fā)現(xiàn)，F(xiàn)ID與人類(lèi)的判斷并不高度相關(guān)。同時(shí)，HYPE時(shí)間和HYPE∞之間具有很強(qiáng)的相關(guān)性（ρ=1.0，p=0.0），其中1.0是理想的，因?yàn)樗鼈兪侵苯酉嚓P(guān)的。我們通過(guò)評(píng)估CelebA-64和FFHQ-1024的50K生成和50K真實(shí)圖像的標(biāo)準(zhǔn)協(xié)議計(jì)算FID，重現(xiàn)StyleGANno-trunc的分?jǐn)?shù)。Kid（ρ=?0.609，p=0.20）和精度（ρ=0.657，p=0.16）均顯示出與人類(lèi)的統(tǒng)計(jì)上不顯著但中等水平的相關(guān)性。

模型訓(xùn)練時(shí)的HYPE∞

HYPE也可以用來(lái)評(píng)估模型培訓(xùn)的進(jìn)展。我們發(fā)現(xiàn)隨著StyleGAN訓(xùn)練的進(jìn)展，HYPE∞分?jǐn)?shù)從4k時(shí)的29.5%上升到9k時(shí)的45.9%，到25k時(shí)的50.3%（f（2，29）=63.3，p<0.001）。

實(shí)驗(yàn)2：人臉以外的HYPE∞

現(xiàn)在我們轉(zhuǎn)到另一個(gè)流行的圖像生成任務(wù)：對(duì)象。實(shí)驗(yàn)1表明，HYPE∞是HYPEtime的一個(gè)有效且具有成本效益的變體，這里我們只關(guān)注HYPE∞。

ImageNet-5

我們?cè)u(píng)估了五個(gè)ImageNet類(lèi)上的條件圖像生成（表4）。我們還報(bào)告了FID、KID和F1/8（精度分?jǐn)?shù)。為了評(píng)估每個(gè)對(duì)象類(lèi)中三個(gè)GAN的相對(duì)有效性，我們計(jì)算了五個(gè)單向方差分析，每個(gè)對(duì)象類(lèi)一個(gè)方差分析。我們發(fā)現(xiàn)，對(duì)于來(lái)自三個(gè)簡(jiǎn)單類(lèi)的圖像，HYPE∞分?jǐn)?shù)是可分離的：薩摩耶（狗）（F（2，29）=15.0，p<0.001），檸檬（F（2，29）=4.2，p=0.017），和圖書(shū)館（F（2，29）=4.9，p=0.009）。配對(duì)后驗(yàn)表明，這一差異僅在SN-GAN和兩個(gè)BigGAN變體之間有顯著性。我們還觀察到，模型具有不同的優(yōu)勢(shì)，例如SN-GAN更適合生成圖書(shū)館而不是薩摩耶。

表4：在ImageNet上訓(xùn)練的三個(gè)模型上的HYPE∞和在五種類(lèi)別里有條件抽樣。BigGAN的表現(xiàn)通常優(yōu)于SN-GAN。BigGANtrunc和BigGANno-trunc不可分離。

與自動(dòng)化指標(biāo)的比較。所有三個(gè)GANs的Spearman秩次相關(guān)系數(shù)在所有五個(gè)分類(lèi)中均顯示，HYPE∞分?jǐn)?shù)與KID（ρ=-0.377，p=0.02）、FID（ρ=-0.282，p=0.01）之間存在一個(gè)低到中等的相關(guān)性，與精度的相關(guān)性可忽略不計(jì)（ρ=-0.067，p=0.81）。我們的ImageNet-5任務(wù)需要一些相關(guān)性，因?yàn)檫@些度量使用預(yù)訓(xùn)練的ImageNet嵌入來(lái)測(cè)量生成數(shù)據(jù)和實(shí)際數(shù)據(jù)之間的差異。

有趣的是，我們發(fā)現(xiàn)這種相關(guān)性依賴(lài)于GAN：僅考慮SN-GAN，我們發(fā)現(xiàn)KID（ρ=?0.500，p=0.39）、FID（ρ=?0.300，p=0.62）和精度（ρ=?0.205，p=0.74）的系數(shù)更強(qiáng)。當(dāng)只考慮BigGAN時(shí)，我們發(fā)現(xiàn)FID（ρ=?0.151，p=0.68）、FID（ρ=?0.067，p=0.85）和精度（ρ=?0.164，p=0.65）的系數(shù)要弱得多。這說(shuō)明了這些自動(dòng)度量的一個(gè)重要缺陷：它們與人類(lèi)關(guān)聯(lián)的能力取決于度量正在評(píng)估的生成模型，根據(jù)模型和任務(wù)而變化。

CIFAR-10

針對(duì)CIFAR-10上無(wú)條件生成的困難任務(wù)，我們?cè)趯?shí)驗(yàn)1中使用了相同的四種模型體系結(jié)構(gòu)：CelebA-64。表5顯示HYPE∞能夠?qū)tyleGANtrunc與早期的BEGAN, WGAN-GP, 和ProGAN分離，這表明StyleGAN是其中第一個(gè)在CIFAR-10無(wú)條件對(duì)象生成方面取得人類(lèi)可感知進(jìn)展的。

表5:CIFAR-10上的四種型號(hào)。StyleGANtrunc可以從CIFAR-10生成逼真的圖像。

與自動(dòng)化指標(biāo)的比較。所有四個(gè)GAN的Spearman秩次相關(guān)系數(shù)均為中等，但統(tǒng)計(jì)學(xué)上不顯著，與KID（ρ=-0.600，p=0.40）和FID（ρ=0.600，p=0.40）和精度（ρ=-800，p=0.20）的相關(guān)性。

討論與結(jié)論

預(yù)期用途。我們創(chuàng)造了一個(gè)HYPE作為解決方案，人類(lèi)對(duì)生成模型的評(píng)估。研究人員可以上傳他們的模型，獲得分?jǐn)?shù)，并通過(guò)我們的在線部署比較進(jìn)展。在高使用率期間（如比賽），retainer模式允許在10分鐘內(nèi)使用HYPE∞進(jìn)行評(píng)估，而不是默認(rèn)的30分鐘。

局限性：HYPE的擴(kuò)展可能需要不同的任務(wù)設(shè)計(jì)。在文本生成（翻譯、標(biāo)題生成）的情況下，HYPE需要對(duì)感知時(shí)間閾值進(jìn)行更長(zhǎng)、更大范圍的調(diào)整。除了測(cè)量真實(shí)性之外，其他指標(biāo)，如多樣性、過(guò)度擬合、糾纏度、訓(xùn)練穩(wěn)定性、計(jì)算和樣本效率，都是可以納入但不在本文范圍內(nèi)的額外基準(zhǔn)。有些可能更適合全自動(dòng)評(píng)估。

結(jié)論：HYPE為生成模型提供了兩個(gè)人類(lèi)評(píng)估基準(zhǔn)：

（1）以心理物理學(xué)為基礎(chǔ)，

（2）提供產(chǎn)生可靠結(jié)果的任務(wù)設(shè)計(jì)，

（3）單獨(dú)的模型性能，

（4）具有成本和時(shí)間效率。

我們引入兩個(gè)基準(zhǔn)：使用時(shí)間感知閾值的HYPEtime和報(bào)告無(wú)時(shí)間限制的錯(cuò)誤率的HYPE∞。我們展示了我們的方法在六種模型中的圖像生成效果：StyleGAN、Sn-GAN、BigGAN、ProGAN、Begin、WGAN-gp、四種圖像數(shù)據(jù)集Celeba-64、FFHQ-1024、CIFAR-10、ImageNet-5，以及兩種采樣方法。{有、無(wú)截?cái)嗉记蓕。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴