生成模型通常使用人工評(píng)估來(lái)確定和證明進(jìn)展。不幸的是,現(xiàn)有的人類(lèi)評(píng)估方法目前還沒(méi)有標(biāo)準(zhǔn)化,李飛飛等人ICLR2019論文構(gòu)建人類(lèi)眼睛感知評(píng)估(HYPE),帶給你新的認(rèn)知。
HYPE是一種人類(lèi)眼睛感知評(píng)估,它具有四大特點(diǎn):
(1)以感知的心理物理學(xué)研究為基礎(chǔ),
(2)在一個(gè)模型的不同隨機(jī)抽樣輸出集合中是可靠的,
(3)能夠產(chǎn)生可分離的模型性能,
(4)在成本和時(shí)間上是有效的。
我們引入了兩種變體:一種是在自適應(yīng)時(shí)間約束下測(cè)量視覺(jué)感知,以確定模型輸出顯示為真實(shí)的閾值(例如250毫秒),另一種是在無(wú)時(shí)間約束的假圖像和真實(shí)圖像上測(cè)量人為錯(cuò)誤率的較便宜變體。
我們測(cè)試了六種最先進(jìn)的生成對(duì)抗網(wǎng)絡(luò)和兩種采樣技術(shù),利用四種數(shù)據(jù)集(CelebA, FFHQ, CIFAR-10和ImageNet)生成有條件和無(wú)條件圖像。我們發(fā)現(xiàn)HYPE可以跟蹤模型之間的相對(duì)改進(jìn),并通過(guò)引導(dǎo)抽樣確認(rèn)這些測(cè)量是一致且可復(fù)制的。

圖1:我們的人的評(píng)估指標(biāo),HYPE,可以一直區(qū)分彼此模型:這里,我們比較不同的生成模型在FFHQ上的表現(xiàn)。50%的分?jǐn)?shù)代表取自真實(shí)的不可區(qū)分的結(jié)果,而50%以上的分?jǐn)?shù)代表超現(xiàn)實(shí)。
我們進(jìn)行了兩次大規(guī)模實(shí)驗(yàn)。首先,在CelebA-64,我們通過(guò)四個(gè)生成對(duì)抗網(wǎng)絡(luò)(GANs)展示了HYPE在無(wú)條件人臉生成上的表現(xiàn)。我們還在FFHQ-1024上評(píng)估了的兩個(gè)較新的GANs。HYPE表明,GANs之間有明顯的、可測(cè)量的知覺(jué)差異;這種排名在HYPE和HYPE∞上都是相同的。表現(xiàn)最好的模型StyleGAN在FFHQ上接受了訓(xùn)練,并使用截尾技巧(截?cái)嗉记桑┻M(jìn)行了采樣,HYPE∞表現(xiàn)27.6%,這表明改進(jìn)的機(jī)會(huì)很大。我們可以以60美元的價(jià)格用30名人工評(píng)估人員用10分鐘的時(shí)間重現(xiàn)這些結(jié)果,以95%的置信區(qū)間。
我們?cè)贗mageNet的和CIFAR-10數(shù)據(jù)集上對(duì)HYPE的性能進(jìn)行了測(cè)試。當(dāng)產(chǎn)生CIFAR-10時(shí),像BEGAN這樣的早期GANs在HYPE∞中是不可分離的:它們沒(méi)有一個(gè)能產(chǎn)生令人信服的結(jié)果,證明這是一項(xiàng)比面部生成更困難的任務(wù)。較新的StyleGAN顯示出可分離的改進(jìn),這表明它比以前的模型有了進(jìn)步。有了ImageNet-5,GANs已經(jīng)改進(jìn)了被認(rèn)為“更容易”生成的類(lèi)(例如檸檬),但在所有較難生成類(lèi)(例如法國(guó)號(hào))的模型中,它的分?jǐn)?shù)始終較低。
對(duì)于研究人員來(lái)說(shuō),HYPE是一種快速的解決方案,可以測(cè)量他們的生成模型,只需點(diǎn)擊一下就可以得出可靠的分?jǐn)?shù)并測(cè)量進(jìn)展。
HYPE:人眼感知評(píng)價(jià)的基準(zhǔn)
HYPE在Amazon Mechanical Turk上向眾包評(píng)估人員逐個(gè)顯示一系列圖像,并要求評(píng)估人員評(píng)估每個(gè)圖像是真是假。一半的圖像是真實(shí)圖像,從模型的訓(xùn)練集(例如,F(xiàn)FHQ, CelebA, ImageNet或CIFAR-10)中繪制。另一半來(lái)自模型的輸出。我們使用現(xiàn)代眾包培訓(xùn)和質(zhì)量控制技術(shù)來(lái)確保高質(zhì)量的標(biāo)簽。模型創(chuàng)建者可以選擇執(zhí)行兩種不同的評(píng)估:HYPEtime,它收集時(shí)間限制的感知閾值來(lái)測(cè)量心理測(cè)量功能并報(bào)告人們進(jìn)行準(zhǔn)確分類(lèi)所需的最短時(shí)間;HYPE∞,一種簡(jiǎn)單的方法,它在無(wú)時(shí)間限制的情況下評(píng)估人們的錯(cuò)誤率。
圖2:使用在FFHQ上訓(xùn)練的StyleGAN的截?cái)嗉记刹蓸拥氖纠龍D像。右邊的圖像顯示出最高的HYPE∞分?jǐn)?shù),最高的人類(lèi)感知。
HYPEtime:基于心理物理學(xué)的知覺(jué)保真度
我們的第一種方法,HYPEtime,測(cè)量時(shí)間限制的知覺(jué)閾值。它屬于心理學(xué)文獻(xiàn),一個(gè)專(zhuān)門(mén)研究人類(lèi)如何感知刺激的領(lǐng)域,在感知圖像時(shí)評(píng)估人類(lèi)時(shí)間閾值。我們的評(píng)估方案遵循所謂的自適應(yīng)階梯法(圖3)程序。圖像在有限的時(shí)間內(nèi)被閃爍,之后評(píng)估者被要求判斷它是真是假。如果評(píng)估者一直回答正確,樓梯會(huì)下降并以更少的時(shí)間閃爍下一個(gè)圖像。如果評(píng)估者不正確,樓梯會(huì)上升并提供更多的時(shí)間。

圖3:自適應(yīng)階梯法向評(píng)估者顯示不同時(shí)間曝光的圖像。正確時(shí)減少,錯(cuò)誤時(shí)增加。模態(tài)暴露測(cè)量他們的感知閾值。
這個(gè)過(guò)程需要足夠的迭代來(lái)收斂到評(píng)估者的感知閾值:他們能夠保持有效性能的最短曝光時(shí)間。這個(gè)過(guò)程產(chǎn)生了所謂的心理測(cè)量功能,即時(shí)間刺激暴露與準(zhǔn)確性的關(guān)系。例如,對(duì)于一組易于識(shí)別的生成圖像,人類(lèi)評(píng)估人員將立即降低到最低毫秒曝光。HYPEtime為每個(gè)評(píng)估者顯示三個(gè)樓梯塊。圖像評(píng)估從3-2-1倒計(jì)時(shí)時(shí)鐘開(kāi)始,每個(gè)數(shù)字顯示500毫秒。然后顯示當(dāng)前曝光時(shí)間的采樣圖像。每幅圖像后立即快速顯示四幅感知掩模圖像各30毫秒。這些噪聲面罩被扭曲,以防止圖像消失后的視網(wǎng)膜后像和進(jìn)一步的感官處理。我們使用現(xiàn)有的紋理合成算法生成遮罩。每次提交報(bào)告時(shí),HYPE都會(huì)向評(píng)估者揭示報(bào)告是否正確。圖像曝光范圍[100毫秒,1000毫秒],來(lái)源于感知文獻(xiàn)。所有塊從500毫秒開(kāi)始,持續(xù)150個(gè)圖像(50%生成,50%真實(shí)),根據(jù)之前的工作經(jīng)驗(yàn)調(diào)整值。在3向上/1向下自適應(yīng)階梯方法之后,曝光時(shí)間以10毫秒的增量增加,并以30毫秒的降幅減少,理論上這會(huì)導(dǎo)致接近人類(lèi)感知閾值的75%精度閾值。每個(gè)評(píng)估人員在不同的圖像集上完成多個(gè)稱(chēng)為塊的樓梯。因此,我們觀察到模型的多個(gè)度量。我們采用三個(gè)區(qū)塊,以平衡評(píng)估人員的疲勞。我們對(duì)各模塊的模態(tài)暴露時(shí)間進(jìn)行平均,以計(jì)算每個(gè)評(píng)估者的最終值。分?jǐn)?shù)越高表明模型越好,其輸出需要更長(zhǎng)的時(shí)間曝光才能從真實(shí)圖像中辨別出來(lái)。
HYPE∞:成本效益近似
在前面的方法的基礎(chǔ)上,我們引入了HYPE∞:一種簡(jiǎn)單、快速、廉價(jià)的方法,在除去HYPEtime后優(yōu)化速度、成本和解釋的方便性。HYPE∞在給定的無(wú)限評(píng)估時(shí)間內(nèi),從感知時(shí)間的測(cè)量值轉(zhuǎn)變?yōu)槿祟?lèi)欺騙率的測(cè)量值。HYPE∞分?jǐn)?shù)測(cè)量任務(wù)的總誤差,使測(cè)量能夠捕獲假圖像和真實(shí)圖像上的誤差,以及假圖像看起來(lái)比真實(shí)圖像更逼真時(shí)超現(xiàn)實(shí)生成的效果。HYPE∞比HYPEtime需要更少的圖像才能找到穩(wěn)定的值,經(jīng)驗(yàn)上可以減少6倍的時(shí)間和成本(每個(gè)評(píng)估者10分鐘,而不是60分鐘,同樣的速度是每小時(shí)12美元)。分?jǐn)?shù)越高越好:10%的HYPE∞表示只有10%的圖像欺騙了人,而50%的人則表示人們偶然會(huì)誤認(rèn)為真實(shí)和虛假圖像,從而使虛假圖像與真實(shí)圖像無(wú)法區(qū)分。超過(guò)50%的分?jǐn)?shù)表明是超現(xiàn)實(shí)的圖像,因?yàn)樵u(píng)估者錯(cuò)誤的圖像的概率大于偶然性。HYPE∞向每個(gè)評(píng)估者顯示總共100張圖像:50張真實(shí)圖像和50張假圖像。我們計(jì)算錯(cuò)誤判斷的圖像比例,并將K圖像上n個(gè)評(píng)價(jià)者的判斷匯總,得出給定模型的最終得分。
設(shè)計(jì)一致可靠
為了確保我們報(bào)告的分?jǐn)?shù)是一致和可靠的,我們需要從模型中充分抽樣,并雇用、鑒定和適當(dāng)支付足夠的評(píng)估人員。
采樣足夠的模型輸出。從特定模型中選擇要評(píng)估的K圖像是公平和有用評(píng)估的關(guān)鍵組成部分。我們必須對(duì)足夠多的圖像進(jìn)行采樣,以充分捕捉模型的生成多樣性,同時(shí)在評(píng)估中平衡這一點(diǎn)與可跟蹤成本。我們遵循現(xiàn)有的工作,通過(guò)從每個(gè)模型中抽取k=5000個(gè)生成圖像和從訓(xùn)練集中抽取k=5000個(gè)真實(shí)圖像來(lái)評(píng)估生成輸出。從這些樣本中,我們隨機(jī)選擇要給每個(gè)評(píng)價(jià)者的圖像。
評(píng)估人員的質(zhì)量。為了獲得一個(gè)高質(zhì)量的評(píng)估人員庫(kù),每個(gè)人都需要通過(guò)一個(gè)資格鑒定任務(wù)。這種任務(wù)前過(guò)濾方法,有時(shí)被稱(chēng)為面向人的策略,其性能優(yōu)于執(zhí)行任務(wù)后數(shù)據(jù)過(guò)濾或處理的面向過(guò)程的策略。我們的鑒定任務(wù)顯示100個(gè)圖像(50個(gè)真實(shí)圖像和50個(gè)假圖像),沒(méi)有時(shí)間限制。評(píng)估人員必須正確分類(lèi)65%的真實(shí)和虛假圖像。該閾值應(yīng)被視為一個(gè)超參數(shù),并可能根據(jù)教程中使用的GANs和所選評(píng)估者的期望識(shí)別能力而改變。我們根據(jù)100個(gè)答案中65個(gè)二項(xiàng)選擇答案的累積二項(xiàng)式概率選擇65%:只有千分之一的概率評(píng)價(jià)者有資格通過(guò)隨機(jī)猜測(cè)。
與任務(wù)本身不同的是,虛假的資格圖像是從多個(gè)不同的GANs抽取出的,以確保所有主體都具有公平的主體資格。資格鑒定是偶爾進(jìn)行的,這樣一批評(píng)估人員就可以根據(jù)需要評(píng)估新的模型。
付款。評(píng)估人員的基本工資為1美元,用于完成資格鑒定任務(wù)。為了激勵(lì)評(píng)估人員在整個(gè)任務(wù)中保持參與,資格認(rèn)證后的所有進(jìn)一步薪酬都來(lái)自每幅正確標(biāo)記的圖像0.02美元的獎(jiǎng)金,通常總計(jì)工資為12美元/小時(shí)。
實(shí)驗(yàn)1:人臉的HYPEtime和HYPE∞
我們報(bào)告了HYPEtime的結(jié)果,并證明HYPE∞的結(jié)果與HYPEtime的結(jié)果接近,只是成本和時(shí)間的一小部分。
HYPEtime
CelebA-64。我們發(fā)現(xiàn)StyleGANtrunc的HYPE得分最高(模式曝光時(shí)間),平均為439.3毫秒,這表明評(píng)估者需要近半秒的曝光來(lái)準(zhǔn)確分類(lèi)StyleGANtrunc圖像(表??)StyleGANtrunc之后是ProGAN,速度為363.7毫秒,時(shí)間下降17%。BEGAN 和WGAN-GP都很容易被識(shí)別為假的,因此它們?cè)诳捎玫淖钚∑毓鈺r(shí)間100毫秒左右排在第三位。BEGAN 和WGAN-GP都表現(xiàn)出一種觸底效應(yīng)——快速一致地達(dá)到最小曝光時(shí)間100毫秒。
為了證明模型之間的可分性,我們報(bào)告了單向方差分析(ANOVA)測(cè)試的結(jié)果,其中每個(gè)模型的輸入是每個(gè)模型的30個(gè)評(píng)估者的模式列表。ANOVA結(jié)果證實(shí)存在統(tǒng)計(jì)學(xué)上顯著的綜合差異(F(3,29)=83.5,P<0.0001)。使用Tukey測(cè)試進(jìn)行的成對(duì)事后分析證實(shí),除了BEGAN 和?WGAN-GP (n.s.).之外,所有模型對(duì)都是可分離的(所有p<0.05)。
FFHQ-1024.我們發(fā)現(xiàn),StyleGANtrunc的曝光時(shí)間比StyleGANno-trunc高,分別為363.2 毫秒和240.7 毫秒(表1)。雖然95%的置信區(qū)間代表2.7 毫秒的保守重疊,但未配對(duì)的t-test證實(shí)兩種模型之間的差異是顯著的(t(58)=2.3,p=0.02)。
HYPE常數(shù)
CelebA-64。表2是CelebA-64的HYPE∞結(jié)果。我們發(fā)現(xiàn)StyleGANtrunc使得HYPE∞得分最高,50.7%會(huì)欺騙評(píng)估者。StyleGANtrunc之后是ProGAN,為40.3%,開(kāi)始于10.0%,WGAN-GP為3.8%。無(wú)重疊的置信區(qū)間,方差分析檢驗(yàn)顯著(F(3,29)=404.4,P<0.001)。成對(duì)的事后Tukey檢驗(yàn)表明,所有的模型對(duì)都是可分離的(p<0.05)。值得注意的是,HYPE∞導(dǎo)致了BEGAN 和?WGAN-GP的可分離結(jié)果,而在HYPEtime中,由于自下而上的影響,它們不可分離。

表2:在CelebA-64上訓(xùn)練的四個(gè)GANs上的HYPE∞。與直覺(jué)相反,真實(shí)誤差隨著假圖像上的誤差而增加,因?yàn)樵u(píng)價(jià)者變得更加困惑,兩種分布之間的區(qū)分因素變得更加難以辨別。
FFHQ-1024.我們觀察到StyleGANtrunc和StyleGANno-trunc之間的一致可分離性差異,以及模型之間的清晰輪廓(表3)。HYPE∞將StyleGANtrunc(27.6%)排在StyleGANtrunc(19.0%)之上,沒(méi)有重疊的CIs??煞蛛x性通過(guò)未配對(duì)t檢驗(yàn)(t(58)=8.3,p<0.001)得到確認(rèn)。

表3:FFHQ-1024培訓(xùn)的StyleGANtrunc和StyleGANno-trunc上的HYPE∞。評(píng)價(jià)者經(jīng)常被StyleGANtrunc欺騙。
準(zhǔn)確度和時(shí)間的成本權(quán)衡
HYPE的目標(biāo)之一是節(jié)約成本和時(shí)間。當(dāng)運(yùn)行HYPE時(shí),在準(zhǔn)確性和時(shí)間以及準(zhǔn)確性和成本之間有一個(gè)內(nèi)在的權(quán)衡。這是由大量法律驅(qū)動(dòng)的:在眾包任務(wù)中招聘額外的評(píng)估人員通常會(huì)產(chǎn)生更一致的結(jié)果,但成本更高(因?yàn)槊總€(gè)評(píng)估人員的工作都是付費(fèi)的),而且完成的時(shí)間更長(zhǎng)(因?yàn)楸仨氄衅父嗟脑u(píng)估人員,并且必須完成他們的工作)。
為了處理這種權(quán)衡,我們?cè)赟tyleGANtrunc上運(yùn)行了一個(gè)HYPE∞實(shí)驗(yàn)。我們用60個(gè)評(píng)估者完成了一個(gè)額外的評(píng)估,并計(jì)算了95%的自舉置信區(qū)間,從10到120個(gè)評(píng)估者中進(jìn)行選擇(圖4)。我們看到CI開(kāi)始聚集大約30名評(píng)估人員,這是我們推薦的要招聘的評(píng)估人員數(shù)量。

圖4:更多評(píng)估者對(duì)CI的影響
對(duì)評(píng)估人員的付款按照“方法”一節(jié)中的描述進(jìn)行計(jì)算。在30個(gè)評(píng)估者中,在一個(gè)模型上運(yùn)行HYPEtime的成本約為360美元,而在同一個(gè)模型上運(yùn)行HYPE∞的成本約為60美元。兩項(xiàng)任務(wù)的每個(gè)評(píng)估人員的報(bào)酬約為12美元/小時(shí),評(píng)估人員平均花在一項(xiàng)HYPE任務(wù)上的時(shí)間為一小時(shí),在HYPE∞任務(wù)上花費(fèi)的時(shí)間為10分鐘。因此,HYPE∞的目標(biāo)是在保持一致性的同時(shí),運(yùn)行起來(lái)要比HYPEtime便宜得多。
與自動(dòng)化指標(biāo)的比較
由于FID是最常用的無(wú)條件圖像生成評(píng)估方法之一,因此有必要在相同的模型上將HYPE與FID進(jìn)行比較。我們還比較了兩個(gè)新的自動(dòng)化指標(biāo):KID,一個(gè)獨(dú)立于樣本大小的無(wú)偏估計(jì)量,以及F1/8(精度),它獨(dú)立的捕獲保真度。我們通過(guò)Spearman秩次相關(guān)系數(shù)表明,HYPE分?jǐn)?shù)與FID不相關(guān)(ρ=-0.029,p=0.96),其中-1.0的Spearman相關(guān)性是理想的,因?yàn)檩^低的FID和較高的HYPE分?jǐn)?shù)表示更強(qiáng)的模型。因此,我們發(fā)現(xiàn),F(xiàn)ID與人類(lèi)的判斷并不高度相關(guān)。同時(shí),HYPE時(shí)間和HYPE∞之間具有很強(qiáng)的相關(guān)性(ρ=1.0,p=0.0),其中1.0是理想的,因?yàn)樗鼈兪侵苯酉嚓P(guān)的。我們通過(guò)評(píng)估CelebA-64和FFHQ-1024的50K生成和50K真實(shí)圖像的標(biāo)準(zhǔn)協(xié)議計(jì)算FID,重現(xiàn)StyleGANno-trunc的分?jǐn)?shù)。Kid(ρ=?0.609,p=0.20)和精度(ρ=0.657,p=0.16)均顯示出與人類(lèi)的統(tǒng)計(jì)上不顯著但中等水平的相關(guān)性。
模型訓(xùn)練時(shí)的HYPE∞
HYPE也可以用來(lái)評(píng)估模型培訓(xùn)的進(jìn)展。我們發(fā)現(xiàn)隨著StyleGAN訓(xùn)練的進(jìn)展,HYPE∞分?jǐn)?shù)從4k時(shí)的29.5%上升到9k時(shí)的45.9%,到25k時(shí)的50.3%(f(2,29)=63.3,p<0.001)。
實(shí)驗(yàn)2:人臉以外的HYPE∞
現(xiàn)在我們轉(zhuǎn)到另一個(gè)流行的圖像生成任務(wù):對(duì)象。實(shí)驗(yàn)1表明,HYPE∞是HYPEtime的一個(gè)有效且具有成本效益的變體,這里我們只關(guān)注HYPE∞。
ImageNet-5
我們?cè)u(píng)估了五個(gè)ImageNet類(lèi)上的條件圖像生成(表4)。我們還報(bào)告了FID、KID和F1/8(精度分?jǐn)?shù)。為了評(píng)估每個(gè)對(duì)象類(lèi)中三個(gè)GAN的相對(duì)有效性,我們計(jì)算了五個(gè)單向方差分析,每個(gè)對(duì)象類(lèi)一個(gè)方差分析。我們發(fā)現(xiàn),對(duì)于來(lái)自三個(gè)簡(jiǎn)單類(lèi)的圖像,HYPE∞分?jǐn)?shù)是可分離的:薩摩耶(狗)(F(2,29)=15.0,p<0.001),檸檬(F(2,29)=4.2,p=0.017),和圖書(shū)館(F(2,29)=4.9,p=0.009)。配對(duì)后驗(yàn)表明,這一差異僅在SN-GAN和兩個(gè)BigGAN變體之間有顯著性。我們還觀察到,模型具有不同的優(yōu)勢(shì),例如SN-GAN更適合生成圖書(shū)館而不是薩摩耶。

表4:在ImageNet上訓(xùn)練的三個(gè)模型上的HYPE∞和在五種類(lèi)別里有條件抽樣。BigGAN的表現(xiàn)通常優(yōu)于SN-GAN。BigGANtrunc和BigGANno-trunc不可分離。
與自動(dòng)化指標(biāo)的比較。所有三個(gè)GANs的Spearman秩次相關(guān)系數(shù)在所有五個(gè)分類(lèi)中均顯示,HYPE∞分?jǐn)?shù)與KID(ρ=-0.377,p=0.02)、FID(ρ=-0.282,p=0.01)之間存在一個(gè)低到中等的相關(guān)性,與精度的相關(guān)性可忽略不計(jì)(ρ=-0.067,p=0.81)。我們的ImageNet-5任務(wù)需要一些相關(guān)性,因?yàn)檫@些度量使用預(yù)訓(xùn)練的ImageNet嵌入來(lái)測(cè)量生成數(shù)據(jù)和實(shí)際數(shù)據(jù)之間的差異。
有趣的是,我們發(fā)現(xiàn)這種相關(guān)性依賴(lài)于GAN:僅考慮SN-GAN,我們發(fā)現(xiàn)KID(ρ=?0.500,p=0.39)、FID(ρ=?0.300,p=0.62)和精度(ρ=?0.205,p=0.74)的系數(shù)更強(qiáng)。當(dāng)只考慮BigGAN時(shí),我們發(fā)現(xiàn)FID(ρ=?0.151,p=0.68)、FID(ρ=?0.067,p=0.85)和精度(ρ=?0.164,p=0.65)的系數(shù)要弱得多。這說(shuō)明了這些自動(dòng)度量的一個(gè)重要缺陷:它們與人類(lèi)關(guān)聯(lián)的能力取決于度量正在評(píng)估的生成模型,根據(jù)模型和任務(wù)而變化。
CIFAR-10
針對(duì)CIFAR-10上無(wú)條件生成的困難任務(wù),我們?cè)趯?shí)驗(yàn)1中使用了相同的四種模型體系結(jié)構(gòu):CelebA-64。表5顯示HYPE∞能夠?qū)tyleGANtrunc與早期的BEGAN, WGAN-GP, 和ProGAN分離,這表明StyleGAN是其中第一個(gè)在CIFAR-10無(wú)條件對(duì)象生成方面取得人類(lèi)可感知進(jìn)展的。

表5:CIFAR-10上的四種型號(hào)。StyleGANtrunc可以從CIFAR-10生成逼真的圖像。
與自動(dòng)化指標(biāo)的比較。所有四個(gè)GAN的Spearman秩次相關(guān)系數(shù)均為中等,但統(tǒng)計(jì)學(xué)上不顯著,與KID(ρ=-0.600,p=0.40)和FID(ρ=0.600,p=0.40)和精度(ρ=-800,p=0.20)的相關(guān)性。
討論與結(jié)論
預(yù)期用途。我們創(chuàng)造了一個(gè)HYPE作為解決方案,人類(lèi)對(duì)生成模型的評(píng)估。研究人員可以上傳他們的模型,獲得分?jǐn)?shù),并通過(guò)我們的在線部署比較進(jìn)展。在高使用率期間(如比賽),retainer模式允許在10分鐘內(nèi)使用HYPE∞進(jìn)行評(píng)估,而不是默認(rèn)的30分鐘。
局限性:HYPE的擴(kuò)展可能需要不同的任務(wù)設(shè)計(jì)。在文本生成(翻譯、標(biāo)題生成)的情況下,HYPE需要對(duì)感知時(shí)間閾值進(jìn)行更長(zhǎng)、更大范圍的調(diào)整。除了測(cè)量真實(shí)性之外,其他指標(biāo),如多樣性、過(guò)度擬合、糾纏度、訓(xùn)練穩(wěn)定性、計(jì)算和樣本效率,都是可以納入但不在本文范圍內(nèi)的額外基準(zhǔn)。有些可能更適合全自動(dòng)評(píng)估。
結(jié)論:HYPE為生成模型提供了兩個(gè)人類(lèi)評(píng)估基準(zhǔn):
(1)以心理物理學(xué)為基礎(chǔ),
(2)提供產(chǎn)生可靠結(jié)果的任務(wù)設(shè)計(jì),
(3)單獨(dú)的模型性能,
(4)具有成本和時(shí)間效率。
我們引入兩個(gè)基準(zhǔn):使用時(shí)間感知閾值的HYPEtime和報(bào)告無(wú)時(shí)間限制的錯(cuò)誤率的HYPE∞。我們展示了我們的方法在六種模型中的圖像生成效果:StyleGAN、Sn-GAN、BigGAN、ProGAN、Begin、WGAN-gp、四種圖像數(shù)據(jù)集Celeba-64、FFHQ-1024、CIFAR-10、ImageNet-5,以及兩種采樣方法。{有、無(wú)截?cái)嗉记蓕。
-
圖像
+關(guān)注
關(guān)注
2文章
1096瀏覽量
42309 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1236瀏覽量
26178 -
李飛飛
+關(guān)注
關(guān)注
0文章
20瀏覽量
3725
原文標(biāo)題:李飛飛等ICLR2019論文:構(gòu)建人類(lèi)眼睛感知評(píng)估
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
人類(lèi)視覺(jué)感知方式對(duì)VR的挑戰(zhàn)
認(rèn)知無(wú)線電頻譜感知與分配技術(shù)
谷歌AI中國(guó)中心落地北京 李飛飛、李佳率領(lǐng)
李開(kāi)復(fù)對(duì)話(huà)李飛飛:人工智能帶來(lái)的改變很大但還不能理解復(fù)雜的知識(shí)
人工智能首席科學(xué)家李飛飛代表谷歌發(fā)布新API產(chǎn)品
李飛飛卸任斯坦福AI負(fù)責(zé)人 “以人為本”新項(xiàng)目啟動(dòng)
李飛飛又多了一個(gè)新的身份——斯坦福以人為本人工智能研究院的聯(lián)合主任
ICLR 2019在官網(wǎng)公布了最佳論文獎(jiǎng)!
ICLR 2019最佳論文日前揭曉 微軟與麻省等獲最佳論文獎(jiǎng)項(xiàng)
Chip Huyen總結(jié)ICLR 2019年的8大趨勢(shì) RNN正在失去研究的光芒
CVPR 2019最佳論文公布了:來(lái)自CMU的辛?xí)?b class='flag-5'>等人合作的論文獲得最佳論文獎(jiǎng)
近日,李飛飛接受CNBC專(zhuān)訪:認(rèn)為智能和價(jià)值觀都可以由人類(lèi)灌輸給機(jī)器
系統(tǒng)從感知到認(rèn)知的意義
李飛飛最新解碼空間智能,DePIN破局最后一米,AIoT即將綻放異彩
李飛飛等人ICLR2019論文構(gòu)建人類(lèi)眼睛感知評(píng)估(HYPE),帶給你新的認(rèn)知
評(píng)論