機(jī)器人能否像人類一樣感知時間?新研究使用強(qiáng)化學(xué)習(xí)賦予時間感知
首先,他們提出了一個稱之為KnowIT(knowledge informated temporal)VQA的視頻數(shù)據(jù)集。該數(shù)據(jù)集源自電視劇生活大爆炸(The Big Bang Theory),其中包含了眾多知識問答。KnowIT擁有24000多個人工生成的問答對,并將視覺、文本和時間與基于知識的問題相結(jié)合。其次,他們提出了一個視頻理解模型,將視頻的視覺和文本內(nèi)容與特定的節(jié)目知識結(jié)合起來。
他們發(fā)現(xiàn):
知識的結(jié)合為視頻中的VQA帶來了顯著改進(jìn);KnowIT VQA的性能仍然落后于人類的準(zhǔn)確性,這表明它對于研究當(dāng)前視頻建模的局限性是有所幫助的。
他們的工作表明了基于知識的模型在視頻理解問題中的巨大潛力,這些模型將會為將自然語言處理(NLP)和圖像理解的進(jìn)步結(jié)合發(fā)揮重大作用。
該框架證明,視頻理解和基于知識的推理都是回答問題所必需的。它能夠檢索并融合語言和視頻的時空域,以便對問題進(jìn)行推理,從而來預(yù)測正確答案。
但相比于人類的表現(xiàn),(該框架)仍存在著很大差距。研究人員希望該數(shù)據(jù)集將有助于在該領(lǐng)域開發(fā)更魯棒的模型。
原文:
https://arxiv.org/abs/1910.10706v3
用強(qiáng)化學(xué)習(xí)教機(jī)器人感知時間
眾所周知,人類和動物的大腦具有負(fù)責(zé)時間認(rèn)知的不同區(qū)域,而機(jī)器人則根據(jù)將時間視為外部實(shí)體(例如時鐘)的算法來執(zhí)行任務(wù)。是否有可能從生物學(xué)上激發(fā)時間感知機(jī)制,并在機(jī)器人中重現(xiàn)它們呢?
在這項(xiàng)工作中,研究人員觀察了大腦用來負(fù)責(zé)時間感知的計(jì)時機(jī)制。他們利用貝葉斯推斷得出的結(jié)果來預(yù)估數(shù)據(jù)的時間流逝,并利用TD學(xué)習(xí)特征表示來訓(xùn)練代理成功完成與時間相關(guān)的任務(wù)。由于選擇了代表時間的特征,他們表明,在這種情況下,他們能夠?yàn)榇硖峁┮环N類似人類和動物所經(jīng)歷的時間流失的感知。
本文的主要貢獻(xiàn):
提出了一種從機(jī)器人傳感器收集環(huán)境數(shù)據(jù)的建模方法;在特定假設(shè)下,可以從數(shù)據(jù)中獲得正確的時間估算;成功將時間認(rèn)知機(jī)制應(yīng)用于強(qiáng)化學(xué)習(xí)問題當(dāng)中;賦予機(jī)器人在與時間有關(guān)的任務(wù)中復(fù)制動物行為的能力。
這項(xiàng)工作提出了一種為代理提供時間認(rèn)知的過程。對機(jī)器人來說,對于時間的感知能夠讓它們像人類一樣,在不同的環(huán)境和人物中學(xué)習(xí)適應(yīng)對話。該框架已被提議在未來在真正的機(jī)器人中實(shí)現(xiàn)。
原文:
https://arxiv.org/abs/1912.10113
Lite BERT:自監(jiān)督學(xué)習(xí)語言表示
在本文中,Google AI的研究人員設(shè)計(jì)了一種Lite BERT(ALBERT)架構(gòu),該架構(gòu)具有比傳統(tǒng)BERT少得多的參數(shù)。一個類似于BERT-large的ALBERT配置與前者相比,參數(shù)減少了18倍,并且訓(xùn)練速度提高了約1.7倍。
ALBERT集成了兩種參數(shù)歸約技術(shù):第一種技術(shù)是分解式嵌入?yún)?shù)化;第二種技術(shù)是跨層參數(shù)共享,它可以防止參數(shù)隨著網(wǎng)絡(luò)深度的增加而增長。這兩種技術(shù)在不嚴(yán)重影響性能的前提下大大減少了BERT的參數(shù)數(shù)量,從而提高了參數(shù)效率。
參數(shù)歸約技術(shù)也可以作為正則化的一種形式,從而穩(wěn)定訓(xùn)練并有助于泛化。
為了進(jìn)一步提高ALBERT的性能,研究人員還引入了一種自監(jiān)督的損失來進(jìn)行句子順序預(yù)測。結(jié)果,他們能夠擴(kuò)展到更大的ALBERT配置,同時這些配置的參數(shù)仍然比BERT-large少,但性能卻明顯提高,從而在GLUE、SQuAD和RACE基準(zhǔn)上為自然語言理解建立了全新的結(jié)果。
ALBERT的成功證明了它在識別模型方面的重要性,因?yàn)樗谶@些方面產(chǎn)生了強(qiáng)大且適當(dāng)?shù)谋硎尽?/span>
通過集中精力改進(jìn)模型體系結(jié)構(gòu)的這些方面,這項(xiàng)研究表明了可以在廣泛的NLP任務(wù)上極大提高模型的效率與性能。為了促進(jìn)NLP領(lǐng)域的進(jìn)一步發(fā)展,研究人員已將ALBERT開源給研究界。
代碼與預(yù)訓(xùn)練模型:
https://github.com/google-research/google-research/tree/master/albert
原文:
https://ai.googleblog.com/2019/12/albert-lite-bert-for-self-supervised.html
有序還是無序?讓我們重新審視用于視頻的人物身份識別
基于視頻的人員身份“再識別”方法是近些年來計(jì)算機(jī)視覺領(lǐng)域中一個熱門研究方向,因?yàn)樗梢酝ㄟ^充分利用時空信息來達(dá)到更好的識別結(jié)果。
在本文中,研究人員提出了一種簡單但十分驚艷的VPRe-id方法,他們將VPRe-id視為基于圖像的人員重新識別問題的有效無序集合。
具體來說,研究人員們將一段視頻劃分為許多個單獨(dú)的圖像,然后對這些圖像中出現(xiàn)的人進(jìn)行識別和排序、并重新組合出最終結(jié)果。他們以i.i.d.假設(shè)為前提,提供了一個錯誤邊界用于闡明改進(jìn)VPRe-id的方式。
這項(xiàng)工作還提出了一種很有前景的方,可以彌合視頻和人物信息重新識別結(jié)果之間的差距。研究人員們對這個差距進(jìn)行評估,證明了他們所提出的這一方案在多個數(shù)據(jù)集(包括iLIDS-VID、PRID 2011、和MARS)中都達(dá)到了業(yè)界領(lǐng)先的水平。
基于視頻的人物重新識別非常重要,因?yàn)樗谝曈X監(jiān)視和取證等領(lǐng)域有著廣泛應(yīng)用。這項(xiàng)工作通過將VPReid視為一個進(jìn)行無序整體排名的任務(wù),提出了一種簡單而強(qiáng)大的人物重新識別的解決方案。其中,每個基本排名都由一個具有單個人員身份的標(biāo)識符來體現(xiàn)。
該解決方案通過使用RNN輸出在不同時間步長上的時間池中的多個特征表示,學(xué)習(xí)了無序表示,研究人員認(rèn)為這對于VPRe-id更為重要。結(jié)果也證明了我們可以從不同角度解決VPRe-id這一事實(shí)。