當前位置: CNMO > 新聞 > 新聞 > 消息 > 正文

更實用 谷歌人工智能可對圖像插入對象

CNMO 【編譯】 作者:Lisa,杜躍 杜躍 2018-12-11 15:20
評論(0
分享

  【手機中國新聞】使用后期制作軟件,在場景中真實地放置東西對計算機來說,比對人來說要困難得多。它不僅要求為所述對象確定適當?shù)奈恢茫乙箢A測目標位置上的對象的外觀、比例、遮擋、姿態(tài)、形狀等。

  幸運的是,人工智能(AI)承諾提供幫助。NeurIPS 2018會議上的一篇論文中(上下文感知合成和匹配對象實例),首爾國立大學的研究人員,加州大學默塞德,和谷歌AI描述一個系統(tǒng),學會把一個對象插入一個圖像,在語義上,令人信服 。

  在符合場景語義的圖像中插入對象是一項具有挑戰(zhàn)性和趣味性的任務。研究人員寫道,這項任務與許多實際應用密切相關,包括圖像合成、AR和VR內容編輯。這樣的對象插入模型可以潛在地促進許多圖像編輯和場景解析應用程序。

  他們的端到端框架包括兩個模塊,決定了插入的對象,應該是和第二個決定它應該是什么樣子,利用甘斯( GANs),或兩個神經(jīng)網(wǎng)絡組成,試圖區(qū)分生成的樣本和實際樣品。由于系統(tǒng)同時對插入的圖像進行分布建模,因此兩個模塊可以相互互通并優(yōu)化。

人工智能
人工智能

  該論文的作者寫道,這項工作的主要技術新穎之處在于,它構建了一個端到端的可培訓神經(jīng)網(wǎng)絡,該網(wǎng)絡可以從新對象的聯(lián)合分布中對其可能的位置和形狀進行采樣。合成的對象實例既可以作為基于GAN的方法的輸入,也可以從現(xiàn)有數(shù)據(jù)集中檢索最近的所需部分,從而生成新的圖像。

  正如他們解釋的那樣,在這種情況下,生成器可以預測合理的位置,生成語義上一致的比例、姿勢和形狀的對象掩碼,特別是對象如何在場景中分布,以及如何自然地插入對象,以便使其看起來是場景的一部分。隨著時間的推移,在訓練過程中,AI系統(tǒng)會根據(jù)場景學習不同的對象類別分布,例如在城市街道的圖像中,人們往往在人行道上,而汽車通常在路上。

  在測試中,研究人員通過插入形狀逼真的物體,使模型優(yōu)于基線。當將YOLOv3圖像識別器應用于人工智能生成的圖像時,檢測合成目標能夠以0.79的召回率。更能說明問題的是,在對亞馬遜的(Mechanical Turk)公司員工進行的一項調查中,43%的人認為人工智能生成的物體是真實的。

  研究人員寫道,這表明我們的方法能夠執(zhí)行對象合成和插入任務。由于我們的方法是在什么地方和什么東西上聯(lián)合建模的,因此可以用于解決其它計算機視覺問題。未來有趣的工作之一將是處理對象之間的遮擋。

分享

加入收藏

網(wǎng)友評論 0條評論
用其他賬號登錄:
請稍后,數(shù)據(jù)加載中...
查看全部0條評論 >
潮機范兒

Copyright © 2007 - 北京沃德斯瑪特網(wǎng)絡科技有限責任公司.All rights reserved 發(fā)郵件給我們
京ICP證-070681號 京ICP備09081256號 京公網(wǎng)安備 11010502036320號