倍可親

回復: 0
列印 上一主題 下一主題

超越CLIP的多模態模型,只需不到1%的訓練數據!南加大最新研究來了

[複製鏈接]
匿名
跳轉到指定樓層
樓主
匿名  發表於 2022-8-9 12:14 回帖獎勵 |倒序瀏覽 |閱讀模式
火爆全網的AI繪畫你玩了嗎?女媧無限版、DALL·E2、Imagen……這些通過文字生成圖像的AI繪畫工具,背後的原理都是一個叫「CLIP」的模型,它是AI如何「理解」人類語義這一問題的關鍵。<br />
CLIP (Contrastive Language–Image Pre-training) ,是一種基於對比的圖片-文本學習的跨模態預訓練模型,由OpenAI於去年1月發布。它好用是好用,但一個大問題是數據需求太大:4億個圖像文本對、256個GPU,這對許多公司和個人都很不友好。<br />
對此,南加州大學的最新研究發現了一種基於本體的課程學習 (Curriculum Learning) 演演算法,只需不到1%的訓練數據就能達到CLIP同款效果,甚至在圖像檢索方面表現更好。新方法名為TOnICS (Training with Ontology-Informed Contrastive Sampling) ,相關論文已上傳到arXiv。<br />
CLIP的模型結構其實非常簡單:包括兩個部分,即文本編碼器和圖像編碼器。兩者分別編碼后,將文本和視覺嵌入映射到相同空間中,使用對比學習的思想,將匹配的圖片-文本Embedding的距離拉近,將不匹配的Embedding拉遠。<br />
在此基礎上,TOnICS沒有選擇從頭訓練圖像和文本編碼器,而是把單模態預訓練模型BERT用於文本編碼,微軟的VinVL用於圖像編碼,並使用InfoNCE損失函數將它們彼此
您需要登錄后才可以回帖 登錄 | 註冊

本版積分規則

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2025-7-18 08:19

快速回復 返回頂部 返回列表