陳根：SAM和IA撞出的驚艷火花

陳根談科技 2023-04-22 發(fā)布于陜西

展開全文

文/陳根

SAM一點，便可將內容分割出來；再由IA一鍵，圖像修補完成。

4月初，由Meta發(fā)布的史上首個圖像分割基礎模型——SAM（Segment Anything Model）一上線，便得到了用戶的高度贊賞。短短幾天，SAM 的 GitHub 倉庫的Star數(shù)高達26k。

那么，SAM到底是何方神器呢？

作為一種基于卷積神經網絡的圖像分割模型，SAM主要通過計算相鄰像素之間的相似度來實現(xiàn)圖像分割。其核心思想是將每個像素的上下文信息與其自身進行比較，以確定其應該屬于哪個類別。為此，SAM 使用兩個不同的卷積層來計算每個像素與其周圍像素之間的相似度。第一個是空間卷積層，計算像素之間的空間關系；第二個是通道卷積層，計算像素之間的相似度。

SAM 還使用了一種稱為空間親和力機制的技術來進一步提高圖像分割的準確性。所謂空間親和力機制，是指通過計算每個像素與其鄰居之間的相似度來評估像素之間的空間關系，然后將這些相似度值轉換成空間親和力矩陣。該矩陣被用來調整每個像素之間的相似度，從而更好地捕捉像素之間的空間依賴關系。

當SAM遇上圖像修補任務，又會碰撞出怎樣的燦爛火花呢？

來自中國科學技術大學和東方理工高等研究院的研究團隊給出了令人驚艷的答案?；赟AM，他們首次嘗試無需掩碼的圖像修復，并構建了“點擊再填充”的圖像修補新范式，被稱為“修補一切”（Inpaint Anything，簡稱IA）模型。

在IA模型中，SAM發(fā)揮著兩方面的應用功能：

首先，SAM通過對圖像進行分割，提取需要修復的區(qū)域；其次，SAM利用其在圖像分割中的優(yōu)秀表現(xiàn)和空間親和力機制幫助模型更好地理解圖像的語義信息，從而提高圖像修補的準確性和效果。區(qū)別于傳統(tǒng)圖像修補模型，IA 模型無需精細化操作生成掩碼，只要一鍵點擊，標記選定對象，即可實現(xiàn)移除一切物體（Remove Anything）、填補一切內容（Fill Anything）、替換一切場景（Replace Anything），涵蓋了包括目標移除、目標填充、背景替換等在內的多種典型圖像修補應用場景。

結合了SAM、LaMa和AIGC等視覺基礎模型的IA，真正意義上實現(xiàn)了對用戶操作友好的無掩碼化圖像修復，同時支持“點擊刪除，提示填充”等“傻瓜式”人性化操作。未來，研究者將進一步挖掘IA的潛力以支持更多實用的新功能。