【
儀表網(wǎng) 研發(fā)快訊】 計算機(jī)視覺(Computer Vision)是人工智能領(lǐng)域的重要分支,旨在讓計算機(jī)像人一樣“看”懂圖像和視頻,在城市安全、智能駕駛、工業(yè)制造等方面具有廣泛應(yīng)用價值。隨著移動互聯(lián)網(wǎng)的快速發(fā)展以及各類視頻拍攝設(shè)備的加速普及,如何“更細(xì)、更快、更準(zhǔn)”地完成各類視覺任務(wù)成為領(lǐng)域發(fā)展的重要方向,亟需更高的“算力”來支撐。然而實際應(yīng)用中,算力始終有限,致使前沿視覺算法難以落地。因此,如何在不損失精度和粒度的前提下,減少視覺任務(wù)的算力需求,是攻克領(lǐng)域痛點、加速應(yīng)用落地的關(guān)鍵,具有研究意義。
鑒于此,中國石油大學(xué)青島軟件學(xué)院、計算機(jī)科學(xué)與技術(shù)學(xué)院陳程立詔教授團(tuán)隊以仿生智能為手段,參考視腦交叉、視覺余暉、瞬時記憶等能夠使人類在復(fù)雜環(huán)境中快速、準(zhǔn)確地聚焦“重要內(nèi)容”的生理機(jī)制,提出系列仿生視覺顯著性方法,大幅改善對復(fù)雜環(huán)境的感知粒度,提升對重要目標(biāo)的檢測精度,并降低后繼高層次視覺任務(wù)的算力開銷。相關(guān)成果已在IEEE Transactions on Pattern Analysis and Machine Intelligence《IEEE模式分析與機(jī)器智能匯刊》、IEEE Transactions on Circuits and Systems for Video Technology《IEEE視頻技術(shù)電路與系統(tǒng)匯刊》、IEEE Transactions on Intelligent Transportation Systems《IEEE智能交通系統(tǒng)匯刊》、IEEE Transactions on Vehicular Technology《IEEE車輛技術(shù)匯刊》、IEEE Transactions on Instrumentation and Measurement《IEEE儀器與測量匯刊》、AAAI《人工智能大會》、Science China Information Sciences《中國科學(xué):信息科學(xué)》等多個人工智能領(lǐng)域重要刊物和會議發(fā)表。相關(guān)研究工作得到山東省自然科學(xué)基金優(yōu)秀青年項目、國家自然科學(xué)基金面上項目、青年項目、山東省青創(chuàng)團(tuán)隊項目支持。
全景視頻導(dǎo)航是類腦視覺研究中的關(guān)鍵應(yīng)用,旨在通過模擬人類大腦的視覺處理機(jī)制,優(yōu)化沉浸式視頻內(nèi)容的語義表達(dá)與導(dǎo)航效率。針對全景視頻導(dǎo)航可用監(jiān)督數(shù)據(jù)稀缺痛點,團(tuán)隊提出了一種全新的弱監(jiān)督學(xué)習(xí)方法,通過模擬人類語義驅(qū)動的注意力分配與高階認(rèn)知表征過程,精準(zhǔn)捕獲全景視頻內(nèi)容的語義重要性,構(gòu)建了能夠精準(zhǔn)評估和優(yōu)先排序語義重要性的導(dǎo)航框架,為降低后繼高層次虛擬現(xiàn)實應(yīng)用的算力開銷提供了創(chuàng)新理論支持。該研究成果以“Saliency-Free and Aesthetic-Aware Panoramic Video Navigation”為題發(fā)表在人工智能領(lǐng)域影響力最高的期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》。陳程立詔教授是論文第一作者。
在全景視頻中,常用的注視收集方式是佩戴頭戴式
顯示器(HMD)自由瀏覽并記錄注視點。但由于用戶無法持續(xù)旋轉(zhuǎn)頭部,采集的數(shù)據(jù)往往局限于局部視野,難以全面反映整體重要性。為此,團(tuán)隊提出了WinDB(全景視頻動態(tài)模糊輔助窗口方法),無需HMD即可無盲區(qū)采集注視數(shù)據(jù),更準(zhǔn)確呈現(xiàn)整體重要性。基于WinDB,團(tuán)隊構(gòu)建了一個全新的大規(guī)模數(shù)據(jù)集,并系統(tǒng)性揭示了頻繁且密集的“注視點轉(zhuǎn)移”現(xiàn)象。相關(guān)成果以“WinDB: HMD-Free and Distortion-Free Panoptic Video Fixation Learning”為題發(fā)表在《IEEE Transactions on Pattern Analysis and Machine Intelligence》上。陳程立詔教授是論文唯一通訊作者。
主流的視覺顯著性檢測方法常采用弱監(jiān)督技術(shù)來降低學(xué)習(xí)過程對有標(biāo)注數(shù)據(jù)的需求,但面對復(fù)雜場景,以人工方式進(jìn)行像素級標(biāo)注費時費力,可用于模型訓(xùn)練的數(shù)據(jù)始終不足。針對這一問題,團(tuán)隊提出了一種輕量級的標(biāo)注方法——“點”標(biāo)注——用戶僅需要用鼠標(biāo)在圖片上標(biāo)注幾個離散的點,就能達(dá)到和傳統(tǒng)像素級精細(xì)標(biāo)注近似(98%~99%)的模型訓(xùn)練效果。新方法能夠極大地豐富可用監(jiān)督數(shù)據(jù),緩解數(shù)據(jù)饑渴痛點。相關(guān)成果以“Pixel is All You Need: Adversarial Spatio-Temporal Ensemble Active Learning for Salient Object Detection”為題發(fā)表在《IEEE Transactions on Pattern Analysis and Machine Intelligence》上。陳程立詔教授是論文唯一通訊作者。
視頻異常檢測旨在在復(fù)雜動態(tài)環(huán)境中準(zhǔn)確識別出異常行為。針對現(xiàn)有方法在處理場景相關(guān)異常時普遍存在的泛化能力弱、上下文理解不足的問題,團(tuán)隊提出了一種基于知識圖譜的場景-動作解耦與交織模型。該模型通過引入場景與動作解耦機(jī)制,分別提取干凈的背景場景與人體骨骼動作特征,并構(gòu)建知識圖譜對二者的復(fù)雜關(guān)系進(jìn)行顯式建模。隨后,模型利用特征交織策略融合場景與動作信息,生成更具語義理解的異常評分,同時通過不確定性優(yōu)化機(jī)制,進(jìn)一步提高了邊界樣本的檢測精度和模型泛化性能。相關(guān)成果以“Unveiling Context-Related Anomalies: Knowledge Graph Empowered Decoupling of Scene and Action for Human-Related Video Anomaly Detection”為題發(fā)表在《IEEE Transactions on Circuits and Systems for Video Technology》上。陳程立詔教授是論文第一作者。
圖像質(zhì)量評估旨在預(yù)測圖像在各種失真條件下的感知質(zhì)量得分。傳統(tǒng)研究通常將自然圖像與屏幕內(nèi)容圖像分開處理,分別針對其獨特的內(nèi)容與失真特性設(shè)計獨立模型。然而,由于兩類圖像在內(nèi)容組成、失真類型及主觀評分
標(biāo)準(zhǔn)等方面存在顯著差異,現(xiàn)有方法難以實現(xiàn)自然圖像與屏幕圖像質(zhì)量評估任務(wù)之間的聯(lián)合提升。針對這一挑戰(zhàn),研究團(tuán)隊提出了一種統(tǒng)一的圖像質(zhì)量評估框架UNI-IQA,通過引入內(nèi)容感知數(shù)據(jù)切換模塊,首次在自然圖像與屏幕圖像之間實現(xiàn)了基于內(nèi)容區(qū)域劃分的端到端相互促進(jìn)學(xué)習(xí)。相關(guān)成果以“UNI-IQA: A Unified Approach for Mutual Promotion of Natural and Screen Content Image Quality Assessment”為題發(fā)表在《IEEE Transactions on Circuits and Systems for Video Technology》上。陳程立詔教授是論文唯一通訊作者。
RGB-D顯著性目標(biāo)檢測(SOD)作為計算機(jī)視覺中的重要任務(wù),廣泛應(yīng)用于自動駕駛、交通監(jiān)控等場景。然而,現(xiàn)有方法模型多基于通用數(shù)據(jù)集訓(xùn)練,在面對特定交通場景時存在嚴(yán)重的領(lǐng)域偏移問題,導(dǎo)致檢測性能顯著下降。針對這一挑戰(zhàn),研究團(tuán)隊提出了一種面向交通場景的RGB-D SOD領(lǐng)域自適應(yīng)方法,通過弱監(jiān)督方式自動構(gòu)建高質(zhì)量的可訓(xùn)練數(shù)據(jù)集,顯著提升模型在特定場景下的檢測能力,在常規(guī)數(shù)據(jù)集和實際交通數(shù)據(jù)集上均取得了優(yōu)異性能。相關(guān)成果以“Adapting Generic RGB-D Salient Object Detection for Specific Traffic Scenarios”為題發(fā)表在《IEEE Transactions on Intelligent Transportation Systems》上。陳程立詔教授是論文第一作者。
特征選擇是全景導(dǎo)航中的關(guān)鍵步驟,旨在從原始數(shù)據(jù)中篩選出最相關(guān)、最有用的特征,以提升導(dǎo)航性能。團(tuán)隊提出一種任務(wù)意識的特征選擇模型,該模型利用不同任務(wù)傾向特征的類型,構(gòu)造最優(yōu)的特征選擇方案,并通過分析特征與任務(wù)相關(guān)性,采用了特征路由機(jī)制。此外,根據(jù)不同任務(wù)和特征的關(guān)系,設(shè)計了相互自我訓(xùn)練策略,顯著提升了模型的性能。相關(guān)成果以“SiamTADT: A Task-Aware Drone Tracker for Aerial Autonomous Vehicles”為題發(fā)表在《IEEE Transactions on Vehicular Technology》上。陳程立詔教授是論文唯一通訊作者。
全景圖像(360°圖像)中的物體排序是全景感知與圖像檢索中的關(guān)鍵問題,旨在對場景中所有物體進(jìn)行精細(xì)化重要性排序。針對現(xiàn)有顯著性排序方法僅關(guān)注顯著物體、忽略非顯著重要物體的問題,研究團(tuán)隊提出了一種面向360°場景的“細(xì)粒度”重要性排序方法(FOIR-360)。該方法通過局部視角劃分與迭代抹除策略生成高質(zhì)量偽標(biāo)簽,結(jié)合局部排名聚合與多標(biāo)簽融合機(jī)制,訓(xùn)練出具備端到端預(yù)測能力的PanoRank網(wǎng)絡(luò),實現(xiàn)全景物體的重要性排序。同時,研究團(tuán)隊制定了新的注釋協(xié)議,建立了首個細(xì)粒度全景排序數(shù)據(jù)集360Rank,有效促進(jìn)了任務(wù)標(biāo)準(zhǔn)化發(fā)展。相關(guān)成果以“Fine-Grained Perception in Panoramic Scenes: A Novel Task, Dataset, and Method for Object Importance Ranking”為題發(fā)表在《AAAI2025》(國際人工智能大會)上。陳程立詔教授是論文唯一通訊作者。
近年來,陳程立詔教授主要從事仿生視覺顯著性方面的研究工作,牽頭組建了山東省優(yōu)秀青年創(chuàng)新團(tuán)隊,承擔(dān)山東省自然科學(xué)基金優(yōu)秀青年項目,國家自然科學(xué)基金面上、青年項目等10余項,以第一或通訊作者發(fā)表IEEE/ACM系列匯刊論文45篇、CCFA類(CCF A 類期刊和會議通常代表計算機(jī)領(lǐng)域內(nèi)具有最高學(xué)術(shù)水平和影響力的出版物)論文29篇,引用3000+,獲評第十四屆青島市青年科技獎、山東省人工智能優(yōu)秀青年獎、山東省人工智能自然科學(xué)二等獎、ACM中國新星獎(青島),連續(xù)入選全球前2%頂尖科學(xué)家榜單,在仿生智能領(lǐng)域形成了一定的國際影響力。
所有評論僅代表網(wǎng)友意見,與本站立場無關(guān)。