国产精品无人区无码AV片软件,无码中文av波多野吉衣,污污内射在线观看一区二区少妇,色色av资源网

快速發布求購 登錄 注冊
行業資訊行業財報市場標準研發新品會議盤點政策本站速遞

重慶研究院在自然語言問答的視頻理解研究中取得進展

研發快訊 2024年05月04日 19:30:03來源:重慶綠色智能技術研究院 19500
摘要本研究方法能夠在無需建立參數量龐大的特征提取以及交互模型,且在不借助于大規模視覺文本數據對預訓練的情況下,取得與現有方法相比更好或相當的推理表現。

  【儀表網 研發快訊】現有自然語言問答的視頻理解研究大多采用離線特征提取方式來進行問答推理,然而這種離線的處理方式存在一些缺陷:(1)視頻或文本特征提取器通常是在其他任務上進行訓練的,與目標任務存在差異,如將行為識別數據集上訓練的特征提取器直接用于視頻問答任務顯然不是最優的。(2)各個特征提取器通常是在各自領域數據集上單獨進行訓練,得到的模態特征之間缺乏聯系。(3)為提升問答推理表現,這類方法通常需借助于復雜的特征提取器或文本分析工具以更有效地處理視頻或問題。因此,采取端到端的方式來對自然語言問題和視頻內容進行學習是解決上述缺陷的一種有效途徑。盡管近年來提出的端到端方法通過同時學習特征提取與多模態信息交互,并在問答推理上取得了優異的識別表現。然而,這些方法主要關注于構建參數量龐大的模型以及探索如何利用大規模視覺文本語料庫的預訓練來提升任務性能,而這通常需要耗費大量的計算資源,且在數據標注和模型訓練上具有較高的人力成本。
 
  我院研究團隊針對現有研究方法存在的上述問題,提出了一種高效的端到端視頻和語言聯合學習方法。該方法結合了現有研究中所驗證的局部空間信息和時間動態特性對于提升問答推理準確性的幫助,通過設計金字塔式視頻和語言交互結構,將視頻分解成具有不同粒度的空間和時間特征,并堆疊多個多模態 Transformer層提取其與問題之間的交互,實現了視頻和文本之間的局部和全局依賴關系提取。此外,為更充分地利用各層上的局部和全局交互特征,該方法設計了一種基于上下文匹配的橫向連接操作以及多步損失約束,以逐步地實現局部和全局語義完整的交互特征的提取。
 
方法框架圖
 
  本研究方法能夠在無需建立參數量龐大的特征提取以及交互模型,且在不借助于大規模視覺文本數據對預訓練的情況下,取得與現有方法相比更好或相當的推理表現。同時在模型參數量和計算效率上具有顯著優勢。相關成果發表在人工智能頂會議AAAI Conference on Artificial Intelligence(CCF A類)上。上述工作得到國家自然科學基金項目的支持。

我要評論
文明上網,理性發言。(您還可以輸入200個字符)

所有評論僅代表網友意見,與本站立場無關。

延伸閱讀
版權與免責聲明
  • 凡本網注明"來源:儀表網"的所有作品,版權均屬于儀表網,未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明"來源:儀表網"。違反上述聲明者,本網將追究其相關法律責任。
  • 本網轉載并注明自其它來源的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點或證實其內容的真實性,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品來源,并自負版權等法律責任。
  • 如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。
  • 合作、投稿、轉載授權等相關事宜,請聯系本網。聯系電話:0571-87759945,QQ:1103027433。
廣告招商
今日換一換
新發產品更多+

客服熱線:0571-87759942

采購熱線:0571-87759942

媒體合作:0571-87759945

  • 儀表站APP
  • 微信公眾號
  • 儀表網小程序
  • 儀表網抖音號
Copyright ybzhan.cn    All Rights Reserved   法律顧問:浙江天冊律師事務所 賈熙明律師   儀表網-儀器儀表行業“互聯網+”服務平臺
意見反饋
我知道了