• <samp id="cu8wc"><s id="cu8wc"></s></samp>
    • 黨史學習教育

    VR基礎理論的新進展——全景視頻視覺注意力模型的構建

    2018-09-14

    導語:

    2018年7月16日,人工智能與機器學習領域頂級期刊《模式分析與機器智能匯刊(IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI))》(影響因子:9.455)接收了我校電子信息工程學院王祖林教授、徐邁副教授的最新研究成果“強化學習在預測視覺注意力范圍中的模型構建”。學生作者為2014級本科生宋宇航、王建伊、樵明朗,教師作者為徐邁和王祖林,北京航空航天大學為論文唯一單位。  

    制定標準時的思維火花

    徐邁副教授的團隊一直在參與VR(虛擬現實技術)標準的制定,到目前已經參與了四次VR標準制定的會議,多項提案被國際標準采納。VR中最重要的一環就是全景視頻的處理與傳輸。由多個不同角度的鏡頭來錄制全景信息,并對畫面進行拼接,形成能顯示空間所有方位的視覺圖像,這樣的視頻就是全景視頻。全景視頻需要非常高的分辨率支持(如8K甚至16K),才能實現用戶身臨其境的沉浸式體驗。

    圖1.全景視頻  

    在參與VR相關標準制定的過程中,徐邁副教授認為,當前的標準主要分為兩個方向---球面映射和用戶體驗,因此,一直帶領團隊致力于提升用戶體驗和解決相關實際問題。高分辨率視頻的處理需要消耗大量的計算資源和通信帶寬,而由于VR頭盔自身計算能力和無線傳輸帶寬的限制。如何在保持視頻質量不變的前提下,減少處理和傳輸的數據規模,提升用戶體驗,就成為了當前全景視頻及VR研究的重點問題。針對這一問題,徐邁副教授帶領他的團隊展開了探索。

    實驗室強項與問題結合

    人眼有數十億的視錐視桿細胞,相當于十多億像素高清相機,而眼部與大腦之間的神經節細胞僅為數萬個,相當于數據傳輸速率只有8Mbps,這說明說大腦并沒有全部處理所有圖像數據,而是選擇性地處理了一些區域,而這些區域就被稱為感知區域。根據人眼工作機理,建立全景視頻注意力模型就成為了團隊的重要研究工作。

    在觀看全景視頻的時候, 人類通過控制頭部運動從而來控制視野范圍,進而產生身臨其境的交互式沉浸體驗。因此,預測頭部運動是構建全景視頻注意力模型的關鍵。該論文首次建立了一個全景視頻注意力的數據庫,獲得58名被測者觀看76個全景視頻序列時的頭動及眼動位置。經過四個月的數據清洗和處理,通過對頭動數據的追蹤,形成每個視頻逐幀的熱點圖。最終,論文首次揭示了人類觀看全景視頻的視覺機理。

    圖2.不同算法預測結果對比  

    在對熱點圖分析后,團隊發現,盡管不同的人觀看同一內容時感知區域存在一定差異,但與視頻內容依然具有強關聯性?;诖?,可構建預測模型,預測人類觀看全景視頻時的頭動位置。而這種模型的構建機理,又與強化學習方法有本質上的聯系。因此,他們提出一種新型的深度強化學習(DRL)模型,構建智能體模擬人類行為,預測人類觀看全景視頻時的頭部運動。首次提出全景視頻視場熱點圖的生成方法,可離線地預測全景視頻視場,并提出一種全景視頻的在線生成方法,可在線實時預測全景視頻視場。最后,實驗結果驗證:與傳統算法相比,論文提出的算法所預測視野熱點圖,CC(和真實結果的相關系數)精度提升超過20%。論文對全景視頻的壓縮,渲染,感知,有著廣泛的應用場景,為提升全景視頻用戶體驗提供了理論支撐。

    圖3.全景視頻視覺注意力模型示意圖

    圖4.對中心偏見取不同標準差和權重系數下預測結果的CC值擬合曲面  

    本科生科研與不懈探索

    此項研究成果完全由三個本科生在徐邁副教授的指導下完成,徐邁副教授對他們有很高的評價:“本科生有較強的研究積極性,同時在齊心協力合作上表現很好,雖然學位上比起其他的投稿人欠缺一些說服力,但最終結果還是好的?!比煌瑢W表示,在他們的首次科研過程中遇到了很多困難,徐邁副教授非常認真負責的幫助他們解決遇到的每一個問題,經常凌晨一兩點發出的問題都能迅速的收到詳盡的回復和解答;每周都要集體開會討論進度、所遇到的問題和接下來的方向;在論文第一次收到大修意見后,徐邁副教授鼓勵大家繼續努力,并且和他們一起對論文進行了數次修改,才最終被接收。

    結語:

    新思路與新視角會帶來新的變革,使用不同于傳統信號處理的深度學習和強化學習等多種方法,徐邁副教授和他的團隊從新的角度完成了對全景視頻視覺注意力模型的構建,實現了全景視頻所需計算資源與通信帶寬的壓縮,為VR大規模實用化提供了非常有利的條件,有很廣的應用價值。接下來他們將會繼續將研究深入下去,逐步解決在實際應用中所遇到的問題,進一步改善全景視頻的用戶體驗。除了在全景視頻領域進行了開創性的研究外,徐邁副教授和他的研究團隊也在對包括圖像、普通視頻的各方面進行著提升用戶體驗的研究。相信在未來,他們能繼續在這個領域取得更多的突破性成果。

     

    該論文得到了國家自然科學基金及北航青年拔尖人才基金的支持。  

    論文鏈接:https://ieeexplore.ieee.org/document/8418756/

    項目鏈接:  https://github.com/YuhangSong/DHP

     

    文案:曾嘉琪、曹嘉輝

    采訪:曾嘉琪

    設計:楊彥卓

    編審:北航門戶網站總編總監工作室

    投稿:geoos@buaa.edu.cn
     



    審核:審核人參數配置未打開 編輯:曹嘉輝

    最近新聞




    免费看男人的嘴添女人下身
  • <samp id="cu8wc"><s id="cu8wc"></s></samp>