當前位置:首頁(yè) > 百科 > 正文內容

全球首度引入AI!騰訊AVS3P10引領(lǐng)語(yǔ)音通信變革

印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

通信世界網(wǎng)消息(CWW)在信息時(shí)代的浪潮中,實(shí)時(shí)語(yǔ)音通信的質(zhì)量和效率始終是人們追求的重要目標。騰訊主導的新一代實(shí)時(shí)語(yǔ)音編碼標準AVS3P10的誕生,為這一領(lǐng)域帶來(lái)了突破性的進(jìn)展,開(kāi)啟了語(yǔ)音通信的全新篇章。

編碼器有多重要?騰訊為何要自研AVS3P10標準?AVS3P10標準的出現將為行業(yè)帶來(lái)哪些影響?近日,通信世界全媒體記者采訪(fǎng)到了AVS工作組的幾位專(zhuān)家,詳細介紹了AVS3P10的技術(shù)創(chuàng )新與產(chǎn)業(yè)價(jià)值。

AVS3P10的誕生之路

30多年前,國際電聯(lián)ITU對理想中的遠距離通訊的定義:哪怕兩個(gè)人在地球的兩端,隔著(zhù)這么遠,希望能夠彼此聽(tīng)見(jiàn)對方的內容,且延遲能夠在40毫秒以?xún)?。然而,直到現在也沒(méi)有很好地解決這個(gè)問(wèn)題,一個(gè)重要原因就是編碼器。

對此,騰訊會(huì )議天籟實(shí)驗室專(zhuān)家研究員、AVS3-P10標準Editor肖瑋表示,語(yǔ)音通信中的關(guān)鍵技術(shù)之一是語(yǔ)音壓縮,而傳統編碼器在低碼率下難以保證高質(zhì)量的語(yǔ)音傳輸,這成為了行業(yè)面臨的挑戰。為了在保證用戶(hù)優(yōu)質(zhì)體驗的前提下,實(shí)現低碼率下的高質(zhì)量語(yǔ)音編碼,同時(shí)解決低算力和魯棒性的問(wèn)題,騰訊開(kāi)啟了新的編碼器研發(fā)之旅。

AVS3P10標準并非一蹴而就,而是騰訊多年來(lái)持續研發(fā)和探索的結晶。早在多年前,騰訊就已經(jīng)開(kāi)始了相關(guān)的內部研發(fā)工作,并在多個(gè)應用場(chǎng)景中進(jìn)行了實(shí)踐和優(yōu)化。

“最初,騰訊與AI Lab合作建立了基線(xiàn),并不斷進(jìn)行優(yōu)化?!毙が|激動(dòng)地介紹,經(jīng)過(guò)努力,即使在低至5.9K的碼率下,也能實(shí)現四點(diǎn)幾分的高質(zhì)量語(yǔ)音效果。這一成果為將技術(shù)推向產(chǎn)品線(xiàn)奠定了基礎。

過(guò)去幾年,這一方案已在騰訊會(huì )議、吉印通13816211622的語(yǔ)音通話(huà)場(chǎng)景應用,展現出了出色的穩定性和音質(zhì)表現。無(wú)論是在復雜的網(wǎng)絡(luò )環(huán)境中,還是在高速移動(dòng)的交通工具上,都能讓用戶(hù)獲得清晰、流暢的音頻通信體驗。

然而,騰訊并未滿(mǎn)足于此,為了推動(dòng)行業(yè)的共同發(fā)展,決定將這一技術(shù)標準化。從2023年3月的提議,到經(jīng)歷多輪會(huì )議的審議、測試和驗證,AVS3P10標準逐漸完善,并于2024年6月完成標準化工作,即將正式發(fā)布。這一過(guò)程中,騰訊展現出了強大的技術(shù)實(shí)力和高效的推進(jìn)能力,被AVS工作組評價(jià)為做到了標準制定速度最快,標準交付質(zhì)量最高,測試得到充分好評。

全球首度引入AI!騰訊AVS3P10引領(lǐng)語(yǔ)音通信變革

5G乃至未來(lái)更強的通信技術(shù)發(fā)展,帶來(lái)了更豐富的帶寬資源,但在現實(shí)情況中總是會(huì )有弱網(wǎng)情況的出現,通過(guò)高效的編解碼技術(shù)可以為這些技術(shù)帶來(lái)更可靠有效的基礎支持、抗性提升,針對不同網(wǎng)絡(luò )條件下保障實(shí)時(shí)通信的穩定性。

創(chuàng )新引入AI,弱網(wǎng)也能開(kāi)會(huì )、語(yǔ)音

在日常的視頻會(huì )議、網(wǎng)絡(luò )通話(huà)和游戲連麥等場(chǎng)景中,復雜的聲學(xué)環(huán)境、設備性能和網(wǎng)絡(luò )信號等因素常常影響用戶(hù)體驗。AVS3P10標準致力于在同等帶寬資源下提供更好的聲音質(zhì)量,在保持音質(zhì)的同時(shí)降低帶寬消耗。

騰訊云副總裁、騰訊會(huì )議天籟實(shí)驗室主任商世東介紹,作為全球首個(gè)系統性引入人工智能并實(shí)現真正意義上的低碼率下高質(zhì)量語(yǔ)音編碼標準,AVS3P10的表現達到國際一流水準。僅需現有主流標準1/3的編碼碼率,就能實(shí)現同等清晰的音質(zhì)。

AVS3P10標準之所以能夠實(shí)現如此出色的性能,其核心在于將AI與傳統技術(shù)深度融合,它將經(jīng)典信號處理與最新的深度學(xué)習技術(shù)緊密結合,打破了傳統香農定律的性能極限。

具體而言,通過(guò)語(yǔ)音信號建模,AVS3P10能夠提取最核心的特征參數并進(jìn)行編碼。在發(fā)送端,利用深度學(xué)習網(wǎng)絡(luò )預測語(yǔ)音中的本征信息,經(jīng)過(guò)壓縮傳輸后,在接收端通過(guò)深度學(xué)習網(wǎng)絡(luò )生成最終的波形。與傳統信號處理方法相比,AVS3P10系統性地引入人工智能技術(shù),只需提取更少的本征信息就能恢復高質(zhì)量語(yǔ)音。

這種“碼率”和“算力”的置換關(guān)系,使得在保證高質(zhì)量的前提下,AVS3P10能夠以更低的碼率實(shí)現高效的語(yǔ)音編碼。在同等網(wǎng)絡(luò )條件下,其發(fā)生網(wǎng)絡(luò )擁塞的概率更低,在網(wǎng)絡(luò )不佳時(shí)表現出強大的競爭力,如降低卡頓率,提升通話(huà)的流暢度和清晰度,適應更多復雜的場(chǎng)景。

在實(shí)際測試中,AVS3P10標準表現出色。肖瑋介紹,無(wú)論是在單聲道還是立體聲編碼場(chǎng)景,都能達到4.0以上的MOS分,實(shí)現了6kbps下的高質(zhì)量通話(huà),媲美行業(yè)現有主流標準OPUS在20kbps的質(zhì)量。其自帶的丟包隱藏能力在網(wǎng)絡(luò )不佳時(shí)優(yōu)勢明顯,能夠有效提升通話(huà)的流暢度和清晰度。

優(yōu)勢顯著(zhù),AVS3P10引領(lǐng)行業(yè)創(chuàng )新

“AVS3P10實(shí)時(shí)語(yǔ)音編碼,作為新一代的語(yǔ)音編解碼技術(shù)標準,是對AVS系列標準的重要補充。該標準是當前業(yè)界的最高水平,體現了騰訊在語(yǔ)音處理、人工智能技術(shù)創(chuàng )新和用戶(hù)體驗方面的實(shí)力,將為用戶(hù)帶來(lái)更好的體驗”,AVS工作組指出。

相對傳統標準,AVS3P10的不同之處和優(yōu)勢主要體現在以下幾個(gè)方面:

抓住“重點(diǎn)”:傳統音頻編碼技術(shù)只會(huì )按照物理規則提取音頻的所有特征參數,再進(jìn)行數據壓縮,需要占用近20kbps才能保證高水平音頻質(zhì)量。Penguins引入了深度神經(jīng)網(wǎng)絡(luò ),提前進(jìn)行海量學(xué)習(語(yǔ)音建模)。在編碼時(shí)能“抓住重點(diǎn)”(音頻最核心特征參數),并根據重要性智能分配碼率。如此一來(lái),既保證了音頻傳輸質(zhì)量,又降低了網(wǎng)絡(luò )帶寬需求。

提前“對齊”:音頻傳輸需要先編碼(壓縮)再解碼(解壓),如果只在編碼時(shí)進(jìn)行重點(diǎn)區分和碼率分配,解碼后的聲音依然會(huì )失真。Penguins的深度學(xué)習網(wǎng)絡(luò )同時(shí)在編解碼兩端進(jìn)行吉印通訓練,并就“重點(diǎn)內容”提前“對齊”。在解碼時(shí),AI也能做到心中有數,從而預測并重建音頻信號的細微結構,并還原為最接近原始音頻的波形。

懂得“變通”:Penguins并非純靠自學(xué)(數據驅動(dòng)),而是懂得借助前輩(傳統編碼器)的成功經(jīng)驗(領(lǐng)域知識)來(lái)提高學(xué)習效率。在選擇深度神經(jīng)網(wǎng)絡(luò )時(shí),Penguins也懂得“變通”,模型不是越大越好,知道“小個(gè)子”才更適合自己。當大數據、大算力不再是“剛需”,便極大擺脫了對手機性能的依賴(lài),即便在中低端手機上也能順暢運行。

AVS3P10標準的制定為我國在音視頻編碼標準領(lǐng)域增添了重要的成果。AVS作為國內多媒體領(lǐng)域的重要標準化組織,其發(fā)展對于打破國際專(zhuān)利的制約、推動(dòng)我國音視頻產(chǎn)業(yè)的自主發(fā)展具有重要意義。騰訊主導的AVS3P10作為AVS標準的第三代,進(jìn)一步推動(dòng)了我國在該領(lǐng)域的發(fā)展。

對于用戶(hù)而言,意味著(zhù)在各種網(wǎng)絡(luò )環(huán)境下,包括2G弱網(wǎng)環(huán)境,都能享受到清晰流暢的語(yǔ)音通話(huà)。無(wú)論是在電梯、地庫、隧道等信號薄弱的地方,還是在高速移動(dòng)的交通工具上,線(xiàn)上會(huì )議和語(yǔ)音通話(huà)不再受到卡頓和模糊音質(zhì)的困擾,極大地提升了用戶(hù)體驗。

對于行業(yè)來(lái)說(shuō),AVS3P10標準為語(yǔ)音通信技術(shù)樹(shù)立了新的標桿,推動(dòng)了行業(yè)的技術(shù)進(jìn)步。作為全球首個(gè)系統性引入人工智能的低碼率高質(zhì)量語(yǔ)音編碼標準,它為其他企業(yè)和研究機構提供了新的思路和方向,促進(jìn)了整個(gè)行業(yè)的創(chuàng )新發(fā)展。

對于騰訊自身,AVS3P10標準的成功研發(fā)和標準化進(jìn)一步提升了其在語(yǔ)音處理和人工智能領(lǐng)域的技術(shù)地位和影響力。

總之,騰訊新一代實(shí)時(shí)語(yǔ)音編碼標準AVS3P10的誕生是語(yǔ)音通信領(lǐng)域的一個(gè)重要里程碑,它將以其卓越的技術(shù)性能和廣泛的應用價(jià)值,為人們的生活和工作帶來(lái)更加便捷、高效、清晰的語(yǔ)音通信體驗,引領(lǐng)行業(yè)走向更加美好的未來(lái)。

收藏0

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
亚洲午夜av天堂_亚洲产国久久无码_亚洲欧美制服丝袜精品久久_91精品成人国产在线不卡