騰訊研究院AI速遞 20240607
生成式AI
一、 高通亮出AI PC軟硬件全家桶,聯(lián)手微軟建立AI PC新標準
1. 高通攜手微軟推出的Copilot+PC系列,成為AI PC新生態(tài)的重要推動(dòng)力;
2. 高通的驍龍X系列處理器,特別是NPU技術(shù),在性能和能效方面顯著(zhù)領(lǐng)先,成為AI PC實(shí)現顛覆性體驗的核心;
3. 高通通過(guò)廣泛的生態(tài)合作,與華碩、戴爾、惠普、聯(lián)想等公司合作推出基于驍龍X系列的AI PC產(chǎn)品,加速市場(chǎng)布局,領(lǐng)先蘋(píng)果一步。
021yin.com/s/OU3GFM_jS2BeRu3ToVy-JQ
二、 斯坦福讓“GPU高速運轉”的嵌入式CUDA工具ThunderKittens
1. 斯坦福設計了ThunderKittens工具,內核代碼僅100行,性能比FlashAttention-2提升30%,優(yōu)化了H100 GPU的效率;
2. ThunderKittens利用寄存器和共享內存的tiles抽象,簡(jiǎn)化AI內核編寫(xiě),充分發(fā)揮底層硬件能力,實(shí)現高硬件利用率;
3. 研究揭示了H100 GPU的特性,如WGMMA指令的復雜內存布局、共享內存的訪(fǎng)問(wèn)延遲和TMA指令的異步數據傳輸的重要性。
021yin.com/s/sRm7sfVQqXVJygc3AGJ3xQ
三、 OpenAI首次公開(kāi)前沿大模型安全策略:基礎架構、保護措施等
1. OpenAI首次公開(kāi)大模型安全策略,涵蓋基礎架構、保護措施、敏感數據存儲和訪(fǎng)問(wèn)管理;
2. 使用Azure Entra ID和Kubernetes進(jìn)行身份驗證和管理,確保最小權限訪(fǎng)問(wèn)和安全網(wǎng)絡(luò )策略;
3. 引入AccessManager服務(wù)管理敏感數據訪(fǎng)問(wèn),多方批準機制保護模型權重,定期進(jìn)行安全紅隊測試和合規評估。
021yin.com/s/8jJ-ytZob74HiurMRD2aoQ
四、 快手版Sora「可靈」開(kāi)放測試:生成超120s視頻,更懂物理
1. 快手推出的可靈大模型支持生成超120秒的高清視頻,能準確模擬復雜運動(dòng)和物理特性;
2. 可靈采用類(lèi)Sora的Transformer架構,結合自研技術(shù)實(shí)現高效計算和高質(zhì)量視頻生成;
3. 可靈已在快影APP中開(kāi)放測試,支持多種控制信息輸入,并推出了AI舞王等多項應用。
021yin.com/s/-knHZA4AU47EkkzIO7O18A
五、 “中國版Sora”視頻大模型Vidu重大更新,32秒音視頻合成
1. Vidu視頻大模型更新,實(shí)現32秒視頻生成,支持音視頻合成及4D內容生成;
2. Vidu采用Diffusion與Transformer融合架構U-ViT,實(shí)現1080P高清視頻生成,具備高動(dòng)態(tài)性和時(shí)空一致性;
3. Vidu模型繼續迭代,提升長(cháng)時(shí)長(cháng)和多模態(tài)能力,獲得數億元融資,推動(dòng)技術(shù)與產(chǎn)業(yè)應用深度融合。
021yin.com/s/zOsgAm8v-C44qWhz-TSUsw
六、 開(kāi)源音頻模型Stable Audio Open,文本生成47秒高清音效
1. Stability.ai開(kāi)源Stable Audio Open,用戶(hù)可通過(guò)文本生成最多47秒、44.1kHz的高質(zhì)量音效,包括鋼琴、笛子、鼓點(diǎn)和模擬人聲;
2. Stable Audio Open支持數據微調,音樂(lè )人可根據自身數據定制音效,生成的音效具備商業(yè)許可;
3. 模型使用近50萬(wàn)個(gè)錄音數據訓練,支持英文提示詞,提供時(shí)間、擴散步數和CFG控制,但目前僅限學(xué)術(shù)研究使用。
021yin.com/s/bz0rtEwNyUWdlz8_3b40LQ
七、 Seed-TTS:幾乎完美接近人類(lèi)的文本到語(yǔ)音(TTS)模型
1. Seed-TTS是字節開(kāi)發(fā)的高級文本到語(yǔ)音模型,生成的語(yǔ)音幾乎無(wú)法與人類(lèi)區分,適用于小說(shuō)和視頻配音;
2. 支持情感、語(yǔ)調、說(shuō)話(huà)風(fēng)格等多種屬性的控制,能生成富有表現力的語(yǔ)音,滿(mǎn)足不同場(chǎng)景需求;
3. 具備Zero-shot能力和語(yǔ)音內容編輯功能,無(wú)需訓練數據即可生成高質(zhì)量語(yǔ)音,并支持語(yǔ)音內容和速度的靈活調整。
021yin.com/s/40y1jFJlFFjxoUWkgjnJbw
八、 Meta 翻譯大殺器NLLB200登上Nature:翻譯質(zhì)量提高44%
1. Meta發(fā)布No Language Left Behind (NLLB)模型,支持200種語(yǔ)言翻譯,質(zhì)量提升44%,尤其在低資源語(yǔ)言上表現顯著(zhù);
2. NLLB-200采用稀疏門(mén)控專(zhuān)家混合(MoE)架構,通過(guò)動(dòng)態(tài)激活專(zhuān)家網(wǎng)絡(luò )優(yōu)化多語(yǔ)言任務(wù)的處理性能;
3. 項目使用創(chuàng )新的數據挖掘和多語(yǔ)言吉印通訓練方法,提高了低資源語(yǔ)言的翻譯性能,并集成有害內容檢測器以確保安全性。
021yin.com/s/YXBOrAxN56azQSi-vbst-g
前沿科技
九、 揭秘100年全球海洋脫氧,上交大通過(guò)人工智能重建「窒息的海洋」
1. 上海交大團隊開(kāi)發(fā)OxyGenerator模型,利用AI重建1920至2023年全球海洋溶解氧數據,重建性能超越傳統數值模式;
2. 模型顯示過(guò)去百年溶解氧最小值區域面積擴大三倍,揭示海洋脫氧趨勢對生態(tài)系統的影響;
3. OxyGenerator采用多層感知機、雙向LSTM和自適應分區圖消息傳遞機制,結合海洋學(xué)知識,顯著(zhù)提升重建精度。
021yin.com/s/57IZHBKqYp_sV9DX7bTyhw
報告觀(guān)點(diǎn)
十、 “AI 熱會(huì )逐漸降溫,AGI 普及不了多少場(chǎng)景!”對話(huà)《Core Java》作者 Cay Horstmann
1. Cay Horstmann認為AI熱潮將逐漸降溫,AGI普及場(chǎng)景有限,AI工具如Copilot可以輔助但不會(huì )取代人類(lèi)開(kāi)發(fā)者;
2. 強調學(xué)習多種編程語(yǔ)言的重要性,精通一種語(yǔ)言并掌握快速學(xué)習其他語(yǔ)言的能力更為關(guān)鍵;
3. 建議開(kāi)發(fā)者通過(guò)開(kāi)源項目和實(shí)際工作積累經(jīng)驗,并注重理解軟件工程和業(yè)務(wù)需求,倡導持續學(xué)習和實(shí)踐。
021yin.com/s/EjBdhK-22LuypcrX5vbCJQ
??訂閱下方合集,獲取每日推送