Stable Diffusion 3 Medium 開(kāi)源,AI 生圖格局迎來(lái)巨變
就在剛剛,Stable Diffusion 3 Medium 如約而至。
幾天前,Stability AI 在社交平臺 X 上官宣,SD3 Medium 將在 6 月 12 日正式開(kāi)源。
這一次,沒(méi)有跳票,它是真的來(lái)了。
20 億參數大小,筆記本也能玩轉 SD3 Medium
據 Stability AI 官方博客介紹,SD3 Medium 模型包含 20 億個(gè)參數,能夠生成更高質(zhì)量、更細膩的圖像。
得益于模型較小的尺寸,SD3 Medium 尤其適合在消費類(lèi) PC 和筆記本電腦以及企業(yè)級 GPU 上運行。
SD3 Medium 特點(diǎn)如下:
克服常見(jiàn)的手部和面部瑕疵,無(wú)需復雜工作流程即可提供高質(zhì)量圖像。
理解涉及空間關(guān)系、構圖元素、動(dòng)作和風(fēng)格的復雜提示。
在生成文本方面取得前所未有的成果,無(wú)人工痕跡和拼寫(xiě)錯誤。
低 VRAM 占用,適用于標準消費級 GPU,也不會(huì )降低性能。
能夠從小數據集吸收細微細節,使其非常適合定制。
在訓練 SD3 Medium 上,Stability AI 花了不少心思。
據介紹, Stability AI 采用合成數據和篩選過(guò)的公開(kāi)數據來(lái)訓練模型。
Stability AI 在 10 億張圖片吉印通行了預訓練。微調數據集包含 3000 萬(wàn)張針對特定視覺(jué)內容和風(fēng)格的高質(zhì)量美學(xué)圖片,以及 300 萬(wàn)張基于偏好的數據圖片。
像所有模型一樣,該模型有時(shí)也會(huì )「三觀(guān)不正」,輸出生成一些不準確、有偏見(jiàn)或有害的內容。
為此,Stability AI 對 SD3 Medium 做了很多檢查工作,包括讓專(zhuān)業(yè)團隊(像紅隊測試那樣)從內外部找問(wèn)題。
在訓練模型時(shí),Stability AI 給 AI 用的數據也都是精心挑選過(guò)的。
Stability AI 還特別強調,所有使用者都得遵守 SD3 Medium 的使用規則,按照自己產(chǎn)品的要求和規定來(lái)設置防護措施,防止傳播不良內容。
附上 Hugging Face 項目地址:
AI 生圖迎來(lái)史詩(shī)級進(jìn)化,網(wǎng)友玩瘋了
第一波下載模型的網(wǎng)友已經(jīng)開(kāi)始玩瘋了。
X 用戶(hù) @recatm 讓 SD3 Medium 生成的骷髏頭,光影效果處理得當,明暗對比也拉滿(mǎn)了。
在他看來(lái),SD3 Medium 還解決了兩大難題,一是色彩過(guò)猛、對比度太狠,以往逼真肖像分分鐘變「辣眼照」的尷尬,二是解決了 jpg 偽影、像素渣和糊一臉的朦朧美等問(wèn)題。
向左滑動(dòng)查看更多內容
老人臉上的褶子和衣服的質(zhì)感,細膩得讓人想伸手去摸一摸,很難讓人相信這居然是 AI 生成的,
冰塊與陽(yáng)光的浪漫邂逅,晶瑩透亮,美得讓人心顫,仿佛每一縷光線(xiàn)都是大自然的調色盤(pán)。
輪廓的鮮明、色彩的巧妙搭配,獅子像素畫(huà)在有限的像素中達到了尚可的表現力。
網(wǎng)友 @toyxyz3 分享的照片更是直觀(guān)地展示了 Stable Diffusion 模型的進(jìn)化軌跡,不過(guò),各花入各眼,相比之下,你更喜歡哪個(gè)版本生成的圖片。
向左滑動(dòng)查看更多內容
Stability AI 官方也在博客中曬出了一些 SD3 Medium 的得意之作。
從樣張中也可以看到,生成的圖片具有極高的逼真度,色彩搭配十分和諧,幾乎可以與真實(shí)拍攝的照片相媲美。
又比如,以前生成圖片文字足以讓人頭大,但點(diǎn)滿(mǎn)文字渲染技能的 SD3 Medium ,也不再輕易「亂碼」了。
開(kāi)源界的英雄,卻成了最先倒下的明星公司?
從 SDXL、Stable Audio、Stable Video ,再到今天升級的 SD3 Medium,在過(guò)去的一年里,Stability AI 發(fā)布的產(chǎn)品可謂是一波接一波。
但與產(chǎn)品穩定的發(fā)布節奏截然相反的是,這家公司的技術(shù)團隊動(dòng)蕩不斷,高層及技術(shù)人才像走馬燈似地換。
全球最大 AI 開(kāi)源社區 Hugging Face 首席執行官曾預言,2024 年某個(gè)當紅的 AI 公司會(huì )破產(chǎn),或者以極低的價(jià)格被收購。
現在,幾乎大部分人都認為 Stability AI 最有可能成為這個(gè)應驗者。
說(shuō)到這兒,就不能不提一嘴 Stability AI 的前 CEO Emad Mostaque。
Mostaque 的上份職業(yè)是對沖基金經(jīng)理,大部分時(shí)間在搞石油交易,雖然擁有計算機科學(xué)學(xué)位,但之前從未創(chuàng )辦或入職科技公司,還有說(shuō)大話(huà)和搶功勞的毛病。
比如,他在融資時(shí)將亞馬遜稱(chēng)為「戰略合作伙伴」,其實(shí)兩者只是普通的甲乙方。
他說(shuō) Stability 正在為數十家客戶(hù)構建定制 AI 模型,但被問(wèn)到具體的名字時(shí),只透露了一家印度控股公司和一個(gè)非洲國家。
更迷的是,明明公司已經(jīng)資金困難,Mostaque 和他曾經(jīng)擔任公關(guān)主管的妻子,與公司財務(wù)之間的關(guān)系還不清不楚。
而出走 Stability AI 后,Mostaque 又開(kāi)始了新的創(chuàng )業(yè)項目,業(yè)務(wù)方向將集中在政務(wù)、醫療保健和教育,他介紹道「將大模型想象為一名畢業(yè)生——你仍然需要對他們進(jìn)行工作培訓?!?/p>
高管和人才走得走、散得散,Stability AI 自己能不能穩住陣腳,仍是個(gè)未知數。但今天的主角 SD3 Medium 也用實(shí)際行動(dòng)給外界一個(gè)響亮的回答。
要知道,在這 AI 圈子里,一開(kāi)始大家都愛(ài)聽(tīng)故事,夢(mèng)想、未來(lái)啥的隨便聊,瑕疵也能睜一只眼閉一只眼。
但現在光靠畫(huà)大餅可不夠,得拿出真本事,才能讓投資者心甘情愿掏腰包,
Stability AI 依然稱(chēng)得上開(kāi)源英雄,但跟 Midjourney 一比,日子過(guò)得緊巴巴的,這也是目前開(kāi)源模型所面臨的窘境。
開(kāi)源雖美,但公司得先生存,才能談發(fā)展嘛。