精品一区二区三区影院在线午夜,最新精品国偷自产在线老年人

生成式 AI 火了：硅谷押注，讓你把簡單文字變成圖像甚至視頻

2022-10-10 09:30 網(wǎng)易科技

關(guān)鍵詞：AI 圖像生成

導(dǎo)讀：最近幾年興起的所謂“生成式人工智能（generative AI）”正吸引硅谷科技巨頭和風(fēng)投機構(gòu)的興趣，這種 AI 可以依據(jù)少量詞匯在幾秒鐘內(nèi)生成與之相匹配的圖像。

10 月 9 日消息，最近幾年興起的所謂“生成式人工智能（generative AI）”正吸引硅谷科技巨頭和風(fēng)投機構(gòu)的興趣，這種 AI 可以依據(jù)少量詞匯在幾秒鐘內(nèi)生成與之相匹配的圖像。分析師預(yù)計，這種技術(shù)將被廣泛用于各行各業(yè)，并產(chǎn)生數(shù)萬億美元的經(jīng)濟價值。

雖然這些計算機程序生成的圖像并不完美，比如手上出現(xiàn)多余的手指，四肢不自然的彎曲等。同時，圖像生成器在處理文本時也會遇到問題，例如生成無意義的符號等。然而，這些圖像生成程序可能是一場科技熱潮的開始。硅谷風(fēng)投機構(gòu) NextView Ventures 的投資人大衛(wèi)?貝塞爾（David Beisel）說：“在過去的三個月里，‘生成式人工智能’這個詞已經(jīng)變成了流行語?！?/p>

從 2021 年開始，生成式 AI 技術(shù)取得了巨大進步，甚至激勵許多人辭掉工作去創(chuàng)辦新公司，夢想著 AI 將來可以為新一代科技巨頭提供動力。

在過去五年左右的時間里，AI 領(lǐng)域始終處于蓬勃發(fā)展階段，但這些進步大多與理解現(xiàn)有數(shù)據(jù)有關(guān)。AI 模型已經(jīng)變得足夠高效，可以識別人們剛剛用手機拍攝的照片中是否有一只貓。此外，這些模型也足夠可靠，每天可以為谷歌搜索引擎提供數(shù)十億次搜索結(jié)果。不過，生成式 AI 模型可以生成以前沒有的全新東西。換句話說，它們是在創(chuàng)造，而不僅僅是在分析數(shù)據(jù)。

AI 與機器學(xué)習(xí)平臺 Craiyon Productive AI 的創(chuàng)建者鮑里斯?戴瑪（Boris Dayma）說：“最令人感到印象深刻的是，生成式 AI 也能創(chuàng)作新的東西。它們不僅僅是創(chuàng)造類似的舊有圖像，還可以創(chuàng)造與以前完全不同的新事物?！?/p>

硅谷知名風(fēng)投公司紅杉資本 (Sequoia Capital) 在其網(wǎng)站上發(fā)文表示：“從游戲到廣告再到法律方面，生成式 AI 可能會改變所有需要人類創(chuàng)造力發(fā)揮作用的領(lǐng)域。這種技術(shù)有可能產(chǎn)生數(shù)萬億美元的經(jīng)濟價值?！备鼮橛腥さ氖?，紅杉資本還在帖子中指出，其上述文章部分是由 GPT-3 撰寫的，后者本身就是能夠生成文本的生成式 AI。

生成式 AI 的工作原理

圖像生成使用的技術(shù)來自機器學(xué)習(xí)的一個子集，稱為深度學(xué)習(xí)。自從 2012 年一篇關(guān)于圖像分類的里程碑式論文重新點燃人們對這項技術(shù)的興趣以來，深度學(xué)習(xí)推動了 AI 領(lǐng)域的大部分進步。深度學(xué)習(xí)使用在大數(shù)據(jù)集上訓(xùn)練的模型，直到該程序理解這些數(shù)據(jù)中的關(guān)系。然后，該模型可以用于應(yīng)用程序，如識別圖片中是否有狗或翻譯文本等。

圖像生成器的工作原理就是逆轉(zhuǎn)這個過程。它們不是將英語翻譯成法語，而是將英語短語轉(zhuǎn)換成圖像。它們通常有兩個主要部分組成，一個是處理初始短語的部分，另一個是將數(shù)據(jù)轉(zhuǎn)換成圖像的部分。

第一部分生成式 AI 基于名為 Generative Adversarial Networks（生成式對抗網(wǎng)絡(luò)，簡稱 GAN）的方法。此前，這些 GAN 通常被用于生成不存在的人的照片。本質(zhì)上，它們的工作方式是讓兩個 AI 模型相互競爭，以更好地創(chuàng)建符合預(yù)定目標(biāo)的圖像。

而較新的方法通常使用轉(zhuǎn)換器，這是谷歌于 2017 年論文中首次提出的概念。這是一項新興技術(shù)，可以利用更大的數(shù)據(jù)集，盡管其培訓(xùn)成本可能高達數(shù)百萬美元。

第一個獲得大量關(guān)注的圖像生成器是 Dall-E，它是硅谷初創(chuàng)公司 OpenAI 于 2021 年推出的項目。OpenAI 今年發(fā)布了功能更強大的更新版本。專注于生成式 AI 的開發(fā)者克里斯蒂安?坎特雷爾（Christian Cantrell）說：“有了 Dall-E 2，這真的是我們跨越恐怖谷效應(yīng)（Uncanny Valley）的時刻。”

另一個常用的、基于 AI 的圖像生成器是 Craiyon，以前被稱為 Dall-E Mini，它可以在網(wǎng)絡(luò)上買到。用戶輸入短語后，可以幾分鐘內(nèi)在瀏覽器中看到其給出的繪圖。

據(jù) AI 與機器學(xué)習(xí)平臺 Craiyon Productive AI 的創(chuàng)建者戴瑪稱，自 2021 年 7 月推出以來，Craiyon 現(xiàn)在每天生成約 1000 萬張圖片，總計生成 10 億張以前從未見過的圖片。在今年早些時候使用量飆升后，戴瑪開始將全部精力投入到 Craiyon 上。他說，他專注于使用廣告來保持用戶免費使用，因為該網(wǎng)站的服務(wù)器成本很高。Craiyon 上有個推特賬號，專門發(fā)布最奇怪、最有創(chuàng)意的圖片，它擁有超過 100 萬名粉絲。

但最能激發(fā)人們熱情的項目是 Stable Diffusion，該項目于今年 8 月向公眾發(fā)布。它的代碼可以在 GitHub 上獲得，可以在電腦上運行，也可以在云端或通過編程接口運行。這讓用戶可以根據(jù)自己的目的調(diào)整程序代碼，或者在其基礎(chǔ)上構(gòu)建新程序。

舉例來說，Stable Diffusion 通過一個插件集成到 Adobe Photoshop 中，允許用戶生成背景和圖像的其他部分，然后他們可以使用圖層和其他 PS 工具直接在應(yīng)用中操作，將生成式 AI 從生成成品圖像的技術(shù)變成了專業(yè)人士可以使用的工具。

該插件的開發(fā)者坎特雷爾在 Adobe 工作了 20 年，今年辭職專注于生成式 AI。這位資深人士表示，該插件已被下載數(shù)萬次。藝術(shù)家們告訴他，他們把它用在了無數(shù)他意想不到的地方，比如制作哥斯拉的動畫，或者以藝術(shù)家可以想象的任何姿勢創(chuàng)作蜘蛛俠的圖像。

使用生成式 AI 的一種新興藝術(shù)是如何構(gòu)建“提示”，即生成圖像的短語。名為 Lexica 的搜索引擎可以將 Stable Diffusion 的圖像和可用于生成它們的確切單詞字符串聯(lián)起來。Reddit 和 Discord 等平臺上，都有如何引導(dǎo)人們輸入想要生成圖像的短語技巧。

創(chuàng)企、云服務(wù)提供商和芯片制造商或受益最大

許多投資者將生成式 AI 視為一種潛在的變革性平臺，就像智能手機或互聯(lián)網(wǎng)的早期一樣。這種轉(zhuǎn)變極大地擴大了可能能夠使用這項技術(shù)的潛在市場規(guī)模。

坎特雷爾認為，生成式 AI 類似于一種更基礎(chǔ)的技術(shù)，即數(shù)據(jù)庫。他說：“生成式 AI 有點像數(shù)據(jù)庫，數(shù)據(jù)庫幫助解鎖了應(yīng)用程序的巨大潛力。我們生活中使用過的幾乎每款應(yīng)用都是建立在數(shù)據(jù)庫之上的，但沒有人關(guān)心數(shù)據(jù)庫是如何工作的，他們只知道如何使用它。”

Compound VC 管理合伙人邁克爾?鄧普西（Michael Dempsey）表示，以前僅限于實驗室的技術(shù)進入主流的時刻“非常罕見”，吸引了風(fēng)險投資者的大量關(guān)注，他們喜歡在潛力巨大的領(lǐng)域下注。但他警告說，生成式 AI 目前處于更接近炒作周期頂峰的“好奇心階段”。處于這個階段的公司可能會倒閉，因為它們沒有專注于企業(yè)或消費者愿意付費的特定用途。

該領(lǐng)域的其他人認為，今天開創(chuàng)這些技術(shù)的初創(chuàng)公司最終可能會挑戰(zhàn)目前主導(dǎo) AI 領(lǐng)域的軟件巨頭，包括谷歌、Facebook 母公司 Meta 以及微軟，并為下一代科技巨頭的崛起鋪平道路。

Hugging Face 首席執(zhí)行官克萊門特?德蘭格（Clement Delangue）說：“將會有一大批價值萬億美元的新公司誕生，這些初創(chuàng)公司將以這種新的技術(shù)為基礎(chǔ)?！盚ugging Face 是個與 GitHub 類似的開發(fā)者平臺，托管著預(yù)先培訓(xùn)的 AI 模型，包括 Craiyon 和 Stable Diffusio。它的目標(biāo)是讓程序員更容易構(gòu)建 AI 技術(shù)。

有些公司已經(jīng)獲得了大量投資。Huging Face 在今年早些時候從 Lux Capital 和紅杉資本等投資者那里籌集了資金后，估值達到 20 億美元。該領(lǐng)域最著名的初創(chuàng)公司 OpenAI 已經(jīng)從微軟和 Khosla Ventures 獲得了超過 10 億美元的資金。與此同時，Stable Diffusion 開發(fā)商 Stability AI 正在洽談以高達 10 億美元的估值籌集風(fēng)險資金。

亞馬遜、微軟和谷歌等云服務(wù)提供商也可能受益，因為生成式 AI 可能是計算密集型技術(shù)。Meta 和谷歌已經(jīng)聘請了該領(lǐng)域諸多杰出人才，希望將這種先進技術(shù)整合到公司的產(chǎn)品中。今年 9 月，Meta 宣布了名為“Make-A-Video”的 AI 計劃，通過生成視頻而不僅僅是圖像，使這項技術(shù)更上一層樓。

Meta 首席執(zhí)行官馬克?扎克伯格（Mark Zuckerberg）在他的 Facebook 頁面上發(fā)帖稱：“這是一個令人驚嘆的進步。生成視頻比生成照片難得多，因為除了正確生成每個像素之外，系統(tǒng)還必須預(yù)測它們會隨著時間的推移發(fā)生怎樣的變化?！弊罱?，谷歌也發(fā)布了名為 Phenaki 的程序代碼，可以將文本轉(zhuǎn)換為時長幾分鐘的視頻。

這股熱潮也可能給英偉達、AMD 和英特爾等芯片制造商帶來提振，他們的圖形處理器是訓(xùn)練和部署 AI 模型的理想選擇。在上周的會議上，英偉達首席執(zhí)行官黃仁勛強調(diào)，生成式 AI 是該公司最新芯片的關(guān)鍵用途，并稱這類技術(shù)可能很快就會給通信領(lǐng)域帶來革命性的變化。

不過，生成式 AI 為終端用戶帶來的好處依然有限。如今許多令人興奮的事情都圍繞著免費或低成本的實驗進行。例如，有些作者已經(jīng)嘗試使用圖像生成器為文章制作插圖。英偉達正嘗試使用模型來生成新的人、動物、車輛或家具的 3D 圖像，這些圖像可以填充到虛擬游戲世界中。

倫理問題難應(yīng)對

最終，每個開發(fā)生成式 AI 的人都將不得不努力解決圖像生成器帶來的倫理問題。

首先是就業(yè)問題。盡管許多程序需要強大的圖形處理器，但計算機生成的內(nèi)容仍然比專業(yè)插畫家的時間成本便宜得多，后者每小時的報酬可能高達數(shù)百美元。生成式 AI 可能會給藝術(shù)家、視頻制作人和其他以創(chuàng)作作品為生的人帶來大麻煩。Compound VC 管理合伙人邁克爾?鄧普西說：“事實證明，機器學(xué)習(xí)模型可能會變得比人類工作得更好、更快、更便宜?！?/p>

圍繞原創(chuàng)性和所有權(quán)，生成式 AI 也會帶來更復(fù)雜的挑戰(zhàn)。這種 AI 模型是利用大量現(xiàn)有圖像進行培訓(xùn)的，原始圖像的創(chuàng)建者是否對以原創(chuàng)風(fēng)格生成的圖像擁有版權(quán)仍在爭論中。一位藝術(shù)家最近在美國科羅拉多州的藝術(shù)比賽中獲勝，他使用的圖像主要是由名為 MidJourney 的生成式 AI 創(chuàng)作的。他在獲勝后接受采訪時表示，他從自己生成的數(shù)百張圖像中選擇了一張，然后在 PS 中對其進行了調(diào)整和處理。

由 Stable Diffusion 生成的一些圖像似乎留有水印，這表明原始數(shù)據(jù)集的一部分受到版權(quán)保護。有些提示指南建議用戶使用特定的、在世藝術(shù)家的名字，以便在模仿該藝術(shù)家創(chuàng)作風(fēng)格的過程中獲得更好的結(jié)果。上個月，Getty Images 禁止用戶將生成式 AI 圖像上傳到其庫存圖像數(shù)據(jù)庫中，因為其擔(dān)心引發(fā)侵權(quán)糾紛。

圖像生成器還可以用來創(chuàng)建商標(biāo)人物或目標(biāo)的新圖像，如小黃人、漫威角色或《權(quán)力的游戲》中的王座。隨著圖像生成軟件變得越來越好，它也有可能欺騙用戶，讓他們相信虛假信息，或者顯示從未發(fā)生過的事件的圖像或視頻。

開發(fā)者還必須努力應(yīng)對這樣一種可能，即基于大量數(shù)據(jù)訓(xùn)練的 AI 模型可能會在數(shù)據(jù)中包含與性別、種族或文化相關(guān)的偏見，這可能會導(dǎo)致模型在輸出中展示這種偏見。Huging Face 已經(jīng)發(fā)布了有關(guān)倫理問題的材料，并就以負責(zé)任態(tài)度開發(fā) AI 模型的問題進行了討論。

Hugging Face 首席執(zhí)行官克萊門特?德蘭格說：“我們在這些模型上看到了短期和當(dāng)前挑戰(zhàn)，因為它們屬于概率模型，在大數(shù)據(jù)集上訓(xùn)練，往往會吸收很多偏見。”他舉例稱，生成式 AI 曾被要求繪制“軟件工程師”的畫像，結(jié)果其生成了白人男性的圖像。

生成式 AI 火了：硅谷押注，讓你把簡單文字變成圖像甚至視頻

相關(guān)閱讀

生成式 AI 火了：硅谷押注，讓你把簡單文字變成圖像甚至視頻