隨著深度學(xué)習(xí)的開放,人工智能在幾年中快速發(fā)展,尖端技術(shù)慢慢向普及應(yīng)用到各行各業(yè)。以下是國外一家專注于開源和堆棧技術(shù)新聞網(wǎng)站 TheNewStark 盤點的 2022 年值得人們期待的五個人工智能發(fā)展趨勢。
趨勢 1:大型語言模型(LLMs),定義交互式人工智能的下一個浪潮
人工智能的語言模型是基于自然語言處理技術(shù)和算法創(chuàng)建的。比如在某一句話說一半的時候,這個模型會根據(jù)以往記錄的實例,來推斷出這句話后面的幾個字??偟膩碚f就是總結(jié)文本信息,甚至從純文本中創(chuàng)建視覺圖表。
大型語言模型(LLMs)是在包含巨大數(shù)據(jù)量的大規(guī)模數(shù)據(jù)集上訓(xùn)練的。像是 Google 的 BERT 和 OpenAI 的 GPT-2 和 GPT-3 就是 LLMs 很好的例子。據(jù)了解,GPT-3 中約有 1750 億個參數(shù),在 570 千兆字節(jié)的文本上進行訓(xùn)練。這些模型生成的東西可以從簡單的文章到復(fù)雜的金融模型。現(xiàn)如今,包括 OpenAI、Hugging Face、Cohere、AI21 Labs 以及 AI12 在內(nèi)的人工智能初創(chuàng)公司,正在通過訓(xùn)練具有數(shù)十億參數(shù)的模型來推動 LLMs 的發(fā)展。
韓國一家叫做 Naver 的公司宣布,它已經(jīng)建立了最全面的基于人工智能的語言模型之—— HyperCLOVA,一個類似于 GPT-3 的韓語模型。與上述模型不同的是,華為的 PanGu-Alpha 以及百度的 Ernie 3.0 Titan 則是在由電子書、百科全書和社交媒體組成的海量中文數(shù)據(jù)集上進行訓(xùn)練的。
在 2022 年,我們將看到大型語言模型成為下一代交互式人工智能工具的基礎(chǔ)模型。
趨勢 2:多模態(tài)人工智能的崛起
" 模態(tài) "(Modality)是德國理學(xué)家赫爾姆霍茨提出的一種生物學(xué)概念,即生物憑借感知器官與經(jīng)驗來接收信息的通道,如人類有視覺、聽覺、觸覺、味覺和嗅覺模態(tài)。多模態(tài)是指將多種感官進行融合,而多模態(tài)交互是指人通過聲音、肢體語言、信息載體(文字、圖片、音頻、視頻)、環(huán)境等多個通道與計算機進行交流,充分模擬人與人之間的交互方式。
傳統(tǒng)的深度學(xué)習(xí)算法專注于從一個單一的數(shù)據(jù)源訓(xùn)練其模型。例如,計算機視覺模型是在一組圖像上訓(xùn)練的,NLP 模型是在文本內(nèi)容上訓(xùn)練的,語音處理則涉及聲學(xué)模型的創(chuàng)建、喚醒詞檢測和噪音消除。這種類型的機器學(xué)習(xí)與單模態(tài)人工智能有關(guān),其結(jié)果都被映射到一個單一的數(shù)據(jù)類型來源。而多模態(tài)人工智能是計算機視覺和交互式人工智能智能模型的最終融合,為計算器提供更接近于人類感知的場景。
多模態(tài)人工智能的最新例子是 OpenAI 的 DALL-E,該模型使用藝術(shù)家薩爾瓦多 - 達利和皮克斯的瓦力的諧音來命名。它可以從文本描述中生成對應(yīng)圖像。例如,當(dāng)文本描述為 " 一個甜甜圈形狀的時鐘 " 被發(fā)送到該模型時,它就可以生成以下圖像。
圖片來源 TheNewStark
谷歌的多任務(wù)統(tǒng)一模型(MUM)是多模態(tài)人工智能的另一個例子。它承諾通過從 75 種不同語言中挖掘出的上下文信息對用戶搜索結(jié)果進行優(yōu)先排序,從而提高用戶的搜索體驗。MUM 使用 T5 文本到文本框架,比 BERT 中流行的基于變換器的自然語言處理模型要強大 1000 倍。
英偉達的 GauGAN2 模型則將根據(jù)簡單的文本輸入生成照片般逼真的圖像。它在一個單一的模型中結(jié)合了分割映射、內(nèi)畫和文本到圖像的生成,使其成為一個強大的多模態(tài)工具,可以用文字和圖畫的混合來創(chuàng)造逼真的藝術(shù)。
在不遠的未來我們就可以見到計算機視覺、語言以及語音模型的融合,這使得人工智能更豐富,更自然逼真。
趨勢 3:簡化和精簡 MLOps
機器學(xué)習(xí)操作(MLOps),是一個將機器學(xué)習(xí)投入到工業(yè)生產(chǎn)中的實踐,是機器學(xué)習(xí)和 DevOPs 在軟件領(lǐng)域交叉的產(chǎn)物,所以它在許多方面與 2012 年的 DevOps 相似。在 2012 年 DevOps 上線的時候,許多企業(yè)就意識到了它的價值,但是他們在實施 DevOps 的時候很困難,工具鏈非常復(fù)雜,生態(tài)系統(tǒng)也不夠完善。而 MLOps 相比來說更加復(fù)雜,它的軟件包包括安裝、配置訓(xùn)練、推理基礎(chǔ)設(shè)施、配置特征存儲、配置模型注冊表、監(jiān)控模型的衰減以及檢測模型漂移等所有的相關(guān)內(nèi)容。其龐大的軟件包也導(dǎo)致 MLOps 的部署比 DevOps 還困難。
MLOps 是被納入基于云計算的 ML 平臺的概念之一,平臺包括如亞馬遜網(wǎng)絡(luò)服務(wù)的 Amazon SageMaker, Azure ML, 以及谷歌的 Vertex AI。然而,它所擁有的這些能力卻不能用于混合和邊緣計算這兩個環(huán)境。因此,監(jiān)測邊緣計算的環(huán)境模型被證明是企業(yè)要面臨的一個重大挑戰(zhàn)。在處理計算機視覺系統(tǒng)和交互式人工智能系統(tǒng)時,創(chuàng)建一個為其服務(wù)的監(jiān)測邊緣計算的模型就變得更加具有挑戰(zhàn)性。
隨著 Kubeflow 和 MLflow 等開源項目的逐漸成熟,MLOps 其實已經(jīng)很容易就能獲取到。在未來幾年我們或許可以看到一個精簡和簡化的 MLOps 方法橫跨云領(lǐng)域和邊緣計算環(huán)境。
趨勢 4:AI 驅(qū)動的開發(fā)者生產(chǎn)力
在未來,人工智能幾乎會影響到 IT 行業(yè)的每個方面,包括編程和開發(fā)。在過去的幾年里,我們已經(jīng)看到了諸如亞馬遜代碼大師這樣的工具,該產(chǎn)品會在開發(fā)者編程時,為其提供智能建議,以提高代碼質(zhì)量,并識別出應(yīng)用程序中最重要的代碼行。就在最近,Github Copilot 作為一個 " 人工智能配對程序員 " 首次亮相,協(xié)助開發(fā)人員編寫高效的代碼。而 Salesforce 的研究團隊也推出了 CodeT5,這是一個開源項目,將幫助 Apex 開發(fā)人員進行由人工智能驅(qū)動的編碼。Tabnine,即以前的 Codata,將智能代碼完全帶到了主流開發(fā)環(huán)境。Ponicode 也是一個 AI 驅(qū)動的工具,可以提供函數(shù)創(chuàng)建、可視化和運行單元測試的快捷方式。
圖片來源 TheNewStark
大型語言模型(LLMs)的興起和開源代碼更廣泛的可用性,使 IDE 供應(yīng)商能夠再其基礎(chǔ)上建立智能代碼生成和分析系統(tǒng)。
展望未來,人們期望看到能夠從內(nèi)聯(lián)注釋中生成高質(zhì)量和緊湊代碼的工具。它們甚至能夠從一種語言編寫的代碼翻譯成另一種語言,通過將傳統(tǒng)代碼轉(zhuǎn)換為現(xiàn)代語言來實現(xiàn)應(yīng)用程序的現(xiàn)代化。
趨勢 5:云平臺新的垂直化人工智能解決方案
世界領(lǐng)先的人工智能供應(yīng)商,包括亞馬遜、谷歌和微軟,都正專注于將研究和開發(fā)工作商業(yè)化。他們通過旗下的云平臺提供托管服務(wù),并建立硬件設(shè)備,配備人工智能加速器和針對特定場景的預(yù)訓(xùn)練模型。
亞馬遜連接和谷歌聯(lián)絡(luò)中心 AI 是垂直整合的典型例子。兩者都利用機器學(xué)習(xí)能力來執(zhí)行智能路由,由機器人驅(qū)動的客服對話,以及對聯(lián)絡(luò)中心代理商的自動協(xié)助。AWS Panorama 可以連接到現(xiàn)有的 IP 攝像機,以此來執(zhí)行基于計算機視覺的推理??蛻艨梢栽谄湓破脚_訓(xùn)練新的模型,并將它們部署在全景設(shè)備的邊緣。Azure Percept 采用了類似的方法,在邊緣提供計算機視覺模型和交互式人工智能。微軟基于 Azure 上現(xiàn)有的物聯(lián)網(wǎng)、人工智能和邊緣計算服務(wù)建立了 Percept。
最后,亞馬遜 Lookout for Equipment 和谷歌 Cloud Visual Inspection AI 等服務(wù),利用基于云的人工智能平臺,對設(shè)備進行預(yù)測性維護和產(chǎn)品的異常檢測。這些服務(wù)是專為零售和制造業(yè)定制的。
在 2022 年,我們將看到人工智能平臺和云供應(yīng)商利用前沿研究技術(shù)和現(xiàn)有的管理服務(wù),提供針對特定的例子和場景的解決方案。
(轉(zhuǎn)載)