探索邊緣小語言模型(SLM)應用與前景

目前位置：首頁 > 創新與展示 > 技術新知快遞 > 產業技術評析

產業技術評析

探索邊緣小語言模型(SLM)應用與前景

邊緣、語言、模型

發表日期：2024-05-01

作者：葉逸萱(工研院)

摘要：

2023年生成式AI相關應用如雨後春筍般湧現，開啟了人工智慧的新篇章，為產業和民眾帶來前所未有的創造力和智慧。

全文：

一、前言

2023年生成式AI相關應用如雨後春筍般湧現，開啟了人工智慧的新篇章，為產業和民眾帶來前所未有的創造力和智慧。也因為物聯網和智慧裝置的普及，將運算能力推向邊緣的趨勢日益明顯，邊緣小語言模型(Small Language Models, SLM)也逐漸受到重視。SLM可以在離線情況下提供即時的智慧服務，更能在有限的運算資源，有效地生成新內容和想法，例如文字、對話、影像、視訊和音樂。透過結合生成式AI的能力，邊緣SLM不僅能提升智慧裝置的性能與效率，還可以應用於各種場景，從智慧城市到醫療保健，從工業自動化到個人行動智慧裝置，都將展現其巨大潛力。因此，生成式AI的出現為邊緣SLM開啟新前景，值得我們高度重視和深入探究。

二、全球小語言模型市場規模與發展趨勢

(一)全球小語言模型的市場規模

SLM和LLM之間的差異不僅在於規模和能力，更在於其應用場景和效能的表現。LLM擁有龐大的參數量和廣泛的資料學習能力，能處理更複雜的語言結構並產生更準確的預測。然而，SLM雖然在規模上較小，但卻具有執行速度更快、占用更少記憶體和運算資源等優點。在實際應用中，根據不同的任務需求和資源限制，選擇適合的語言模型將對AI應用的效能與成本起到關鍵作用，必須充分考慮其規模與性能的平衡，以實現最佳的應用效果。因此，SLM和LLM的主要區別，有(1)規模和範圍；(2)訓練時間與運算資源；(3)領域專業知識以及(4)多功能性。

目前許多企業都在關注SLM，因為其運算效率、可適性和可訪問性的特點，非常適合部署在邊緣裝置和雲端環境中。根據Valuates Reports的報告指出，2022年全球小語言模型市場規模為51.8億美元，至2029年將增長至171.8億美元，2023年至2029年的年複合成長率(CAGR)為17.8%。常見應用為自然語言處理(NLP)任務、資訊擷取和摘要、語言生成(如內容生成、程式碼生成)、跨國語言翻譯、智慧助理與對話系統等。

(二)主要投入業者

盤點SLM市場主要投入的國際業者有：

(1)Meta

Llama 2 – 7B：2023年7月Meta發布第二代大型語言模型Llama 2包含7B、13B和70B三種版本的參數。所有的版本皆優於Llama 1，明顯強化模型的性能、效率和可訪問性，也更能符合廣泛NLP的任務。目前7B參數模型則多用於研究目的。
Alpaca - 7B：Alpaca 7B是Llama-7B的微調版，史丹佛大學研究員使用Llama-7B和OpenAI text-davinci-003模型所生成的，訓練成本不到600美元，但性能表現不錯，在email寫作、社群媒體、生產力工具任務等可以與較大的語言模型相比。目前主要用於學術目的。

(2)Stability AI

Stable Beluga – 7B：以Llama模型為基礎，並在Orca風格的資料集上進行微調，在各種NLP任務中表現優異，如文本產生、翻譯、問答和程式碼生成。Stability AI表示會增強性能，增加採用和集成，開發專用版本，為開源社區做出貢獻。
Stable LM 2：2024年初推出，是一個1.6B參數的超小型語言模型，使用2兆個token進行訓練，目的在於降低使用門檻，讓更多開發者可以使用包含英語、西班牙語、德語、義大利語、法語、葡萄牙語和荷蘭語等7種語言資料的Gen AI。性能反應上普遍優於其他小於2B參數模型。

(3)Google

2023年12月Google推出Gemini多模態模型，一共三個版本，Ultra模型為最大，功能也最強大，用於高度複雜任務如客製化專屬協作夥伴，將提供給企業和開發者使用，預計2024年部署至Google Bard。Pro模型類似ChatGPT，具推理、規劃能力，目前可在Bard中使用，但僅限英文版。Nano模型最小，共有Nano -1 1.8B和Nano-2 3.25B兩個版本，用於Android手機可離線運行，Nano-1是針對低記憶體裝置、Nano-2是針對高記憶體裝置，目前已整合在Pixel 8系列、三星s24旗艦系列。

(4)Microsoft

Phi-2 – 2.7B：2023年12月發布，訓練資料包含科學、日常活動、心理學、以及高品質的網路內容。同時，微軟將Phi-2的參數量從原本的1.3擴大至2.7B，以增強模型的性能和表現。Phi-2是為邊緣設備和雲端設計，在文字生成、語言翻譯和資訊性問答方面表現出色。
Orca 2：2023年11月發布，Orca 2有7B、13B兩個版本，都是以Llama 2為基礎模型結合大量合成資料客製訓練而成。微軟希望利用對LLM的知識來提升SLM的能力，例如學習GPT-4對結果逐步解釋的能力、循序漸進的思考過程、以及對其他複雜指令的反應能力，並由ChatGPT當助教協助指導。目前這兩版在Hugging Face上供研究式用。

(5)Salesforce

XGen是由Salesforce AI推出的7B參數SLM，與Llama的7B模型相似，主要不同是將上下文窗口的序列長度從Llama的2K增加至8K。因此，XGen的特色是適合處理長篇文本和摘要任務、內容創作、軟體開發和語言學習等。

(6)阿里巴巴

2024年初阿里巴巴推出Qwen 1.5系列的語言模型，Qwen 1.5是Qwen AI的增強版本，提供0.5B、1.8B、4B、7B、14B和72B等不同大小的參數模型，用來滿足不同的運算需求和應用程式，如文字生成、翻譯、問答、視覺、語言任務、以及音訊處理等各種應用。特別是增強聊天功能，實現更加連貫和上下文相關的對話。

(7)Mosaic ML

MPT是由新創公司Mosaic ML推出的7B參數SLM。它的強項在於能夠處理長達8千個token的文章內容，並且在處理長文的重點摘要和問答方面表現出色。MPT的設計宗旨在於提升生產力，其特長包括生成準確的程式碼片段、自動化任務，以及通過各種創意的文字格式來激發藝術表達。潛在應用範圍涵蓋軟體開發、創意寫作、內容創建、教育、以及可訪問性工具等多個領域。

(8)Technology Innovation Institute (TII) from the UAE

Falcon 7B是阿聯酋技術創新研究所(TII)所推出，目的是提高聊天和問答等簡單任務中的效率。它被設計用於處理龐大的文字資料語料庫，其中包括約1兆個token。Falcon 7B 的推出將為使用者提供更快速、更準確的處理能力，並為各種文字相關應用帶來顯著的改進。

(9)Hugging Face

Zephyr是由Hugging Face所推出，也是一個7B參數SLM。Zephyr是Mistral-7B的微調版本且進行了最佳化處理，Zephyr專注於對話互動的特性，使其成為聊天機器人、虛擬助理和其他互動式應用程式的最佳選擇之一。Zephyr能夠確保運算效率，因此可輕鬆部署在各種平台上。

三、SLM的行動裝置應用案例

從上述的SLM模型彙整，目前SLM模型參數約在7B左右，需要至少14G以上的記憶體，非一般消費型顯示卡能跑得動，因此目前有許多方法在研究如何減少其資源使用、或是從晶片端著手提升運算性能。例如，Apple M3、Intel Core Ultra、AMD Ryzen 8084系列都是為了加速AI應用而設計，以提前布局AI PC市場。

從MWC 2024展會觀測，Qualcomm推出Snapdragon X80 5G晶片，是首款整合窄頻非地面網路(NB-NTN)衛星通訊的5G基頻晶片，連結毫米波網路時，可提高60%傳輸效率、降低10%能耗，在特定時段內降低20%延遲，因此連接速度更快。此系列可用於AI手機、XR設備、PC、車輛、工業物聯網設備等。Qualcomm在Android智慧型手機上展示運行逾7B參數模型，例如可接受多種類型如文本、圖像的數據輸入，並透過AI助理進行文本生成或是文生圖應用。

Arm透過3個Cortex-A700系列的CPU，在Android手機運行Llama2-7B模型，手機應用軟體的虛擬助理回應用性高，能快速進行回覆，可達到每秒9.6個token的文本生成速率。另外，聯發科也在本次展會展出Dimensity 9300和8300兩款處理器，主打專為Google Gemini Nano而設計。中國手機品牌TECNO與Google、聯發科策略合作，發布TECNO AIOS，主要將Gen AI融入筆電和手機中，例如Megabook T1 15.6筆電採用Intel Core Ultra，在離線下運行文生圖僅花2-3秒時間生成圖片，未來將會推出圖生圖、文生表等應用；Phantom V Fold和V Flip兩款折疊手機搭載Dimensity 9000+，並整合Google AI套件，如Google Gemini (nano)、Duet AI 和 Gmail AI等，可依需求產生信件內容，並進行內容優化、增長或簡化，還支援多國語言翻譯等。下半年度預計推出採用Dimensity 9300或更先進的Dimensity 8300的終端設備。

手機大廠三星展示的Galaxy S24旗艦系列，是繼Google Pixel 8系列後，第二個整合Google Gemini Nano的智慧型手機。三星宣稱「開啟行動AI新時代」，指出生成式AI將成為長期產品戰略不可或缺的元素。Galaxy S24 Ultra主要採用台積電4nm製程的Qualcomm Snapdragon 8 Gen 3，推出8大AI功能，包含通話中即時翻譯、聊天翻譯、寫作助理、轉錄助理、筆記助理、瀏覽助理、相片助理和搜尋圈等多種日常生活情境，幫助用戶增加人際溝通與創造力。

四、結論

SLM可以縮短訓練和推理時間，大幅降低延遲，所以非常適合用在資源有限的環境，例如邊緣裝置或是資源有限的中小型企業。國際大廠也因此嗅到商機，積極落實在AI Phone、AI PC、機器人與虛擬人平台服務，創造多元、智慧化且簡便的服務體驗。雲端服務大廠AWS、Azure、Google Cloud也透過託管API方式，提供企業各領域應用的小型語言模型服務。也因此，不論是從雲端或是到終端，生成式AI正逐漸改變使用者與服務的互動方式。

從上面研析中得知，智慧型手機和PC迎來更智慧化升級的時機，然而是否帶動市場錢潮仍有待觀察。以手機為例，目前普遍智慧型手機功能已經差異不大，新AI Phone的推出，Gen AI應用服務多為試水溫，尚未出現殺手級應用，在成本和定價仍是偏高時，不一定會吸引換機。使用者對手機品牌的迷失、對產品的服務流暢度、性價比等，才是最主要決定是否更換手機的原因。在AI PC上，全球PC市場需求雖逐漸顯現，但供應鏈缺料狀況尚未解決，是否帶來換機潮，臺灣業者仍持保守態度。不過，2025年微軟將停止支援windows 10的系統更新，或許有機會帶動AI PC的銷售量。

(本文作者為工研院產科國際所執行產業技術基磐研究與知識服務計畫產業分析師)

點閱數：90

更新日期：2020-04-08