E-PAPER

訂閱 / 取消電子報,請輸入下列資料:

*您的大名

*公司名稱

*電子郵件

*使用類別

送出 重填

top
GO TOP

CONTACT

歡迎蒞臨巨鷗科技網站,若有任何智慧科技服務、行銷服務或 其他問題,請寫下寶貴意見,我們將盡速與您聯繫,謝謝您!

巨鷗科技隱私權條款

*您的大名

*性 別

*電子郵件

*連絡電話

手機號碼

服務單位

職 稱

*詢問事項

*您的意見


備註:有「*」之記號者,敬請務必正確填寫。
送出 重填

Column跨界專欄

跨界專欄

從LLM到RAG

撰文者:巨鷗科技 資深規劃師 賴正偉Bleed


人工智慧(AI)技術快速發展,其中以大型語言模型(Large Language Model, LLM)為核心的生成式 AI,更是帶動了一波產業與應用的革命。
然而,隨著實務應用需求的提升,單純依賴LLM已逐漸顯現其限制,因此延伸出檢索增強生成(Retrieval-Augmented Generation, RAG)架構,成為下一階段AI發展的重要方向。

1. 從自然語言到LLM的演進
人類與機器的溝通史,本質上是一部試圖將「模糊的語言」轉化為「精確的數學」的過程,早期的自然語言處理依賴於語言學家編寫的複雜規則。

然而人類語言充滿了歧義、隱喻與上下文依賴,這讓基於規則的系統(如早期的機器翻譯)在面對現實世界的複雜性時顯得捉襟見肘。
尤其是樣本能否代表真實的意涵,以極可能存在的多重解讀狀況,例如講師所提到的一些一經典案例:「下雨天留客天留我不留」,
十足反映了機器面對複雜的自然語言,很可能出現無法理解或判斷錯誤的狀況,導致產出的生成資訊有實際上的落差。

 

在 LLM 出現之前,自然語言處理已經歷多個重要階段的演進。早期NLP主要採用規則式方法(Rule-based),

透過人工撰寫語法規則與詞彙表來進行語言分析,但此方式難以應對語言的多樣性與模糊性,後來進一步發展至機器學習與深度學習階段,
如:Word2Vec、GloVe等詞向量技術,使語意可以被數值化表示,大幅提升語言理解能力。

而關鍵轉折點在於Transformer架構的提出,其透過自注意力機制(Self-Attention)有效捕捉長距離語意關聯,

解決傳統RNN在長文字處理上的限制,在此基礎上,預訓練語言模型(如 BERT、GPT 系列)開始崛起,
透過大規模語料進行預訓練,再透過微調或提示完成多樣任務,
最終演進為今日具備高度泛化能力的 LLM,成為生成式 AI 的核心基石。

2. LLM之特點
LLM是基於深度學習與Transformer 架構所建構的語言模型,其核心能力在於理解與生成自然語言。
透過大量文本資料訓練,LLM能夠學習語言中的語法、語意與知識關聯,進而完成各種任務,例如問答、摘要、翻譯與程式生成,簡單來說有以下特點:
(1) 強大的語言理解與生成能力:LLM能夠生成流暢且接近人類語言的文字,並具備上下文理解能力。
(2) 多任務泛化能力:不需針對每個任務重新訓練,只需透過提示(Prompt)即可完成不同應用。
(3) 知識內嵌:模型透過訓練將知識「壓縮」於參數中,能快速回應各類問題。
(4) 可擴展性高:模型規模越大,通常性能越強(如GPT系列的發展)。


自然語言處理與生成式AI的演進示意圖

3. LLM的限制與挑戰
儘管LLM強大,但在實務應用中仍存在幾項關鍵問題:
(1) 知識時效性不足:LLM 的知識來自訓練資料,無法即時更新,對於最新資訊(如即時新聞、政策變動)容易失準。
(2) 錯誤與驗證問題:模型可能生成看似合理但實際錯誤的內容,且缺乏自我驗證機制。
(3) 缺乏可追溯性:LLM 通常無法提供明確的資料來源,對於需要高可信度的應用領域都會是限制。
(4) 企業資料整合困難:企業內部資料(如文件、報告、資料庫)無法直接被 LLM 使用,需重新訓練或微調,成本高昂。

4. RAG的興起與發展:
為了解決LLM的上述問題,RAG架構(延伸出檢索增強生成,Retrieval-Augmented Generation, RAG)應運而生。
RAG的核心概念是:在生成答案之前,先從外部知識庫中「檢索」相關資料,再將其作為上下文提供給LLM生成回應。
這種方式結合了「檢索系統」與「生成模型」,讓AI不再只依賴內建知識,而是能動態查詢資料,
運作分為三個關鍵步驟,此流程讓模型能夠「邊查資料邊回答」,大幅提升準確性與可靠性:
(1) 檢索(Retrieve):當使用者提出問題時,系統先去外部知識庫中搜尋相關的最新資料或文件內容。
(2) 增強/擴增 (Augment):將搜尋到的原始資料與使用者的問題進行組合,形成一個內容豐富的提示詞(Prompt)。
(3) 生成(Generate):將這份包含背景知識的提示詞交給 LLM,讓模型基於「事實」產生回答。


RAG三階段流程的示意圖

5. LLM與RAG的對比 LLM與RAG的比較如下:

比較項目 純LLM(原生模型) RAG(檢索增強生成)
優點 ◆回應速度快(無需檢索)
◆架構簡單(單一模型)
◆適合開放性問題與創作任務
◆不依賴外部資料庫
◆回答更準確、可靠
◆可即時更新知識
◆支援來源引用(可解釋性高)
◆適合企業應用與專業領域
缺點 ◆知識過時
◆幻覺風險高
◆無法引用來源
◆難以整合企業資料
◆系統架構較複雜(需整合檢索系統)
◆檢索品質影響結果(Garbage in, garbage out)
◆回應速度略慢(多一層查詢)
◆需要維護向量資料庫與資料清洗

 

6.LLM與RAG在GEO AI發展中的關鍵與未來方向:
(1)LLM:AI的「大腦」:
負責理解語言、推理與生成,是 AI 的核心能力來源。
(2)RAG:AI的「記憶系統」:
提供即時、可靠、可更新的知識來源,使AI更貼近真實世界。
(3)巨鷗的願景:
巨鷗團隊深耕「智慧城鄉」領域,聚焦於智慧政府、環境資源管理與防災。
要落實深度的數位治理與轉型,必須突破大型語言模型(LLM)僅依賴機率生成的既有框架。
未來,將以RAG(檢索擴增生成)架構為核心,為各領域打造專屬的精準AI大腦。

從LLM到RAG,是生成式AI從「語言能力」邁向「知識能力」的重要轉變,
LLM提供強大的語言理解與生成基礎,而 RAG 則補足其在知識更新、準確性與可追溯性上的不足。
未來AI的競爭力,不再只是模型大小,而是「模型+資料+架構」的整合能力。
RAG正是這個整合的關鍵橋樑,使AI能真正落地於企業與政府應用場景。


巨鷗智慧城鄉三大業務主軸(智慧政府、環境防災、產業轉型)結合 RAG 技術的科技視覺圖

 

(4)應用方向:RAG賦能「智慧政府」數位治理,為了解決幻覺痛點,RAG(檢索擴增生成)智慧政府創新的關鍵技術。
RAG 在生成回答前,會先從政府內部的 API、資料庫或文件儲存庫等「外部資料」中檢索相關資訊,再結合這些資訊進行生成。
例如,當市民或內部員工詢問特定政策或「我還有多少年假?」時,系統會精準擷取最新的政策文件與差勤紀錄作為回答基礎。
這種「先檢索,再生成」的機制,能提供即時、精確且可追溯的內容,大幅提升數位治理的信任度。


巨鷗RAG智慧城鄉解決方案示意圖

 

(5)應用方向:在環境資源管理與防災領域,資訊的即時性與準確性攸關生命財產安全。
RAG 技術透過內嵌語言模型,將自然語言查詢轉換為「向量表示」(Vector),並在向量資料庫中搜尋最相關的災防指引或環境監測文檔。
透過精準的數學向量計算與比對,防災系統能確保傳回的資訊與當下危機高度相關,避免模型因為訓練資料過時而給出錯誤的處置建議,打造更具韌性的智慧防災網絡。


使用者提問轉化為向量(Vector),並在環境防災資料庫中精準比對之示意圖