從LLM到RAG

撰文者：巨鷗科技資深規劃師賴正偉Bleed

人工智慧（AI）技術快速發展，其中以大型語言模型（Large Language Model, LLM）為核心的生成式 AI，更是帶動了一波產業與應用的革命。
然而，隨著實務應用需求的提升，單純依賴LLM已逐漸顯現其限制，因此延伸出檢索增強生成（Retrieval-Augmented Generation, RAG）架構，成為下一階段AI發展的重要方向。

1. 從自然語言到LLM的演進
人類與機器的溝通史，本質上是一部試圖將「模糊的語言」轉化為「精確的數學」的過程，早期的自然語言處理依賴於語言學家編寫的複雜規則。

然而人類語言充滿了歧義、隱喻與上下文依賴，這讓基於規則的系統（如早期的機器翻譯）在面對現實世界的複雜性時顯得捉襟見肘。
尤其是樣本能否代表真實的意涵，以極可能存在的多重解讀狀況，例如講師所提到的一些一經典案例：「下雨天留客天留我不留」，
十足反映了機器面對複雜的自然語言，很可能出現無法理解或判斷錯誤的狀況，導致產出的生成資訊有實際上的落差。

在 LLM 出現之前，自然語言處理已經歷多個重要階段的演進。早期NLP主要採用規則式方法（Rule-based），

透過人工撰寫語法規則與詞彙表來進行語言分析，但此方式難以應對語言的多樣性與模糊性，後來進一步發展至機器學習與深度學習階段，
如：Word2Vec、GloVe等詞向量技術，使語意可以被數值化表示，大幅提升語言理解能力。

而關鍵轉折點在於Transformer架構的提出，其透過自注意力機制（Self-Attention）有效捕捉長距離語意關聯，

解決傳統RNN在長文字處理上的限制，在此基礎上，預訓練語言模型（如 BERT、GPT 系列）開始崛起，
透過大規模語料進行預訓練，再透過微調或提示完成多樣任務，
最終演進為今日具備高度泛化能力的 LLM，成為生成式 AI 的核心基石。

2. LLM之特點
LLM是基於深度學習與Transformer 架構所建構的語言模型，其核心能力在於理解與生成自然語言。
透過大量文本資料訓練，LLM能夠學習語言中的語法、語意與知識關聯，進而完成各種任務，例如問答、摘要、翻譯與程式生成，簡單來說有以下特點：
(1) 強大的語言理解與生成能力：LLM能夠生成流暢且接近人類語言的文字，並具備上下文理解能力。
(2) 多任務泛化能力：不需針對每個任務重新訓練，只需透過提示（Prompt）即可完成不同應用。
(3) 知識內嵌：模型透過訓練將知識「壓縮」於參數中，能快速回應各類問題。
(4) 可擴展性高：模型規模越大，通常性能越強（如GPT系列的發展）。

自然語言處理與生成式AI的演進示意圖

3. LLM的限制與挑戰
儘管LLM強大，但在實務應用中仍存在幾項關鍵問題：
(1) 知識時效性不足：LLM 的知識來自訓練資料，無法即時更新，對於最新資訊（如即時新聞、政策變動）容易失準。
(2) 錯誤與驗證問題：模型可能生成看似合理但實際錯誤的內容，且缺乏自我驗證機制。
(3) 缺乏可追溯性：LLM 通常無法提供明確的資料來源，對於需要高可信度的應用領域都會是限制。
(4) 企業資料整合困難：企業內部資料（如文件、報告、資料庫）無法直接被 LLM 使用，需重新訓練或微調，成本高昂。

4. RAG的興起與發展：
為了解決LLM的上述問題，RAG架構(延伸出檢索增強生成,Retrieval-Augmented Generation, RAG）應運而生。
RAG的核心概念是：在生成答案之前，先從外部知識庫中「檢索」相關資料，再將其作為上下文提供給LLM生成回應。
這種方式結合了「檢索系統」與「生成模型」，讓AI不再只依賴內建知識，而是能動態查詢資料，
運作分為三個關鍵步驟，此流程讓模型能夠「邊查資料邊回答」，大幅提升準確性與可靠性：
(1) 檢索(Retrieve)：當使用者提出問題時，系統先去外部知識庫中搜尋相關的最新資料或文件內容。
(2) 增強/擴增 (Augment)：將搜尋到的原始資料與使用者的問題進行組合，形成一個內容豐富的提示詞（Prompt）。
(3) 生成(Generate)：將這份包含背景知識的提示詞交給 LLM，讓模型基於「事實」產生回答。

RAG三階段流程的示意圖

5. LLM與RAG的對比 LLM與RAG的比較如下：

比較項目	純LLM(原生模型)	RAG(檢索增強生成)
優點	◆回應速度快（無需檢索） ◆架構簡單（單一模型） ◆適合開放性問題與創作任務 ◆不依賴外部資料庫	◆回答更準確、可靠 ◆可即時更新知識 ◆支援來源引用（可解釋性高） ◆適合企業應用與專業領域
缺點	◆知識過時 ◆幻覺風險高 ◆無法引用來源 ◆難以整合企業資料	◆系統架構較複雜（需整合檢索系統） ◆檢索品質影響結果（Garbage in, garbage out） ◆回應速度略慢（多一層查詢） ◆需要維護向量資料庫與資料清洗

6.LLM與RAG在GEO AI發展中的關鍵與未來方向：
(1)LLM：AI的「大腦」：
負責理解語言、推理與生成，是 AI 的核心能力來源。
(2)RAG：AI的「記憶系統」：
提供即時、可靠、可更新的知識來源，使AI更貼近真實世界。
(3)巨鷗的願景：
巨鷗團隊深耕「智慧城鄉」領域，聚焦於智慧政府、環境資源管理與防災。
要落實深度的數位治理與轉型，必須突破大型語言模型（LLM）僅依賴機率生成的既有框架。
未來，將以RAG（檢索擴增生成）架構為核心，為各領域打造專屬的精準AI大腦。

從LLM到RAG，是生成式AI從「語言能力」邁向「知識能力」的重要轉變，
LLM提供強大的語言理解與生成基礎，而 RAG 則補足其在知識更新、準確性與可追溯性上的不足。
未來AI的競爭力，不再只是模型大小，而是「模型+資料+架構」的整合能力。
RAG正是這個整合的關鍵橋樑，使AI能真正落地於企業與政府應用場景。

巨鷗智慧城鄉三大業務主軸（智慧政府、環境防災、產業轉型）結合 RAG 技術的科技視覺圖

(4)應用方向：RAG賦能「智慧政府」數位治理，為了解決幻覺痛點，RAG（檢索擴增生成）智慧政府創新的關鍵技術。
RAG 在生成回答前，會先從政府內部的 API、資料庫或文件儲存庫等「外部資料」中檢索相關資訊，再結合這些資訊進行生成。
例如，當市民或內部員工詢問特定政策或「我還有多少年假？」時，系統會精準擷取最新的政策文件與差勤紀錄作為回答基礎。
這種「先檢索，再生成」的機制，能提供即時、精確且可追溯的內容，大幅提升數位治理的信任度。

巨鷗RAG智慧城鄉解決方案示意圖

(5)應用方向：在環境資源管理與防災領域，資訊的即時性與準確性攸關生命財產安全。
RAG 技術透過內嵌語言模型，將自然語言查詢轉換為「向量表示」（Vector），並在向量資料庫中搜尋最相關的災防指引或環境監測文檔。
透過精準的數學向量計算與比對，防災系統能確保傳回的資訊與當下危機高度相關，避免模型因為訓練資料過時而給出錯誤的處置建議，打造更具韌性的智慧防災網絡。

使用者提問轉化為向量（Vector），並在環境防災資料庫中精準比對之示意圖

BACK

Column跨界專欄

跨界專欄

從LLM到RAG