AI大模型是指擁有超大規模參數(通常在十億個以上)、復雜計算結構的深度學習模型,能夠處理海量數據,完成各種復雜任務,如自然語言處理、圖像識別等。
大模型包含如下一些技術:
Prompt
Prompt提示是模型接收以生成響應或完成任務的初始文本輸入。我們給AI一組Prompt輸入,用于指導模型生成響應以執行任務。這個輸入可以是一個問題、一段描述、一組關鍵詞,或任何其他形式的文本,用于引導模型產生特定內容的響應。
Transformer
Transformer是一種用于自然語言處理(NLP)和其他序列到序列(sequence-to-sequence)任務的深度學習模型架構,它在2017年由Vaswani等人首次提出。Transformer架構引入了自注意力機制(self-attention mechanism),這是一個關鍵的創新,使其在處理序列數據時表現出色。
結構如下:
預訓練
預訓練(Pre-training)通常是指對模型進行無監督或自監督學習的過程,在大規模未標注數據上先訓練模型,以便為后續任務提供一個高質量的初始權重。這個過程對于許多復雜模型尤其是 transformer 架構(比如BERT、GPT系列等)來說極其重要。
Function calling
Function Calling 是一個允許大型語言模型(如 GPT)在生成文本的過程中調用外部函數或服務的功能。
Function Calling允許我們以 JSON 格式向 LLM 模型描述函數,并使用模型的固有推理能力來決定在生成響應之前是否調用該函數。模型本身不執行函數,而是生成包含函數名稱和執行函數所需的參數的JSON
Rag
RAG(中文為檢索增強生成) = 檢索技術 + LLM 提示。例如,我們向 LLM 提問一個問題(answer),RAG 從各種數據源檢索相關的信息,并將檢索到的信息和問題(answer)注入到 LLM 提示中,LLM 最后給出答案。
Gpts
GPTs其實就是一個模板,把你的需求告訴GPTs,它會按照你的想法去生成新的ChatGPT,相當于把你的想法寫成了一個模板,供你個性化使用。每次使用的時候直接輸入你的話題或者部分內容,這時候的ChatGPT就會按照你設定的使用規則跟你對話,直接輸出你需要的內容,而不需要你每次都輸入一定的提示指令去引導。
Langchain
LangChain 就是一個 LLM 編程框架,你想開發一個基于 LLM 應用,需要什么組件它都有,直接使用就行;甚至針對常規的應用流程,它利用鏈(LangChain中Chain的由來)這個概念已經內置標準化方案了。
Agent
智能體的英文是 Agent,AI 業界對智能體提出了各種定義。個人理解,智能體是一種通用問題解決器。從軟件工程的角度看來,智能體是一種基于大語言模型的,具備規劃思考能力、記憶能力、使用工具函數的能力,能自主完成給定任務的計算機程序。
Fine-tuning
微調是指在預訓練模型(Pre-trained model)的基礎上,針對特定任務或數據領域,對部分或全部模型參數進行進一步的訓練和調整(Fine Tune)。預訓練模型通常是在大規模數據集上訓練得到的,具有一定的通用性和泛化能力。微調的目標是在較小的目標數據集上,通過有限的訓練數據,使模型更好地適應特定任務,從而提高模型在該任務上的性能。