教學大綱表 (114學年度 第2學期)
請遵守智慧財產權,勿使用非法影印教科書,避免觸法。
課程名稱
Course Title
(中文) 大型語言模型之理論基礎與系統實作
(英文)
開課單位
Departments
資訊工程研究所
課程代碼
Course No.
I6170A
授課教師
Instructor
葉慶隆
學分數
Credit
3.0 必/選修
core required/optional
選修 開課年級
Level
研究所
先修科目或先備能力(Course Pre-requisites):Python程式設計、深度學習
課程概述與目標(Course Overview and Goals):本課程以 Hugging Face 所提供的 LLM Tutorial 為核心教材,帶領學生深入理解並實作大語言模型(Large Language Models, LLM)的基礎與應用。課程將涵蓋 LLM 的發展背景、核心技術(Transformer 架構、Tokenization、微調與推論)、以及模型訓練與部署的實務流程。除了理解理論與演算法,學生將實際操作 Hugging Face 生態系(Transformers、Datasets、Evaluate 等工具),並透過 Colab 與雲端資源進行模型微調與應用實作。

課程兼顧理論基礎與工程實務,培養學生從 理解 LLM 架構 → 掌握實作流程 → 進行應用開發 的完整能力,為進一步研究與進入產業奠定基礎。
教科書(Textbook) Hugging Face, LLM Course, https://huggingface.co/learn/llm-course/chapter1/1
Sebastian Raschka, Build a Large Language Model (From Scratch), Manning, 2024. ISBN 9781633437166
參考教材(Reference) [1] A. Vaswani et al., “Attention Is All You Need,” Advances in Neural Information Processing Systems (NeurIPS), 2017. [Online]. Available: https://papers.neurips.cc/paper/7181-attention-is-all-you-need.pdf
隨課程發展公佈之
課程大綱 Syllabus 學生學習目標
Learning Objectives
單元學習活動
Learning Activities
學習成效評量
Evaluation
備註
Notes

No.
單元主題
Unit topic
內容綱要
Content summary
1 課程導論與環境建立 理論:課程介紹、LLM 與 HF 生態系

實作:
Colab 環境設定 (pip install transformers datasets evaluate)
使用 pipeline 做最簡單的文字生成
LLM 與 HF 生態系基礎 上機實習
講授
 
2 NLP 與 LLM 概念導入 理論:課程介紹、LLM 與 HF 生態系
實作:
Colab 環境設定 (pip install transformers datasets evaluate)
使用 pipeline 做最簡單的文字生成
了解NLP 與 LLM 概念 講授
實作
作業
 
3 Transformer 架構與 pipeline 理論:Transformer 架構 (encoder/decoder, attention)
實作:
呼叫 AutoModel 與 AutoTokenizer,手動跑 forward
視覺化 Attention heatmap
學會Transformer 架構與 pipeline 上機實習
講授
實作
作業
 
4 使用預訓練模型與 Hub 理論:Hugging Face Hub、模型卡、權重
實作:
載入不同模型 (GPT2, DistilBERT, BLOOMZ)
比較不同模型的輸出差異
學會使用預訓練模型與 Hub 講授
實作
作業
 
5 資料處理與 Datasets 理論:HF Datasets 結構、格式
實作:
載入 IMDb dataset,觀察資料結構
清理資料並轉換成訓練用格式
學習資料處理與 Datasets 上機實習
講授
實作
作業
 
6 微調 (Trainer API) 理論:微調流程、Trainer API
實作:
微調 DistilBERT 做情感分類
儲存並上傳模型到 Hub
學會LLM微調 上機實習
講授
實作
作業
 
7 自訂訓練迴圈 理論:Accelerate、多 GPU 訓練
實作:
改寫簡單的 PyTorch 訓練 loop
比較 Trainer 與自訂 loop 效果
學會自訂訓練迴圈 上機實習
講授
實作
作業
 
8 Tokenizer 訓練 理論:BPE / WordPiece / SentencePiece
實作:
用 HF Tokenizers 庫訓練一個中文 tokenizer
比較不同 tokenizer 的斷詞結果
學會Tokenizer 訓練 上機實習
講授
實作
作業
 
9 多語言 Tokenizer / 分析 理論:跨語言 tokenizer 的挑戰
實作:
用中英混合語料重新訓練 tokenizer
分析 token 分布與長度統計
學習多語言 Tokenizer / 分析 上機實習
講授
實作
作業
 
彈性教學週活動規劃

No.
實施期間
Period
實施方式
Content
教學說明
Teaching instructions
彈性教學評量方式
Evaluation
備註
Notes


教學要點概述:
1.自編教材 Handout by Instructor:
■ 1-1.簡報 Slides
■ 1-2.影音教材 Videos
■ 1-3.教具 Teaching Aids
□ 1-4.教科書 Textbook
□ 1-5.其他 Other
□ 2.自編評量工具/量表 Educational Assessment
□ 3.教科書作者提供 Textbook

成績考核 Performance Evaluation: 期末考:15%   期中考:15%   專題:20%   報告:20%   彈性教學:10%   作業:20%  

教學資源(Teaching Resources):
□ 教材電子檔(Soft Copy of the Handout or the Textbook)
□ 課程網站(Website)
課程網站(Website):Tronclass
扣考規定:https://curri.ttu.edu.tw/p/412-1033-1254.php