| 課程大綱 Syllabus |
學生學習目標 Learning Objectives |
單元學習活動 Learning Activities |
學習成效評量 Evaluation |
備註 Notes |
序 No. | 單元主題 Unit topic |
內容綱要 Content summary |
| 1 | 課程導論與環境建立 |
理論:課程介紹、LLM 與 HF 生態系
實作:
Colab 環境設定 (pip install transformers datasets evaluate)
使用 pipeline 做最簡單的文字生成 |
LLM 與 HF 生態系基礎 |
上機實習 講授
|
|
|
| 2 | NLP 與 LLM 概念導入 |
理論:課程介紹、LLM 與 HF 生態系
實作:
Colab 環境設定 (pip install transformers datasets evaluate)
使用 pipeline 做最簡單的文字生成 |
了解NLP 與 LLM 概念 |
講授 實作
|
作業
|
|
| 3 | Transformer 架構與 pipeline |
理論:Transformer 架構 (encoder/decoder, attention)
實作:
呼叫 AutoModel 與 AutoTokenizer,手動跑 forward
視覺化 Attention heatmap |
學會Transformer 架構與 pipeline |
上機實習 講授 實作
|
作業
|
|
| 4 | 使用預訓練模型與 Hub |
理論:Hugging Face Hub、模型卡、權重
實作:
載入不同模型 (GPT2, DistilBERT, BLOOMZ)
比較不同模型的輸出差異 |
學會使用預訓練模型與 Hub |
講授 實作
|
作業
|
|
| 5 | 資料處理與 Datasets |
理論:HF Datasets 結構、格式
實作:
載入 IMDb dataset,觀察資料結構
清理資料並轉換成訓練用格式 |
學習資料處理與 Datasets |
上機實習 講授 實作
|
作業
|
|
| 6 | 微調 (Trainer API) |
理論:微調流程、Trainer API
實作:
微調 DistilBERT 做情感分類
儲存並上傳模型到 Hub |
學會LLM微調 |
上機實習 講授 實作
|
作業
|
|
| 7 | 自訂訓練迴圈 |
理論:Accelerate、多 GPU 訓練
實作:
改寫簡單的 PyTorch 訓練 loop
比較 Trainer 與自訂 loop 效果 |
學會自訂訓練迴圈 |
上機實習 講授 實作
|
作業
|
|
| 8 | Tokenizer 訓練 |
理論:BPE / WordPiece / SentencePiece
實作:
用 HF Tokenizers 庫訓練一個中文 tokenizer
比較不同 tokenizer 的斷詞結果 |
學會Tokenizer 訓練 |
上機實習 講授 實作
|
作業
|
|
| 9 | 多語言 Tokenizer / 分析 |
理論:跨語言 tokenizer 的挑戰
實作:
用中英混合語料重新訓練 tokenizer
分析 token 分布與長度統計 |
學習多語言 Tokenizer / 分析 |
上機實習 講授 實作
|
作業
|
|