{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# 1.7 构建大型语言模型" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "在本章中，我们奠定了理解 LLMs 的基础。在本书的剩余部分，我们将从头开始编写一个 LLM 。我们将以 GPT 背后的基本思想作为蓝图，并按照图1.9中概述的三个阶段来解决这个问题。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**图 1.9 本书涵盖的构建大型语言模型（LLM）的阶段包括实现LLM架构和数据准备过程、预训练LLM以创建基础模型，以及微调基础模型，使其成为个人助理或文本分类器。**" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "![fig-1.7-1](../img/fig-1.7-1.jpg)" ] }, { "cell_type": "markdown", "metadata": { "vscode": { "languageId": "plaintext" } }, "source": [ "首先，我们将了解基本的数据预处理步骤，并编写每个LLM核心的注意力机制。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "接下来，在第二阶段，我们将学习如何编写和预训练一个类似GPT的LLM，这种模型能够生成新文本。我们还将讨论评估LLM的基本原则，这对于开发能力强大的自然语言处理系统至关重要。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "请注意，从头开始预训练一个大型LLM是一项重大的工作，对于类似GPT的模型，计算成本可能需要数千到数百万美元。因此，第二阶段的重点是使用小数据集实施训练，目的是用于教育。此外，本书还将提供加载公开可用模型权重的代码示例。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "最后，在第三阶段，我们将采用预训练的LLM，并微调它以执行诸如回答查询或分类文本之类的指令——这是许多实际应用和研究中最常见的任务。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "希望您期待着开始这一激动人心的旅程！" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "vscode": { "languageId": "plaintext" } }, "outputs": [], "source": [] } ], "metadata": { "language_info": { "name": "python" } }, "nbformat": 4, "nbformat_minor": 2 }