llms-from-scratch-cn/Translated_Book/ch01/1.7构建大语言模型.ipynb

{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# 1.7 构建大型语言模型"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "在本章中，我们奠定了理解 LLMs 的基础。在本书的剩余部分，我们将从头开始编写一个 LLM 。我们将以 GPT 背后的基本思想作为蓝图，并按照图1.9中概述的三个阶段来解决这个问题。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "**图 1.9 本书涵盖的构建大型语言模型（LLM）的阶段包括实现LLM架构和数据准备过程、预训练LLM以创建基础模型，以及微调基础模型，使其成为个人助理或文本分类器。**"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "![fig-1.7-1](../img/fig-1.7-1.jpg)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "vscode": {
     "languageId": "plaintext"
    }
   },
   "source": [
    "首先，我们将了解基本的数据预处理步骤，并编写每个LLM核心的注意力机制。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "接下来，在第二阶段，我们将学习如何编写和预训练一个类似GPT的LLM，这种模型能够生成新文本。我们还将讨论评估LLM的基本原则，这对于开发能力强大的自然语言处理系统至关重要。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "请注意，从头开始预训练一个大型LLM是一项重大的工作，对于类似GPT的模型，计算成本可能需要数千到数百万美元。因此，第二阶段的重点是使用小数据集实施训练，目的是用于教育。此外，本书还将提供加载公开可用模型权重的代码示例。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "最后，在第三阶段，我们将采用预训练的LLM，并微调它以执行诸如回答查询或分类文本之类的指令——这是许多实际应用和研究中最常见的任务。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "希望您期待着开始这一激动人心的旅程！"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "vscode": {
     "languageId": "plaintext"
    }
   },
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "language_info": {
   "name": "python"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}