mirror of
https://github.com/datawhalechina/llms-from-scratch-cn.git
synced 2026-05-01 11:58:17 +08:00
Update 1.5利用大型数据集.ipynb
This commit is contained in:
parent
78f5659127
commit
b379877ce6
@ -73,21 +73,21 @@
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"Wikipedia语料库由英语维基百科组成。虽然GPT-3论文的作者没有进一步指定细节,但Books1很可能是来自Project Gutenberg(https://www.gutenberg.org/)的样本,Books2很可能来自Libgen(https://en.wikipedia.org/wiki/Library_Genesis)。CommonCrawl是CommonCrawl数据库(https://commoncrawl.org/)的一个过滤子集,而WebText2是来自所有Reddit帖子中获得3个以上赞的外链网页的文本。"
|
||||
"Wikipedia语料库由英语维基百科组成。虽然GPT-3论文的作者没有进一步指定细节,但Books1很可能是来自Project Gutenberg (https://www.gutenberg.org/)的样本,Books2很可能来自Libgen(https://en.wikipedia.org/wiki/Library_Genesis)。CommonCrawl是CommonCrawl数据库(https://commoncrawl.org/)的一个过滤子集,而WebText2是来自所有Reddit帖子中获得3个以上赞的外链网页的文本。"
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"GPT-3论文的作者没有分享训练数据集,但一个公开可用的类似数据集是The Pile(https://pile.eleuther.ai/)。然而,这个集合可能包含受版权保护的作品,确切的使用条款可能取决于预期的用例和国家。更多信息,请参见HackerNews上的讨论,网址为 https://news.ycombinator.com/item?id=25607809。"
|
||||
"GPT-3论文的作者没有分享训练数据集,但一个公开可用的类似数据集是The Pile (https://pile.eleuther.ai/) 。然而,这个集合可能包含受版权保护的作品,确切的使用条款可能取决于预期的用例和国家。更多信息,请参见HackerNews上的讨论,网址为 (https://news.ycombinator.com/item?id=25607809)。"
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"这些模型的预训练特性使它们在进一步微调下游任务时具有极高的灵活性,这也是它们被称为基础或底层模型的原因。预训练大型语言模型(LLMs)需要访问大量资源,并且成本非常高昂。例如,GPT-3的预训练成本估计为460万美元的云计算积分[2]"
|
||||
"这些模型的预训练特性使它们在进一步微调下游任务时具有极高的灵活性,这也是它们被称为基础或底层模型的原因。预训练大型语言模型(LLMs)需要访问大量资源,并且成本非常高昂。例如,GPT-3的预训练成本估计为460万美元的云计算积分[2]"
|
||||
]
|
||||
},
|
||||
{
|
||||
|
||||
Loading…
Reference in New Issue
Block a user