Update 1.5利用大型数据集.ipynb

This commit is contained in:
Wang Haoyu 2024-05-04 11:58:38 +08:00 committed by GitHub
parent 78f5659127
commit b379877ce6
No known key found for this signature in database
GPG Key ID: B5690EEEBB952194

View File

@ -73,21 +73,21 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"Wikipedia语料库由英语维基百科组成。虽然GPT-3论文的作者没有进一步指定细节但Books1很可能是来自Project Gutenberghttps://www.gutenberg.org/)的样本Books2很可能来自Libgenhttps://en.wikipedia.org/wiki/Library_Genesis)。CommonCrawl是CommonCrawl数据库https://commoncrawl.org/)的一个过滤子集而WebText2是来自所有Reddit帖子中获得3个以上赞的外链网页的文本。"
"Wikipedia语料库由英语维基百科组成。虽然GPT-3论文的作者没有进一步指定细节但Books1很可能是来自Project Gutenberg (https://www.gutenberg.org/)的样本Books2很可能来自Libgen(https://en.wikipedia.org/wiki/Library_Genesis)。CommonCrawl是CommonCrawl数据库(https://commoncrawl.org/)的一个过滤子集而WebText2是来自所有Reddit帖子中获得3个以上赞的外链网页的文本。"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"GPT-3论文的作者没有分享训练数据集但一个公开可用的类似数据集是The Pilehttps://pile.eleuther.ai/)。然而这个集合可能包含受版权保护的作品确切的使用条款可能取决于预期的用例和国家。更多信息请参见HackerNews上的讨论网址为 https://news.ycombinator.com/item?id=25607809。"
"GPT-3论文的作者没有分享训练数据集但一个公开可用的类似数据集是The Pile (https://pile.eleuther.ai/) 。然而这个集合可能包含受版权保护的作品确切的使用条款可能取决于预期的用例和国家。更多信息请参见HackerNews上的讨论网址为 (https://news.ycombinator.com/item?id=25607809)。"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"这些模型的预训练特性使它们在进一步微调下游任务时具有极高的灵活性,这也是它们被称为基础或底层模型的原因。预训练大型语言模型LLMs需要访问大量资源并且成本非常高昂。例如GPT-3的预训练成本估计为460万美元的云计算积分[2]"
"这些模型的预训练特性使它们在进一步微调下游任务时具有极高的灵活性,这也是它们被称为基础或底层模型的原因。预训练大型语言模型(LLMs)需要访问大量资源并且成本非常高昂。例如GPT-3的预训练成本估计为460万美元的云计算积分[2]"
]
},
{