网站迁移教材,旅游类网站如何做推广,wordpress文件权限设置,淘宝客推广怎么做网站备案继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业#xff0c;再谈谈大语言模型预训练数据集的优化思路。
1. GPT2使用的数据集是WebText#xff0c;该数据集大概40GB#xff0c;由OpenAI创建#xff0c;主要内…继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业再谈谈大语言模型预训练数据集的优化思路。
1. GPT2使用的数据集是WebText该数据集大概40GB由OpenAI创建主要内容爬取自Reddit平台的出站网络链接对应的网站每个链接要至少有三个赞以保障数据质量。
2. 但是WebText数据集不公开仅OpenAI自己能使用于是OpenWebText数据集OpenWebText数据集应运而生该数据集搜集超过23亿个链接大于WebText数据集。
3. GPT3的训练使用了Common Crawl、WebText2、维基百科、电子书也以及一些多种来源的网络文本、新闻网站数据集等纽约时报的新闻大概也被爬取了所以有了后来的诉讼大概570GB。
4. 以下是llama开源模型早期版本的预训练数据集来源来源于多个数据集大概4.8TB比GPT3多了Github、ArXiv开放的学术论文分享平台Kaggle上也有它的数据集还有StackExchange。 5. 写到这里可以说明为什么说互联网的数据没有被耗尽 许多网站的数据是不可爬取的有研究认为类似Twitter、Faceboo等这种网站可爬取的数据只占20%左右封闭APP的数据不可爬取以中文互联网为例现在APP的数据要远大于PC互联网数据了最典型比如微信、小红书等这些APP的数据非常多、非常有价值但是无法获取互联网数据在实时更新不断有新的数据进来
6. 进一步企业的私有数据没有被用来训练。
7. 再进一步物理世界的许多数据并没有被捕获比如线下大会的视频如果没有传到网络就无法被纳入训练集。智能汽车将会提供超大量的数据未来AR眼镜如果能普及将会是一个更大的数据来源。
8. 所以预训练用的数据集其实还可以优化还有以下思路可以参考
预训练的数据集来源优化获取更高质量的数据集模型训练的时候为了节省资源会对原数据进行压缩降维如果数据集高质量点但小点可以给减小压缩空间 参考来源大语言模型LLM预训练数据集调研分析
大模型训练数据集分析多样性和挑战-CSDN博客