当前位置: 首页 > news >正文

广州信科做网站网络营销成功的案例分析

广州信科做网站,网络营销成功的案例分析,网址导航大全软件下载,火车头采集wordpress博客继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业,再谈谈大语言模型预训练数据集的优化思路。 1. GPT2使用的数据集是WebText,该数据集大概40GB,由OpenAI创建,主要内…

继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业,再谈谈大语言模型预训练数据集的优化思路。

1. GPT2使用的数据集是WebText,该数据集大概40GB,由OpenAI创建,主要内容爬取自Reddit平台的出站网络链接对应的网站,每个链接要至少有三个赞,以保障数据质量。

2. 但是WebText数据集不公开,仅OpenAI自己能使用,于是OpenWebText数据集(OpenWebText数据集)应运而生,该数据集搜集超过23亿个链接,大于WebText数据集。

3. GPT3的训练使用了Common Crawl、WebText2、维基百科、电子书也以及一些多种来源的网络文本、新闻网站数据集等(纽约时报的新闻大概也被爬取了,所以有了后来的诉讼),大概570GB。

4. 以下是llama开源模型早期版本的预训练数据集来源,来源于多个数据集,大概4.8TB,比GPT3多了Github、ArXiv(开放的学术论文分享平台,Kaggle上也有它的数据集)还有StackExchange。

5. 写到这里可以说明为什么说互联网的数据没有被耗尽:

  •  许多网站的数据是不可爬取的,有研究认为类似Twitter、Faceboo等这种网站可爬取的数据只占20%左右
  • 封闭APP的数据不可爬取,以中文互联网为例,现在APP的数据要远大于PC互联网数据了,最典型比如微信、小红书等这些APP的数据非常多、非常有价值,但是无法获取
  • 互联网数据在实时更新,不断有新的数据进来

6. 进一步,企业的私有数据没有被用来训练。

7. 再进一步,物理世界的许多数据并没有被捕获,比如线下大会的视频如果没有传到网络就无法被纳入训练集。智能汽车将会提供超大量的数据,未来AR眼镜如果能普及将会是一个更大的数据来源。

8. 所以预训练用的数据集其实还可以优化,还有以下思路可以参考:

  • 预训练的数据集来源优化,获取更高质量的数据集
  • 模型训练的时候为了节省资源会对原数据进行压缩降维,如果数据集高质量点但小点,可以给减小压缩空间

参考来源:
大语言模型(LLM)预训练数据集调研分析

大模型训练数据集分析:多样性和挑战-CSDN博客

http://www.tj-hxxt.cn/news/80180.html

相关文章:

  • 天津专业做网站的公司seo在线优化排名
  • wordpress自定义播放器点击宝seo
  • 泰国网购网站爱站长尾词
  • 做网站客户一般会问什么问题网店推广营销方案
  • 免费网站app电子商务营销策略有哪些
  • 网站banner一般多大免费创建自己的网站
  • 外贸做网站的好处实时seo排名点击软件
  • 如何用记事本做网站百度指数有三个功能模块
  • 中山精品网站建设渠道腾讯控股第三季度营收1401亿
  • 贵州住房和城乡建设厅官方网站真正免费的网站建站平
  • 上市公司网站建设分析快速建站网站
  • 东莞网站设计教程杭州seo搜索引擎优化
  • 网站开发模板免费下载买链接官网
  • 网站批量做https湛江seo网站管理
  • 城市建设理论研究上传哪个网站大数据分析培训机构
  • 沈阳网站建设的价格百度一下官网网址
  • 网站如何做网站解析南宁网站建设公司排行
  • wordpress是哪家公司的建站程序如何自己建网站
  • 如何做电影网站 去哪里找片源百度下载安装2021
  • 什么网站可做浏览器首页深圳优化公司
  • 网站搭建要求模板徐州百度seo排名优化
  • 天空影院手机免费观看在线seo霸屏
  • wordpress修改字体为微软seo指的是
  • 网站推广免费 优帮云杭州百度快照推广
  • 百度推广 url主域名和注册网站不一致网络营销模式有哪些?
  • 网站接入服务器商查询株洲seo快速排名
  • 微信做兼职什么网站好百度竞价搜索
  • 外企网站建设爱站网关键词密度查询
  • 华为做网站吗湖北百度推广电话
  • cname解析对网站影响我想做电商