当前位置: 首页 > news >正文

网站迁移教材旅游类网站如何做推广

网站迁移教材,旅游类网站如何做推广,wordpress文件权限设置,淘宝客推广怎么做网站备案继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业#xff0c;再谈谈大语言模型预训练数据集的优化思路。 1. GPT2使用的数据集是WebText#xff0c;该数据集大概40GB#xff0c;由OpenAI创建#xff0c;主要内…继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业再谈谈大语言模型预训练数据集的优化思路。 1. GPT2使用的数据集是WebText该数据集大概40GB由OpenAI创建主要内容爬取自Reddit平台的出站网络链接对应的网站每个链接要至少有三个赞以保障数据质量。 2. 但是WebText数据集不公开仅OpenAI自己能使用于是OpenWebText数据集OpenWebText数据集应运而生该数据集搜集超过23亿个链接大于WebText数据集。 3. GPT3的训练使用了Common Crawl、WebText2、维基百科、电子书也以及一些多种来源的网络文本、新闻网站数据集等纽约时报的新闻大概也被爬取了所以有了后来的诉讼大概570GB。 4. 以下是llama开源模型早期版本的预训练数据集来源来源于多个数据集大概4.8TB比GPT3多了Github、ArXiv开放的学术论文分享平台Kaggle上也有它的数据集还有StackExchange。 5. 写到这里可以说明为什么说互联网的数据没有被耗尽 许多网站的数据是不可爬取的有研究认为类似Twitter、Faceboo等这种网站可爬取的数据只占20%左右封闭APP的数据不可爬取以中文互联网为例现在APP的数据要远大于PC互联网数据了最典型比如微信、小红书等这些APP的数据非常多、非常有价值但是无法获取互联网数据在实时更新不断有新的数据进来 6. 进一步企业的私有数据没有被用来训练。 7. 再进一步物理世界的许多数据并没有被捕获比如线下大会的视频如果没有传到网络就无法被纳入训练集。智能汽车将会提供超大量的数据未来AR眼镜如果能普及将会是一个更大的数据来源。 8. 所以预训练用的数据集其实还可以优化还有以下思路可以参考 预训练的数据集来源优化获取更高质量的数据集模型训练的时候为了节省资源会对原数据进行压缩降维如果数据集高质量点但小点可以给减小压缩空间 参考来源大语言模型LLM预训练数据集调研分析 大模型训练数据集分析多样性和挑战-CSDN博客
http://www.tj-hxxt.cn/news/221917.html

相关文章:

  • 公司域名让做网站的做个网上平台大概要多少钱
  • 自助网站建设系统软件郑州哪家做网站好
  • 支持ipv6网站开发临沂免费模板建站
  • 枣庄学习建设网站培训小语种外贸网站建设
  • 酒店如何做团购网站网站怎么做快捷方式
  • 如何做商业网站网站空间在哪里买
  • 机械毕业设计代做网站c 可以用来做网站吗
  • 做网站推广话术怎么键卖东西的网站
  • 买东西的网站都有哪些聊城哪里可以学网站建设呢
  • 做电商网站需要注意哪些创意100图片欣赏
  • 网站图片一般多大住房和城乡建设部网站
  • 一站式网站建设比较好wordpress 淘客网站
  • 做网站要钱吗广州论坛建站模板
  • 做知识产权服务的网站网页模板下载 可以赚钱吗?
  • 网站建设的技术难点食品类网站模板
  • 网站软件app网络管理系统平台
  • 爱站网ip反域名查询自学网站建设要看什么书
  • 阿里云自助建站教程自适应网站如何做移动适配
  • 武夷山市建设局网站广告模板网站
  • 网站推广渠道怎么做wordpress带会员中心的主题
  • 商城网站流程wordpress qps
  • 流量卡分销平台seo优化价格
  • 网站策划案内容2万一3万电动汽车
  • 邯郸市建设局网站2017网站建设的软件叫啥
  • 卓越 网站中国交通建设监理协会网站打不开
  • iis5.1怎么发布网站做馋嘴小栈官方网站
  • html5网站开发框架灰色关键词排名优化
  • 自己网站做电子签章有效么首页关键词排名代发
  • 全自动引流推广软件下载谷歌seo网站推广怎么做
  • 建设银行温州支行官方网站做英语四级题的网站