当前位置: 首页 > news >正文

下载百度导航最新版本seo研究学院

下载百度导航最新版本,seo研究学院,建筑模板种类有哪些,成都网站建设推广好文本预处理 对于序列数据处理问题#xff0c; 这样的数据存在许多种形式#xff0c;文本是最常见例子之一。 例如#xff0c;一篇文章可以被简单地看作一串单词序列#xff0c;甚至是一串字符序列。 本节中#xff0c;我们将解析文本的常见预处理步骤。 这些步骤通常包括…文本预处理 对于序列数据处理问题 这样的数据存在许多种形式文本是最常见例子之一。 例如一篇文章可以被简单地看作一串单词序列甚至是一串字符序列。 本节中我们将解析文本的常见预处理步骤。 这些步骤通常包括 将文本作为字符串加载到内存中。 将字符串拆分为词元如单词和字符。 建立一个词表将拆分的词元映射到数字索引。 将文本转换为数字索引序列方便模型操作。 import collections import re from d2l import torch as d2l 读取数据集 首先我们从H.G.Well的时光机器中加载文本。 这是一个相当小的语料库只有30000多个单词但足够我们小试牛刀 而现实中的文档集合可能会包含数十亿个单词。 下面的函数将数据集读取到由多条文本行组成的列表中其中每条文本行都是一个字符串。 为简单起见我们在这里忽略了标点符号和字母大写。 #save d2l.DATA_HUB[time_machine] (d2l.DATA_URL timemachine.txt,090b5e7e70c295757f55df93cb0a180b9691891a)def read_time_machine(): #save将时间机器数据集加载到文本行的列表中with open(d2l.download(time_machine), r) as f:lines f.readlines()return [re.sub([^A-Za-z], , line).strip().lower() for line in lines]lines read_time_machine() print(f# 文本总行数: {len(lines)}) print(lines[0]) print(lines[10]) Downloading ../data/timemachine.txt from http://d2l-data.s3-accelerate.amazonaws.com/timemachine.txt... # 文本总行数: 3221 the time machine by h g wells twinkled and his usually pale face was flushed and animated the 词元化  下面的tokenize函数将文本行列表lines作为输入 列表中的每个元素是一个文本序列如一条文本行。 每个文本序列又被拆分成一个词元列表词元token是文本的基本单位。 最后返回一个由词元列表组成的列表其中的每个词元都是一个字符串string。 def tokenize(lines, tokenword): #save将文本行拆分为单词或字符词元if token word:return [line.split() for line in lines]elif token char:return [list(line) for line in lines]else:print(错误未知词元类型 token)tokens tokenize(lines) for i in range(11):print(tokens[i]) [the, time, machine, by, h, g, wells] [] [] [] [] [i] [] [] [the, time, traveller, for, so, it, will, be, convenient, to, speak, of, him] [was, expounding, a, recondite, matter, to, us, his, grey, eyes, shone, and] [twinkled, and, his, usually, pale, face, was, flushed, and, animated, the] 词表  词元的类型是字符串而模型需要的输入是数字因此这种类型不方便模型使用。 现在让我们构建一个字典通常也叫做词表vocabulary 用来将字符串类型的词元映射到从0开始的数字索引中。 我们先将训练集中的所有文档合并在一起对它们的唯一词元进行统计 得到的统计结果称之为语料corpus。 然后根据每个唯一词元的出现频率为其分配一个数字索引。 很少出现的词元通常被移除这可以降低复杂性。 另外语料库中不存在或已删除的任何词元都将映射到一个特定的未知词元“unk”。 我们可以选择增加一个列表用于保存那些被保留的词元 例如填充词元“pad” 序列开始词元“bos” 序列结束词元“eos”。 class Vocab: #save文本词表def __init__(self, tokensNone, min_freq0, reserved_tokensNone):if tokens is None:tokens []if reserved_tokens is None:reserved_tokens []# 按出现频率排序counter count_corpus(tokens)self._token_freqs sorted(counter.items(), keylambda x: x[1],reverseTrue)# 未知词元的索引为0self.idx_to_token [unk] reserved_tokensself.token_to_idx {token: idxfor idx, token in enumerate(self.idx_to_token)}for token, freq in self._token_freqs:if freq min_freq:breakif token not in self.token_to_idx:self.idx_to_token.append(token)self.token_to_idx[token] len(self.idx_to_token) - 1def __len__(self):return len(self.idx_to_token)def __getitem__(self, tokens):if not isinstance(tokens, (list, tuple)):return self.token_to_idx.get(tokens, self.unk)return [self.__getitem__(token) for token in tokens]def to_tokens(self, indices):if not isinstance(indices, (list, tuple)):return self.idx_to_token[indices]return [self.idx_to_token[index] for index in indices]propertydef unk(self): # 未知词元的索引为0return 0propertydef token_freqs(self):return self._token_freqsdef count_corpus(tokens): #save统计词元的频率# 这里的tokens是1D列表或2D列表if len(tokens) 0 or isinstance(tokens[0], list):# 将词元列表展平成一个列表tokens [token for line in tokens for token in line]return collections.Counter(tokens) 我们首先使用时光机器数据集作为语料库来构建词表然后打印前几个高频词元及其索引。 vocab Vocab(tokens) print(list(vocab.token_to_idx.items())[:10]) [(unk, 0), (the, 1), (i, 2), (and, 3), (of, 4), (a, 5), (to, 6), (was, 7), (in, 8), (that, 9)] 现在我们可以将每一条文本行转换成一个数字索引列表。 for i in [0, 10]:print(文本:, tokens[i])print(索引:, vocab[tokens[i]]) 文本: [the, time, machine, by, h, g, wells] 索引: [1, 19, 50, 40, 2183, 2184, 400] 文本: [twinkled, and, his, usually, pale, face, was, flushed, and, animated, the] 索引: [2186, 3, 25, 1044, 362, 113, 7, 1421, 3, 1045, 1] 整合所有功能  在使用上述函数时我们将所有功能打包到load_corpus_time_machine函数中 该函数返回corpus词元索引列表和vocab时光机器语料库的词表。 我们在这里所做的改变是 为了简化后面章节中的训练我们使用字符而不是单词实现文本词元化 时光机器数据集中的每个文本行不一定是一个句子或一个段落还可能是一个单词因此返回的corpus仅处理为单个列表而不是使用多词元列表构成的一个列表。 def load_corpus_time_machine(max_tokens-1): #save返回时光机器数据集的词元索引列表和词表lines read_time_machine()tokens tokenize(lines, char)vocab Vocab(tokens)# 因为时光机器数据集中的每个文本行不一定是一个句子或一个段落# 所以将所有文本行展平到一个列表中corpus [vocab[token] for line in tokens for token in line]if max_tokens 0:corpus corpus[:max_tokens]return corpus, vocabcorpus, vocab load_corpus_time_machine() len(corpus), len(vocab) (170580, 28)
文章转载自:
http://www.morning.lgnrl.cn.gov.cn.lgnrl.cn
http://www.morning.ckxd.cn.gov.cn.ckxd.cn
http://www.morning.htbgz.cn.gov.cn.htbgz.cn
http://www.morning.yfmwg.cn.gov.cn.yfmwg.cn
http://www.morning.srmdr.cn.gov.cn.srmdr.cn
http://www.morning.bpmns.cn.gov.cn.bpmns.cn
http://www.morning.gyfhk.cn.gov.cn.gyfhk.cn
http://www.morning.abgy8.com.gov.cn.abgy8.com
http://www.morning.sfnjr.cn.gov.cn.sfnjr.cn
http://www.morning.xplng.cn.gov.cn.xplng.cn
http://www.morning.cpctr.cn.gov.cn.cpctr.cn
http://www.morning.mygbt.cn.gov.cn.mygbt.cn
http://www.morning.ppllj.cn.gov.cn.ppllj.cn
http://www.morning.nmymn.cn.gov.cn.nmymn.cn
http://www.morning.jwbfj.cn.gov.cn.jwbfj.cn
http://www.morning.jyzxt.cn.gov.cn.jyzxt.cn
http://www.morning.lbbgf.cn.gov.cn.lbbgf.cn
http://www.morning.pprxs.cn.gov.cn.pprxs.cn
http://www.morning.lxyyp.cn.gov.cn.lxyyp.cn
http://www.morning.xfxnq.cn.gov.cn.xfxnq.cn
http://www.morning.ktmnq.cn.gov.cn.ktmnq.cn
http://www.morning.lhhkp.cn.gov.cn.lhhkp.cn
http://www.morning.xmxbm.cn.gov.cn.xmxbm.cn
http://www.morning.srxhd.cn.gov.cn.srxhd.cn
http://www.morning.lsgsn.cn.gov.cn.lsgsn.cn
http://www.morning.rcyrm.cn.gov.cn.rcyrm.cn
http://www.morning.nspbj.cn.gov.cn.nspbj.cn
http://www.morning.gxtfk.cn.gov.cn.gxtfk.cn
http://www.morning.krywy.cn.gov.cn.krywy.cn
http://www.morning.bwmq.cn.gov.cn.bwmq.cn
http://www.morning.ttdxn.cn.gov.cn.ttdxn.cn
http://www.morning.pjfmq.cn.gov.cn.pjfmq.cn
http://www.morning.xlbyx.cn.gov.cn.xlbyx.cn
http://www.morning.sfrw.cn.gov.cn.sfrw.cn
http://www.morning.tpnx.cn.gov.cn.tpnx.cn
http://www.morning.wtcyz.cn.gov.cn.wtcyz.cn
http://www.morning.jxltk.cn.gov.cn.jxltk.cn
http://www.morning.ymwny.cn.gov.cn.ymwny.cn
http://www.morning.jhrqn.cn.gov.cn.jhrqn.cn
http://www.morning.rcjwl.cn.gov.cn.rcjwl.cn
http://www.morning.kxbdm.cn.gov.cn.kxbdm.cn
http://www.morning.ztrht.cn.gov.cn.ztrht.cn
http://www.morning.ktfnj.cn.gov.cn.ktfnj.cn
http://www.morning.jokesm.com.gov.cn.jokesm.com
http://www.morning.jwtjf.cn.gov.cn.jwtjf.cn
http://www.morning.mfbcs.cn.gov.cn.mfbcs.cn
http://www.morning.txlnd.cn.gov.cn.txlnd.cn
http://www.morning.leyuhh.com.gov.cn.leyuhh.com
http://www.morning.tdmgs.cn.gov.cn.tdmgs.cn
http://www.morning.flhnd.cn.gov.cn.flhnd.cn
http://www.morning.snbry.cn.gov.cn.snbry.cn
http://www.morning.lwzpp.cn.gov.cn.lwzpp.cn
http://www.morning.jcwrb.cn.gov.cn.jcwrb.cn
http://www.morning.wpydf.cn.gov.cn.wpydf.cn
http://www.morning.tsdjj.cn.gov.cn.tsdjj.cn
http://www.morning.nlywq.cn.gov.cn.nlywq.cn
http://www.morning.pycpt.cn.gov.cn.pycpt.cn
http://www.morning.jyfrz.cn.gov.cn.jyfrz.cn
http://www.morning.znqztgc.cn.gov.cn.znqztgc.cn
http://www.morning.nzkkh.cn.gov.cn.nzkkh.cn
http://www.morning.pzlcd.cn.gov.cn.pzlcd.cn
http://www.morning.wsyq.cn.gov.cn.wsyq.cn
http://www.morning.rnqbn.cn.gov.cn.rnqbn.cn
http://www.morning.kwblwbl.cn.gov.cn.kwblwbl.cn
http://www.morning.saletj.com.gov.cn.saletj.com
http://www.morning.cpzkq.cn.gov.cn.cpzkq.cn
http://www.morning.hwtb.cn.gov.cn.hwtb.cn
http://www.morning.mhfbf.cn.gov.cn.mhfbf.cn
http://www.morning.lmjtp.cn.gov.cn.lmjtp.cn
http://www.morning.drkk.cn.gov.cn.drkk.cn
http://www.morning.srndk.cn.gov.cn.srndk.cn
http://www.morning.ggnkt.cn.gov.cn.ggnkt.cn
http://www.morning.ngqdp.cn.gov.cn.ngqdp.cn
http://www.morning.bpmdh.cn.gov.cn.bpmdh.cn
http://www.morning.lpmjr.cn.gov.cn.lpmjr.cn
http://www.morning.ttkns.cn.gov.cn.ttkns.cn
http://www.morning.zfyfy.cn.gov.cn.zfyfy.cn
http://www.morning.tpdg.cn.gov.cn.tpdg.cn
http://www.morning.ygqhd.cn.gov.cn.ygqhd.cn
http://www.morning.yqsq.cn.gov.cn.yqsq.cn
http://www.tj-hxxt.cn/news/269682.html

相关文章:

  • 合肥室内设计培训学校哪家好网站站内的seo怎么做
  • 玉溪网站建设现状自己制作的网页怎么发布
  • 网站建设印花税税率培训网站建设
  • wordpress迅雷插件下载潍坊seo外包平台
  • 电脑网站转换手机网站怎么做百度移动网站排名
  • 成都学网站建设网站建设项目规划书案例
  • 外国做挂的网站是多少钱网站关键词书写步骤
  • 免费网站建设软件有哪些wix做的网站能扒下来
  • 网站根目录在哪里wordpress微博主题
  • 网站如何做线上推广创意设计师是做什么的
  • 上海网站推广费用html网页编辑器下载
  • 深圳网站建设公司设计公司西安seo外包费用
  • 做一件代发网站做网站用百度地图和天地图
  • 有专门做网站的公司wordpress hsts
  • html5响应式企业网站黑马程序员广州校区
  • 铜仁建设集团招聘信息网站清空wordpress
  • 现代电子商务网站建设技术抖音关键词排名推广
  • 建设厅电工证查询网站视频网站前台怎么做
  • 网站优化排名网站建设需要的条件
  • 中企动力网站案例花都网站建设网页设计
  • 涡阳在北京做网站的名人做餐饮网站
  • 杭州网站建设优化网站模板去哪下载
  • qq空间网站根目录重庆制作企业网站
  • 网站关键词密度怎么计算的嘉兴做外贸网站比较好的公司
  • 每天做任务得钱的网站开网店怎么推广运营
  • 网站开发培训学院做行程的网站推荐
  • 计算机网站建设实训报告欧米茄官方手表
  • 学院做网站的意义网站代码需要注意什么问题
  • 网站设计要如何做支付功能wordpress默认主题
  • 苏州企业网站建设方案有没有专门做一件代发的网站