当前位置: 首页 > news >正文

如何做外贸品牌网站建设句容建设工程备案网站

如何做外贸品牌网站建设,句容建设工程备案网站,wordpress+远程缓存,珠海品牌网站建目录 一.TF-IDF 二.LSI 三.相似度 四.主题和主题分布 五. LDA计算的相似度 六.LDA过程 七.主题 八.主题和主题分布 九.数据处理流程 十.常用正则表达式 十一.代码 一.TF-IDF 二.LSI 三.相似度 四.主题和主题分布 五. LDA计算的相似度 六.LDA过程 七.主题 八.主题和主…目录 一.TF-IDF 二.LSI 三.相似度 四.主题和主题分布 五. LDA计算的相似度 六.LDA过程 七.主题 八.主题和主题分布 九.数据处理流程 十.常用正则表达式  十一.代码 一.TF-IDF 二.LSI 三.相似度 四.主题和主题分布 五. LDA计算的相似度 六.LDA过程 七.主题 八.主题和主题分布 九.数据处理流程 1.获取QQ群聊天记录txt文本格式 2.整理成“QQ号/时间/留言”的规则形式 正则表达式 清洗特定词表情、XX 使用停止词库 获得csv表格数据 3.合并相同QQ号的留言 长文档利于计算每人感兴趣话题 4.LDA模型计算主题 调参与可视化 5.计算每个QQ号及众人感兴趣话题 十.常用正则表达式   匹配中文字符 [\u4e00-\u9fa5]  匹配双字节字符(包括汉字在内)[^\x00-\xff]  匹配空白行\n\s*\r  匹配HTML标记(\S*?)[^]*.*?/\1|.*? /  匹配首尾空白字符^\s*|\s*$  匹配Email地址\w([-.]\w)*\w([-.]\w)*\.\w([-.]\w)*  匹配网址URL[a-zA-z]://[^\s]*  匹配帐号合法(5-16位字母开头允许字母数字下划线)^[a-zA- Z][a-zA-Z0-9_]{4,15}$  匹配国内电话号码\d{3}-\d{8}|\d{4}-\d{7}  匹配腾讯QQ号[1-9][0-9]{4,}  匹配中国邮政编码[1-9]\d{5}(?!\d)  匹配身份证\d{15}|\d{18}|\d{17}[xX] 匹配ip地址\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3} 匹配特定数字  匹配正整数^[1-9]\d*$  匹配负整数^-[1-9]\d*$  匹配整数^-?[1-9]\d*$  匹配非负整数(正整数 0)^[1-9]\d*|0$  匹配非正整数(负整数 0)^-[1-9]\d*|0$  匹配正浮点数^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$  匹配负浮点数^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$  匹配浮点数^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0|0)$  匹配非负浮点数(正浮点数 0)^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0|0$  匹配非正浮点数(负浮点数 0)^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0|0$  匹配特定字符串  匹配由26个英文字母组成的字符串^[A-Za-z]$  匹配由26个英文字母的大写组成的字符串^[A-Z]$  匹配由26个英文字母的小写组成的字符串^[a-z]$  匹配由数字和26个英文字母组成的字符串^[A-Za-z0-9]$  匹配由数字26个英文字母或下划线组成的字符串^\w$ 十一.代码 if __name__ __main__:f open(LDA_test.txt)stop_list set(for a of the and to in.split())# texts [line.strip().split() for line in f]# print Before# pprint(texts)print (After)texts [[word for word in line.strip().lower().split() if word not in stop_list] for line in f]print (Text )pprint(texts)dictionary corpora.Dictionary(texts)print (dictionary)V len(dictionary)corpus [dictionary.doc2bow(text) for text in texts]corpus_tfidf models.TfidfModel(corpus)[corpus]# corpus_tfidf corpusprint( TF-IDF:)for c in corpus_tfidf:print( c)print (\nLSI Model:)lsi models.LsiModel(corpus_tfidf, num_topics2, id2worddictionary)topic_result [a for a in lsi[corpus_tfidf]]pprint(topic_result)print (LSI Topics:)pprint(lsi.print_topics(num_topics2, num_words5))similarity similarities.MatrixSimilarity(lsi[corpus_tfidf]) # similarities.Similarity()print (Similarity:)pprint(list(similarity))print (\nLDA Model:)num_topics 2lda models.LdaModel(corpus_tfidf, num_topicsnum_topics, id2worddictionary,alphaauto, etaauto, minimum_probability0.001, passes10)doc_topic [doc_t for doc_t in lda[corpus_tfidf]]print (Document-Topic:\n)pprint(doc_topic)for doc_topic in lda.get_document_topics(corpus_tfidf):print (doc_topic)for topic_id in range(num_topics):print (Topic, topic_id)# pprint(lda.get_topic_terms(topicidtopic_id))pprint(lda.show_topic(topic_id))similarity similarities.MatrixSimilarity(lda[corpus_tfidf])print (Similarity:)pprint(list(similarity))hda models.HdpModel(corpus_tfidf, id2worddictionary)topic_result [a for a in hda[corpus_tfidf]]print (\n\nUSE WITH CARE--\nHDA Model:)pprint(topic_result)print (HDA Topics:)print (hda.print_topics(num_topics2, num_words5))
http://www.tj-hxxt.cn/news/130467.html

相关文章:

  • 南阳做网站aokuo《基层建设》官方网站
  • 闵行广州网站建设百度seo排名如何提升
  • 哪里网站备案最快在线做字网站
  • 做企业网站的代码张家港网站设计建设
  • 西安网站设计建设公司 交通做网站要学些什么软件
  • 现在网站做多宽crm管理系统
  • 专业网站快速wordpress建图片网站
  • 用ps做零食网站模板网站顶部怎么做新浪链接
  • 违禁网站用什么浏览器宝安专业做网站
  • 网站图片如何做超链接怎么做下载类的网站
  • php自己做网站访问量计算淮北论坛最新招聘
  • 城乡住房建设厅网站首页移动终端开发
  • 无锡品牌网站建设培训网站系统建设
  • 滑县网站建设wordpress部署php
  • 商业网站的创建程序网站更改了资料 百度什么时侯来抓取
  • 昆明网站建设在河科技如何使用二级域名做网站
  • asp网站攻击网站开发实验总结
  • 做网站支付系统难度wordpress homepage plugin
  • 网站首页html代码的标签怎样打开用sql做的网站
  • 网站seo优化如何做佛山企业网站制作公司
  • 龙岩做网站开发哪家做的好网页动效 wordpress
  • 营销型企业网站分析与诊断虚拟网站php专业型
  • 垂直网站 开源码邵阳小学网站建设
  • 东莞做网站最好有哪些公司flask公司网站开发
  • 网站用户引导在阿里云做视频网站需要什么
  • 定制企业网站建设制作哪些婚庆公司比较好
  • 高度重视部门网站建设wordpress聊天系统
  • 美工设计素材网站公司网站首页的图片怎么做
  • 提供定制型网站建设wordpress 删除插件
  • 网上注册网站要钱吗用vs做网站如何连接数据库