当前位置: 首页 > news >正文

电脑版商城网站建设同仁seo排名优化培训

电脑版商城网站建设,同仁seo排名优化培训,河北邢台地震,免费网络推广怎么做文章目录一、安装依赖包mosesdecoder安装 mgiza二、数据预处理三、训练本文参考:How to train your Bicleaner https://github.com/bitextor/bicleaner/wiki/How-to-train-your-Bicleaner 一、安装依赖包 这个过程主要依赖于 mosesdecodermgiza mosesdecoder git…

文章目录

    • 一、安装依赖包
      • mosesdecoder
      • 安装 mgiza++
    • 二、数据预处理
    • 三、训练


本文参考:How to train your Bicleaner
https://github.com/bitextor/bicleaner/wiki/How-to-train-your-Bicleaner


一、安装依赖包

这个过程主要依赖于

  • mosesdecoder
  • mgiza++

mosesdecoder

  • github : https://github.com/moses-smt/mosesdecoder
  • 官方说明:http://www2.statmt.org/moses/?n=Development.GetStarted
    官方介绍了 windows, macOS 和各版本 ubuntu 的安装细节,这里以 ubuntu 为例

1、安装依赖

sudo apt-get install [package name]

Packages:

   g++ git subversionautomakelibtoolzlib1g-devlibicu-devlibboost-all-devlibbz2-devliblzma-devpython-devgraphvizimagemagickmakecmakelibgoogle-perftools-dev (for tcmalloc)autoconfdoxygen

2、安装

./bjam -j4

如果手动安装了 boost,也可以指定 boost 位置
boost 安装教程:https://blog.csdn.net/lovechris00/article/details/125423796

./bjam --with-boost=~/workspace/temp/boost_1_64_0 -j8

3、安装成功测试

cd ~/mosesdecoder
wget http://www.statmt.org/moses/download/sample-models.tgz
tar xzf sample-models.tgz
cd sample-models# 运行
~/mosesdecoder/bin/moses -f phrase-model/moses.ini < phrase-model/in > out

得到如下结果,代表安装成功
翻译结果:Translating: das ist ein kleines haus

Defined parameters (per moses.ini or switch):config: phrase-model/moses.ini 
...
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
**The ARPA file is missing <unk>.  Substituting log10 probability -100.000.
**************************************************************************************************
FeatureFunction: LM start: 0 end: 0
line=Distortion
...
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
****************************************************************************************************
Created input-output object : [0.685] seconds
Translating: das ist ein kleines haus 
...
Name:moses	VmPeak:193088 kB	VmRSS:11404 kB	RSSMax:37844 kB	user:0.684	sys:0.008	CPU:0.692	real:0.692

git clone https://github.com/moses-smt/mosesdecoder.git

安装 mgiza++

这里使用 linux 环境为例

# 安装 libboost (mgiza++ 的编译依赖于它)
sudo apt-get install -y cmake libboost-all-dev# 下载mgiza、安装 
git clone https://github.com/moses-smt/mgiza.gitcd mgiza/mgizappcmake . && make && make installcp scripts/merge_alignment.py bin/

二、数据预处理

上文给出的方式是使用 shell,主要实现对文本 tokenize 和 lower 的过程;
这里我使用 python 实现;
假设你有两个文件:raw.zh, raw.en


处理中文
这里使用 jieba 分词

import os ,sys     
import jieba def process(file_path): save_path = file_path + '_low.txt' print('\n-- start : ',file_path) for line in open(file_path):zh_toks = jieba.cut(line.strip())zh_text = ' '.join(zh_toks).lower() with open(save_path, 'a') as fa:fa.write(zh_text + '\n' )print('-- end : ', file_path, save_path)    if __name__ == '__main__':file_path = sys.argv[1]print('-- ', file_path)process(file_path)

处理英文

import os ,sys    
import nltk  def process(file_path): save_path = file_path + '_low.txt' print('\n-- start : ',file_path) for line in open(file_path):en_toks = nltk.word_tokenize(line.strip())en_text = ' '.join(en_toks).lower() with open(save_path, 'a') as fa:fa.write(en_text + '\n' )print('-- end : ', file_path, save_path)    if __name__ == '__main__':file_path = sys.argv[1]print('-- ', file_path)process(file_path)

处理后修改两个文件,以语种作为后缀;假设处理后的文件名为 clean.zh, clean.en;
除了语种后缀外,前面必须一致,方便后续处理;


三、训练

  • 使用 mosesdecoder 的 train-model.perl 文件来训练;
  • 需要添加 mgiza 的bin目录
  • --root-dir: 数据文件所在的根目录
  • -corpus 设置文件名前缀;这里为 clean
  • -e, -f 设置语种
/home/xx/mosesdecoder/scripts/training/train-model.perl \
--alignment grow-diag-final-and \
--root-dir /home/xx/data/230303  -\
-corpus clean -e en -f zh \
--mgiza -mgiza-cpus=16 --parallel --first-step 1 --last-step 4 \
--external-bin-dir /home/xx/scode/mgiza/mgizapp/bin

  • 40万条数据可能要训练2小时以上;为了测试,可以尝试训练 1w到5w条数据即可。
  • 如果报找不到 symal 之类,可能是 mosesdecoder 编译不成功导致

生成成功后,我们可以在 root-dir 下得到 model 文件夹,包含以下三个文件

  • aligned.grow-diag-final-and
  • lex.e2f
  • lex.f2e

伊织 2023-03-03

http://www.tj-hxxt.cn/news/10984.html

相关文章:

  • 网站建设讯美企业推广宣传方式
  • 北风淘淘网站开发吉林seo刷关键词排名优化
  • wordpress设置积分阅读常熟seo关键词优化公司
  • 属于网站建设过程规划搜索引擎营销的内容有哪些
  • 整合营销的特点人员优化方案
  • Asp.net网站开发分析app下载量推广
  • wordpress发布站点百分百营销软件官网
  • 网站做赌博词怎么推广上海关键词优化公司bwyseo
  • 教育与培训网站建设线上销售平台如何推广
  • 淘宝联盟怎么建网站网站优化建设
  • 做网站准备的资料网站建设图片
  • 设计师网站都有哪些站长之家网站模板
  • ruby 做网站百度关键词挖掘查询工具
  • 做网站需要编程?流感用什么药最好
  • 珠海网站建设有限公司搜索图片识别出处百度识图
  • 做游戏ppt下载网站市场推广和销售的区别
  • 中山祥云做的网站怎么样百度百科俄罗斯搜索引擎浏览器官网入口
  • 厦门做网站seo中国最新领导班子
  • 昆明网站建设_云南网站建设电商的推广方式有哪些
  • 做pos机网站有必要么海外aso优化
  • 那个网站做国外售货在哪里做推广效果好
  • 制作网站南京菏泽百度推广公司电话
  • wordpress多站点文章调用沈阳seo关键词
  • 机关内网站建设方案书开网站怎么开
  • 网站定制开发与模版品牌营销咨询公司
  • 做生鲜管理系统的网站百度风云榜明星
  • 网站做视频网站关键词
  • 网站设计培训学校电视剧百度搜索风云榜
  • 好的网站2020百度联盟一天多少收入
  • 做一手机网站需要多少钱上海seo关键词优化