当前位置: 首页 > news >正文

如何自己搭建一个网站seo技术快速网站排名

如何自己搭建一个网站,seo技术快速网站排名,wordpress 检测redis,网站怎么做吸引人本文主要是介绍使用 Apache Tika 来读取 doc、docx 等格式文件内容。 场景 大模型业务应用开发中,避免不了文件的读取,虽说很多大模型应用平台都支持上传文件进行读取,但工作中不少文件保密性是相当高的,必须先在代码中处理一遍…

本文主要是介绍使用 Apache Tika 来读取 doc、docx 等格式文件内容。

场景

大模型业务应用开发中,避免不了文件的读取,虽说很多大模型应用平台都支持上传文件进行读取,但工作中不少文件保密性是相当高的,必须先在代码中处理一遍。

那么就会涉及到后端系统中读取多种文件格式的内容的场景,此时,正是 Tika 大显身手的好时候。

优点

这里选择对比网络上常出现的 poi 组件,有以下优点:

  1. 无需自行判断文件格式从而去选择对应的解析器,tika 支持自识别相当多的文件格式;
  2. 针对错误的 doc、docx 格式,传统代码很难区分,容易导致抛出异常。

如果你遇见了这种场景:doc 文件被修改后缀为 docx,然后代码中读取到的文件类型则为 docx,接着使用 poi 的 XWPFWordExtractor 解析则会报错。

此种情况是不容易区分出两种文件类型的,因为使用 WPS 打开不会存在提示,业务老师对此也不会敏感,你甚至都很难加上约束。

此时可以考虑使用 Apache Tika 帮你快速稳定实现文件读取功能。

用法

引入依赖

dependencies {runtime 'org.apache.tika:tika-core:3.2.0'runtime 'org.apache.tika:tika-parsers-standard-package:3.2.0'
}

执行代码

public String parse() throws IOException, SAXException, TikaException {Tika tika = new Tika();try (InputStream stream = Object.class.getResourceAsStream("test.doc")) {return tika.parseToString(stream);}
}

参考

https://tika.apache.org/3.2.0/examples.html
https://allinprogram.com/archives/zai-java-zhong-shi-yong-apache-tikadu-qu-doc-docxge-shi-wen-jian-nei-rong

http://www.tj-hxxt.cn/news/49595.html

相关文章:

  • 新中建设公司招聘网站seo入门基础知识
  • 书画艺术网站建设概况新闻稿范文
  • 建设网站合同范本合肥网络推广软件系统
  • 网站管理助手+建设中打开百度网站
  • 2网站建设公司企业seo案例
  • 大连哪里有手机自适应网站建设外贸网站推广平台
  • 成都青羊区建设局网站微信推广引流方法
  • 网站哪个做的好seo网络优化是什么工作
  • 如何使用好单库选品库做网站seo职位要求
  • 怎样做外贸网站推广南宁网站推广排名
  • 专业网站建设在哪里推广软件免费
  • 湖北省建设厅官方网站证书查询广告优化师培训
  • 太原哪里做网站网络推广哪个平台好
  • 新乡做网站公免费做网站推广的软件
  • 织梦做网站也是模板吗衡阳百度推广
  • 网站开发的语言网络营销属于什么专业类型
  • 可以自己做网站卖东西sem管理工具
  • 做js链接的网站要加证书吗长沙网站到首页排名
  • 湖南营销型网站百度ai人工智能平台
  • 宠物网站开发背景百度百家号官网
  • 做网站需要那些技术排名优化公司
  • 平安网站建设公司免费推广的途径与原因
  • 小企业网站建设的措施代运营竞价公司
  • python做网站比php好seo优化对网店的推广的作用为
  • 佛山网站建设公司营销策略从哪几个方面分析
  • 网站定制服务南京网站设计公司
  • mail邮箱登录入口优化大师下载旧版本安装
  • 网站设计中搜索界面怎么做关键词优化公司网站
  • 自己做的网站背景怎么设置今日新闻最新事件
  • 2013影响网站百度搜索排名的关键因素统计南京seo排名优化公司