当前位置: 首页 > news >正文

做交流网站深圳平面设计公司推荐

做交流网站,深圳平面设计公司推荐,泉州网站建设公司首选公司,湖人排名最新目录 目标需求 数据内容 基于Hive数仓实现需求开发 1.建库建表、加载数据 2.ETL数据清洗 3需求指标统计 目标需求 基于Hadoop和hive实现聊天数据统计分析#xff0c;构建聊天数据分析报表 1.统计今日总消息量 2.统计今日每小时消息量#xff0c;发送和接收用户数 3.…目录 目标需求 数据内容 基于Hive数仓实现需求开发 1.建库建表、加载数据 2.ETL数据清洗 3需求指标统计 目标需求 基于Hadoop和hive实现聊天数据统计分析构建聊天数据分析报表 1.统计今日总消息量 2.统计今日每小时消息量发送和接收用户数 3.统计今日各地区发送消息数据量 4.统计今日发送消息和接收消息的用户数 5.统计发送消息最多的top10用户 6.统计接收消息最多的top10用户 7.统计发送人的手机型号分部情况 8.统计发送人的设备操作系统分布情况 数据内容 数据来源聊天业务系统中导出的2021年11月01日的一天24小时的用户聊天数据以TSV文本形式存储在文件中 数据大小两个文件共14万条 列分隔符制表符‘\t’ 数据字典及样列数据 基于Hive数仓实现需求开发 1.建库建表、加载数据 --------------1、建库---------------------如果数据库已存在就删除 drop database if exists db_msg cascade; --创建数据库 create database db_msg; --切换数据库 use db_msg; --------------2、建表------------------- --如果表已存在就删除 drop table if exists db_msg.tb_msg_source; --建表 create table db_msg.tb_msg_source(msg_time string comment 消息发送时间, sender_name string comment 发送人昵称, sender_account string comment 发送人账号, sender_sex string comment 发送人性别, sender_ip string comment 发送人ip地址, sender_os string comment 发送人操作系统, sender_phonetype string comment 发送人手机型号, sender_network string comment 发送人网络类型, sender_gps string comment 发送人的GPS定位, receiver_name string comment 接收人昵称, receiver_ip string comment 接收人IP, receiver_account string comment 接收人账号, receiver_os string comment 接收人操作系统, receiver_phonetype string comment 接收人手机型号, receiver_network string comment 接收人网络类型, receiver_gps string comment 接收人的GPS定位, receiver_sex string comment 接收人性别, msg_type string comment 消息类型, distance string comment 双方距离, message string comment 消息内容 ) --指定分隔符为制表符 row format delimited fields terminated by \t;--------------3、加载数据------------------- --上传数据文件到node1服务器本地文件系统HS2服务所在机器 --shell: mkdir -p /root/hivedata--加载数据到表中 load data local inpath /root/hivedata/data1.tsv into table db_msg.tb_msg_source; load data local inpath /root/hivedata/data2.tsv into table db_msg.tb_msg_source;--查询表 验证数据文件是否映射成功 select * from tb_msg_source limit 10;--统计行数 select count(*) as cnt from tb_msg_source;2.ETL数据清洗 --------------4、ETL数据清洗------------------- --问题1当前数据中有一些数据的字段为空不是合法数据 selectmsg_time,sender_name,sender_gps from db_msg.tb_msg_source where length(sender_gps) 0 limit 10;--问题2需求中需要统计每天、每个小时的消息量但是数据中没有天和小时字段只有整体时间字段不好处理 selectmsg_time from db_msg.tb_msg_source limit 10;--问题3需求中需要对经度和维度构建地区的可视化地图但是数据中GPS经纬度为一个字段不好处理 selectsender_gps from db_msg.tb_msg_source limit 10;--ETL实现 --如果表已存在就删除 drop table if exists db_msg.tb_msg_etl; --将Select语句的结果保存到新表中 create table db_msg.tb_msg_etl as select*,substr(msg_time,0,10) as dayinfo, --获取天substr(msg_time,12,2) as hourinfo, --获取小时split(sender_gps,,)[0] as sender_lng, --提取经度split(sender_gps,,)[1] as sender_lat --提取纬度 from db_msg.tb_msg_source --过滤字段为空的数据 where length(sender_gps) 0 ;--验证ETL结果 selectmsg_time,dayinfo,hourinfo,sender_gps,sender_lng,sender_lat from db_msg.tb_msg_etl limit 10; 3需求指标统计 --------------5、需求指标统计分析------------------- --需求统计今日总消息量 create table if not exists tb_rs_total_msg_cnt comment 今日消息总量 as selectdayinfo,count(*) as total_msg_cnt from db_msg.tb_msg_etl group by dayinfo;select * from tb_rs_total_msg_cnt;--结果验证--需求统计今日每小时消息量、发送和接收用户数 create table if not exists tb_rs_hour_msg_cnt comment 每小时消息量趋势 as selectdayinfo,hourinfo,count(*) as total_msg_cnt,count(distinct sender_account) as sender_usr_cnt,count(distinct receiver_account) as receiver_usr_cnt from db_msg.tb_msg_etl group by dayinfo,hourinfo;select * from tb_rs_hour_msg_cnt;--结果验证--需求统计今日各地区发送消息数据量 create table if not exists tb_rs_loc_cnt comment 今日各地区发送消息总量 as selectdayinfo,sender_gps,cast(sender_lng as double) as longitude,cast(sender_lat as double) as latitude,count(*) as total_msg_cnt from db_msg.tb_msg_etl group by dayinfo,sender_gps,sender_lng,sender_lat;select * from tb_rs_loc_cnt; --结果验证--需求统计今日发送消息和接收消息的用户数 create table if not exists tb_rs_usr_cnt comment 今日发送消息人数、接受消息人数 as selectdayinfo,count(distinct sender_account) as sender_usr_cnt,count(distinct receiver_account) as receiver_usr_cnt from db_msg.tb_msg_etl group by dayinfo;select * from tb_rs_usr_cnt; --结果验证--需求统计今日发送消息最多的Top10用户 create table if not exists tb_rs_susr_top10 comment 发送消息条数最多的Top10用户 as selectdayinfo,sender_name as username,count(*) as sender_msg_cnt from db_msg.tb_msg_etl group by dayinfo,sender_name order by sender_msg_cnt desc limit 10;select * from tb_rs_susr_top10; --结果验证--需求统计今日接收消息最多的Top10用户 create table if not exists tb_rs_rusr_top10 comment 接受消息条数最多的Top10用户 as selectdayinfo,receiver_name as username,count(*) as receiver_msg_cnt from db_msg.tb_msg_etl group by dayinfo,receiver_name order by receiver_msg_cnt desc limit 10;select * from tb_rs_rusr_top10; --结果验证--需求统计发送人的手机型号分布情况 create table if not exists tb_rs_sender_phone comment 发送人的手机型号分布 as selectdayinfo,sender_phonetype,count(distinct sender_account) as cnt from tb_msg_etl group by dayinfo,sender_phonetype;select * from tb_rs_sender_phone; --结果验证--需求统计发送人的设备操作系统分布情况 create table if not exists tb_rs_sender_os comment 发送人的OS分布 as selectdayinfo,sender_os,count(distinct sender_account) as cnt from tb_msg_etl group by dayinfo,sender_os;select * from tb_rs_sender_os; --结果验证FIneBI可视化报表 构建可视化报表
http://www.tj-hxxt.cn/news/221392.html

相关文章:

  • 做摄影网站网站制作怎么办
  • 乌兰察布网站建设网站开发的基本功能
  • 手机网站布局技术做网站百度还是阿里巴巴好
  • 做网站可以做哪些方面的做网站的钱付款用途写什么
  • 怎么选择顺德网站建设乐清上班族网论坛
  • 网站做直链下载存储解决方案建站国外平台
  • 已经有域名 怎么做网站网页设计作品源代码彼岸花坊
  • 宿迁网站推广公司品牌关键词优化哪家便宜
  • 建设银行集团网站首页网站建设的工作职责是什么
  • 网站建设用什么程序语言石家庄是几线城市
  • 网站做电子链接标识申请好吗网络营销案例并分析
  • mcms怎么做网站集成微信的企业网站管理系统
  • 网站转化wordpress 批量创建目录结构
  • 房山做网站好网站开发公司
  • 惠州网站开发建筑网络计划图
  • 百度上面如何做网站wap商城网站模板素材
  • 广州黄埔网站建设资阳建网站
  • 宝安做棋牌网站建设哪家便宜自己建设公司网站
  • 旅游网站建设服务自己学网站建设
  • 怎么给客户谈做网站如何做一个wordpress
  • 培训学校网站建设阿里主机wordpress
  • 淘宝优惠券网站怎么做的产品设计手绘图片
  • 百度怎样收录网站找客源用哪个软件好
  • 深圳常平网站建设制作公司网络营销试题
  • 网页设计与网站建设完全学习手册pdf有什么免费做代理的网站
  • 加强心理咨询网站的建设牛商网建设的食品网站
  • 广东省建设工程执业资格注册中心网站哈佛门户网站建设特点
  • 网站开发设计网站建设时怎么附加数据库
  • 怎么申请做网站可以做公众号的网站吗
  • 阿里巴巴国际站可以做网站吗工信部icp备案管理系统