青岛谁优化网站做的好,如何看网站的浏览量,五指山网站开发价格,网站服务器空间价格文章目录 背景构建自动化内容生产平台系统架构设计架构详细设计流程介绍笔记来源笔记抓取干预 笔记 AIGC 赋能笔记 Rule 改写笔记特征库构建 附录Bash Cron 定时任务Golang 与 Pyhon AIGC 实践 小结 背景
在大模型的浪潮下#xff0c;ChatGPT、Sora、Gemini、文言一心 等新技… 文章目录 背景构建自动化内容生产平台系统架构设计架构详细设计流程介绍笔记来源笔记抓取干预 笔记 AIGC 赋能笔记 Rule 改写笔记特征库构建 附录Bash Cron 定时任务Golang 与 Pyhon AIGC 实践 小结 背景
在大模型的浪潮下ChatGPT、Sora、Gemini、文言一心 等新技术不断涌现。如何将新技术融合至业务落地开辟新赛道、提升产品竞争力 是大家比较关心的。因为一旦新融合场景契合可行对人们生产、生活将是里程碑的创新、跃进。 本文将介绍基于 LLM[大模型]、利用 AIGC 为笔记生产赋能。
主要场景为地图。可简要概括为利用人工智能手段生成地图类特征笔记以便于在地图类场景分发【商业路径这里不做赘述】。 注地图场景可替换为其他场景前提是具备其垂类场景的模型。 构建自动化内容生产平台
要实现在地图垂类场景下笔记的分发需要稳定的、高质的内容不断生成。形成规模化后用户习惯、心智才会逐渐培养、形成。 就持续性、规模化 而言自动化是达成目标的之一路径。 首要任务是搭建一个可自动化生产内容的系统。同时构建内容管理平台是为了支持数据量化、手动干预(紧急上/下线)、内容提质 等衍生能力。
系统架构设计 架构详细设计 流程介绍
笔记来源
在实际场景中笔记来源并不能像 “测试” 或者 “Demo” 一样随便给几个 Prompt 利用模型生成一篇。这样的笔记也不会被用户人群关注没有实用、情感、或者其他价值。 就有价值的笔记源来说实时咨询、财经、文娱、旅游…等垂类信息是较好的来源。 我们可以通过爬虫对新闻类、财经类、旅游类…等网站进行内容抓取作为笔记数据源。
笔记抓取干预
有了稳定的数据源之后需要对内容进行清洗、过滤通过 “漏洞策略” 提出契合 “地图特征“ 的笔记。
这里的策略可以是简单的黑白名单主要是进行 ”粗筛“ 精细化的清洗将会交给 LLM 处理。
笔记 AIGC 赋能
经过笔记抓取、粗略干预后的笔记基本可以保证是覆盖 ”地图特征“ 的但其中含有杂质且缺少精细化的挂接。
比如错误的位置信息、文章和主题的匹配度、水文、软广 等杂质。再比如相关位置信息没有对应的 loc 位置坐标无法构建特征数据等。 这就需要通过 LLM 基于 位置信息进行训练进而利用 模型组成系列模组对内容重新进行赋能。
考虑到笔记文章的质量、后续的特征建库、及分发这里主要进行下列模型处理
Extract-modelExtrac city\loc\desc by title and contentHitch-modelHitch pois list info by extrac res and title\contentFilter-modelCalculate the degree of match between the POI information and the extracted information, and mark those with a match degree lower than 0.7.Embedding-modelEmbedding Extract the vector features of the image and title.… 经过这些模型处理后剩下的笔记基本上就符合后续的分发且质量完全可以得到保证。
笔记 Rule 改写
AIGC 赋能后在实际生产中发现人工智能并不能解决全部问题。
像文本换行、特殊字符处理、文本提示/引导词/敏感词过滤还是需要辅助以规则进行外层兜底策略处理对笔记进行改写。
笔记特征库构建
TODO
附录
Bash Cron 定时任务
* 具体脚本代码可私信。
* * * * * cd /home/map/work/cron sh import.sh /dev/null 21
*/10 * * * * cd /home/map/work/cron sh consumer.sh /dev/null 21Golang 与 Pyhon AIGC 实践 output, err : exec.Command(python3, rootDir/scripts/handler.py, url, fileName, env.RootDir()/imgfile/).CombinedOutput()#!usr/bin/env python
# -*- coding:utf-8 _*-
import re
import sys
import json
# 检查文件是否存在如果不存在则创建
if not os.path.exists(LOCKFILE):with open(LOCKFILE, w) as f:f.write(0) # 写入初始并发计数
# 最大并发数
MAX_CONCURRENT 4
......小结
在实际生产中已经证明 “ 通过 大模型 和 AIGC 加持 与垂类业务相结合 ” 的道路是完全行的通的。并且生产力、产品质量 都有惊人的提升具备很高的发展潜能及空间。
由于篇幅有限具体特征库构建及内容分发在后续博文介绍。