万网如何建网站,朔州seo网站建设,烟台主流网站,wordpress divi 主题i68,爱六八,链接你我他
StoryWeaver故事可视化
通过知识增强的角色定制技术#xff0c;实现高质量的故事可视化论文链接:https://arxiv.org/pdf/2412.07375项目仓库:https://github.com/Aria-Zhangjl/StoryWeaver由厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏…i68,爱六八,链接你我他
StoryWeaver故事可视化
通过知识增强的角色定制技术实现高质量的故事可视化论文链接:https://arxiv.org/pdf/2412.07375项目仓库:https://github.com/Aria-Zhangjl/StoryWeaver由厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室联合推出
主要功能
角色定制与可视化根据文本叙述和角色图像生成一系列视觉化的故事图像精确定制给定角色的形象。语义对齐系统能确保生成的图像序列与文本提示在语义上保持一致即图像内容与文本描述相匹配。知识图谱应用系统能理解和表示故事中角色的详细属性和角色间的关系。多角色互动StoryWeaver 能处理多角色故事场景保持每个角色的身份清晰展现角色间的自然互动。跨注意力分配优化多角色故事中的注意力分配避免身份混合问题。
相关文章
StoryWeaver故事可视化生成模型快速生成故事绘本支持处理单角色和多角色的故事可视化任务开源StoryWeaver为你生成完美的童话故事
StoryTeller长视频描述生成系统
StoryTeller简要
全自动的长视频描述生成系统字节跳动、上交、北大开源论文链接:https://arxiv.org/pdf/2411.07076项目仓库:https://github.com/hyc2026/StoryTellerStoryTeller 在 MovieQA 上超越了所有开源和闭源基线模型特别是StoryTeller 的准确率比最强的基线 Gemini-1.5-pro 高出 9.5%
StoryTeller亮点直击
引入音画角色识别任务提出了音画角色识别任务通过整合视觉、音频和文本信息实现对白与角色的精准匹配从而解决长视频描述中的一致性挑战包括角色描述和故事逻辑连贯性。StoryTeller系统创新: 开发了StoryTeller系统包含视频分割模块、音画角色识别模块和身份感知的描述生成模块生成密集且一致性高的长视频描述兼顾基础视觉概念和高级剧情信息。高质量数据集与自动评估方法: 构建了MovieStory101数据集包含密集标注的三分钟电影片段和对白角色身份标签同时引入MovieQA自动评估方法通过GPT-4回答多选问题以准确率衡量描述质量。显著性能提升: StoryTeller在MovieQA任务中比最强基线Gemini-1.5-pro提升9.5%准确率在人类对比评估中表现出15.56%的优势。同时将音画角色识别结果输入其他模型也显著提升了它们的长视频描述能力分别提升5.5%和13.0%的准确率。
StoryTeller相关文章
超Gemini-1.5-pro 9.5%字节上交北大开源StoryTeller生成一致性高的长视频描述
Story-Adapter长故事可视化
自动生成100帧漫画或动画的分镜图故事的语义一致性比较好图片间逻辑清晰人物场景能保持一致不需要额外训练可以直接使用论文链接:https://arxiv.org/abs/2410.06244官方网站:Story-Adapter项目仓库:https://github.com/jwmao1/story-adapter
原文链接:https://i68.ltd/notes/posts/20250102-llm-story/