当前位置: 代码迷 >> 综合 >> VX2TEXT: End-to-End Learning of Video-Based Text GenerationFrom Multimodal Inputs
  详细解决方案

VX2TEXT: End-to-End Learning of Video-Based Text GenerationFrom Multimodal Inputs

热度:95   发布时间:2023-11-24 09:54:17.0

文章目录

  • 前言
  • 前言
  • 一、文章内容
  • 二、文章总结
  • 三、相关代码)
  • 一、文章内容
  • 二、文章总结
  • 三、相关代码


前言

[原文地址—2017](

文章目录

  • 前言
  • 前言
  • 一、文章内容
  • 二、文章总结
  • 三、相关代码)
  • 一、文章内容
  • 二、文章总结
  • 三、相关代码


前言

原文地址—2021

一、文章内容

  • 文章想法:
    把不同模态的信息的语义信号,转换为公共语义语言空间,这使得语言模型能够直接解释多模态数据。

  • 输入数据

  • 文章模型:

    • 模型从关于视频和音频的编码处理过程就是识别音视频的一些动作语义,比如视频里有人在走,语音中有鸟叫,风声男性女性声音等。
      在这里插入图片描述
  • 训练方式

  • 模型输出

  • 实验结果

  • 文章结论

二、文章总结

  • 文章novel和优势:
    • 将多模态信息都转为文本信息进行特征学习
    • 可以开放的进行文本生成
  • 同其他文章比较的劣势:

三、相关代码)

一、文章内容

  • 文章想法
  • 输入数据
  • 文章模型
  • 训练方式
  • 模型输出
  • 实验结果
  • 文章结论

二、文章总结

  • 文章novel和优势:
  • 同其他文章比较的劣势:

三、相关代码

  相关解决方案