首页 > 极悦注册 > 行业资讯 > 图文并茂，三步速出「原神」文稿！首个70亿参数图文混合创作大模型正式开源，一键生成神作

图文并茂，三步速出「原神」文稿！首个70亿参数图文混合创作大模型正式开源，一键生成神作

时间：2023-10-16 13:48:30

作者：极悦注册科技

浏览：次

本文来自微信公众号“新智元”，作者：桃子好困，极悦注册科技经授权发布。

【新智元导读】AI动嘴的时代，创意文稿谁还用手写。上海人工智能实验室推出了首个图文混合创作大模型「书生·浦语灵笔」，三步就能生成图文并茂的神作，现正式开源。

解放双手，动嘴码字时代真的来了。
当你想写一份「原神」的宣传文稿时，根本完全不用上网翻找收集各种材料，只需要给模型一个指令「帮我以原神为题写一篇文章」。游戏背景现、上市时间、影响力等要点已经成文。接下来，你还可以让LLM自动插入趣味、生动的配图。

一眨眼的功夫，专属定制的神作就完成了。那么，究竟是什么模型有如此神力？它就是，书生·浦语灵笔（InternLM-XComposer，以下简称「浦语灵笔」）。这是上海人工智能实验室（上海AI实验室）推出的首个图文混合创作大模型。

依托强大的多模态性能，可以解锁「一键生成」图文混合文章的创作能力，为大模型落地应用提供更多可能。

目前，浦语灵笔已开源其中的智能创作和对话（InternLM-XComposer-7B）及多任务预训练（InternLM-XComposer-VL-7B）版本，并提供免费商用。

开源链接：http://github.com/InternLM/InternLM-XComposer

技术报告：http://arxiv.org/abs/2309.15112

今年7月以来，上海AI实验室陆续开源了书生·浦语大语言模型的7B（InterLM-7B）及20B（InternLM-20B）版本，为业界提供了完整的大模型研发与应用基座，以及全链条工具体系。基于书生·浦语大语言模型（InternLM），浦语灵笔接受视觉和语言模态输入，不仅在图文对话方面表现优秀，更具备图文并茂文章的「一键生成」能力。

准确图文理解，一键图文并茂

浦语灵笔能够进行流利的中英文图文对话，准确理解图像内容。得益于书生·浦语高质量多语言预训练的优势，浦语灵笔表现出对中国文化深厚的知识积淀。

例如，向浦语灵笔输入相关画作，其迅速识别并反馈画作表现主题为《赤壁之战》典故，亦能准确介绍影响成败的关键因素，体现出在图像内容理解和知识储备方面的优秀性能。

浦语灵笔识别中国文化典故

在多模态图文对话的「基本功」之上，浦语灵笔更是解锁了图文并茂文章创作的全新能力。

大语言模型（LLM）具备文本写作的能力，然而高质量文章往往需要准确且有趣的插图才「更显生动」。

浦语灵笔团队将书生·浦语强大的语言能力向多模态拓展，使其能够完成多模态文章创作。用户仅需提供主题，便可一键生成图文并茂的文章，体验全新的视觉与文本创作范式。

例如，向浦语灵笔提出创作一篇旅游攻略，该模型可迅速生成涵盖历史沿革、主要景点文物介绍的长篇文章，并在适当位置自动插入与文字信息对应的图片。

除自动配图能力外，浦语灵笔还提供了配图推荐和更换功能，根据用户实际需求定制图文内容。

浦语灵笔生成中文旅游攻略

目前，浦语灵笔已支持科普文稿、营销广告、新闻稿件、影视评论、生活指南等类型文章的图文并茂生成，并将逐渐开放更多能力，适应更多样化任务需求。

浦语灵笔生成英文电影评论

图文文章创作「三步走」

浦语灵笔为图文文章创作设计了「三步走」的算法流程。

浦语灵笔图文文章创作流程

理解用户指令，创作符合主题要求的长文章：浦语灵笔具有强大的写作能力，根据用户输入的主题，创作出文采斐然的文章。

智能分析文章，模型自动规划插图的理想位置，并生成所需图像的内容要求：浦语灵笔自动分析文章内容和段落布局，规划需要插图图片的位置。对于每个模型判断需要插图的位置，同时生成对图片内容需求的描述。

多层次智能筛选，利用多模态大模型的图像理解能力，从图库中锁定最完美的图片：采用从粗筛到精选的配图策略，根据生成图像内容需求，浦语灵笔会首先采用图文检索（Text-Image Retrieval）方式从海量图库中选择出一组候选图片。随后，利用多模态大模型强大的图像理解能力，将候选图片作为输入内容，让模型自动选择最符合文章上下文内容和整体图像风格的图片，完成文章的自动配图。

能力评测：综合领先开源多模态大模型

浦语灵笔出色的图文创作效果，得益于其多任务预训练模型（InternLM-XComposer-VL-7B）强大的多模态理解能力。

研究人员采用5个主流的多模态大模型评测对InternLM-XComposer-VL-7B的能力进行了详细测试，包含：

- MME Benchmark：包括14个子任务的多模态模型全面评测，关注模型的感知（Perception）和认知（Recognition）能力；- MMBench：包括20个能力纬度和使用ChatGPT循环评估策略的多模态评测；- MMBench-CN：简体中文版本问题和答案的MMBench评测；- Seed-Bench：提供包括人工标注的1.9万道多模态多选题目的多模态评测；