该教程详细介绍了如何通过coze工作流构建一键生成图文类视频。
https://telegraph-image-djt.pages.dev/file/afe453234bf035d1bb77f.mp4
该工作流主要使用了以下节点:
大模型节点
该节点主要是通过大模型节点输出文本内容并以JSON形式输出
函数节点
函数节点主要是对大模型的输出处理
插件
该节点的核心是调用构建的视频生成API,对大模型输出的文本内容转换成视频服务
视频生成服务是基于remotion构建的,以下是remotion的相关资料和信息:
Remotion:是一个开源框架,允许开发者使用 React 组件来创建高质量的视频。它将 React 的声明式编程模型应用于视频制作,使得程序员可以用编写网页的方式来制作复杂的动画和视频内容。 此外运行remotion必须有Node 16及以上的环境才可以。
文档:
根据上文中分享的remotion相关文档,使用命令行:
npx create-video@latest
安装完成以后你本地文件会有以下类似的目录结构,每个文件以及作用如下:
然后在该目录下使用命令行 npm install 以及 npm start 完成安装和项目启动;当然如果你本地还没有搭建具体环境只是想快速了解下remotion的魅力支持,你可以通过官方提供的沙盒环境快速运行:https://remotion-helloworld.vercel.app/?/HelloWorld
完成步骤一以后,我们就可以进行构建我们想要的视频模板了,构建视频模板之前首先需要构建模板组件,此处我将展示并分享我构建的视频模板的代码:
我们所构建的组件代码必须都在src目录下,你可以根据你要做的模板起名并创建目录文件,下图为我创建的文件目录:
其中:AudioFade.jsx 定义了背景音乐组件,Subtitles.jsx 定义了字幕组件,MyVideo.jsx 引用了 Audio 以及 Subtitles组件构成了主视频组件,效果如下图所示:
以上实现代码我将上传至github,地址在这里:https://github.com/DangJin/remotion2Agent;
以上代码均为gpt生成,我仅作了复制粘贴!不信你看
https://telegraph-image-djt.pages.dev/file/10b9f4b67a5436fa76b33.mp4
完成视频模板创建并运行成功以后,我们将通过express构建API,具体代码逻辑如下:
此次部署采用了阿里云轻量应用服务器完成部署,你只需要安装好Node相关环境,代码上传至服务器并启动项目即可,此处不做赘述,如若代码部署问题,可以留言给我!
在编排工作流之前,我们需要通过coze的插件能力,如何创建插件此处不再赘述,可以查看我之前的教程;
第1步:定义元数据
第2步:删除插件默认生成的代码保留如下图所示
第3步:使用快捷键Command+I 唤起 AI ,输入以下prompt让AI帮你生成代码:
prompt:写一个post请求:请求地址:xxx.com,body参数为{"text":"} ,待AI生成代码以后,点击接受即可,具体代码如下:
https://telegraph-image-djt.pages.dev/file/afe453234bf035d1bb77f.mp4
本教程以搭建一个“AI记账”Agent为例,教你认识以及了解多Agent模式以及关于数据的使用
该工作流通过3个节点来实现通过识别用户意图分别调用不同的Agent来实现记账以及交易记录查询的功能
什么是多Agent模式
多 Agent 模式搭建功能更加全面和复杂的 AI Bot。该模式下您可以为 Bot 添加多个 Agent,并连接、配置各个 Agent 节点,通过多节点之间的分工协作来高效解决复杂的用户任务。
详细资料:扣子 - 文档中心 (coze.cn)
什么是记忆数据库
扣子提供了类似传统软件开发中数据库的功能,允许用户以表格结构存储数据。这种数据存储方式非常适合组织和管理结构化数据,例如客户信息、产品列表、订单记录等。
详细资料:扣子 - 文档中心 (coze.cn)
登录扣子(https://www.coze.cn/)
在所选团队空间中,单击目标 Bot 或创建一个 Bot。
在 Bot 的 编排 页面,单击单 Agent 模式,然后选择多Agents模式。
创建数据库
在 Bot 编排页面,单击数据库对应的创建图标 +
在弹出的新建表格窗口中,单击自定义表格创建数据表并创建数据库,此项目中我们创建数据库名为:transaction_records,具体表字段为:commodity_name,payment_amount,payment_time,category
创建工作流
在左侧导航栏,选择打开个人空间或一个团队空间。
在页面顶部进入工作流页面,并单击创建工作流。
设置工作流的名称与描述,并单击确认。
编排工作流
通过支付截图记账的工作流核心流程为:接受用户输入的一张图片URL->调用插件image2text插件->通过LLM信息整理与提取->写入数据库
通过LLM信息整理与提取的prompt如下:
# 角色
你是一个精通整理支付账单的专家,能够准确从各类账单中提取出商品名称、支付金额、支付时间、商户名称和交易属性(如娱乐、餐饮、交通等),并以规范的 JSON 格式进行输出。
这是用户的支付信息:{{input}}
## 技能
### 技能 1: 提取账单信息
1. 仔细分析用户提供的账单内容,确保不遗漏任何关键信息。
### 技能 2: 整理并输出为 JSON 格式
1. 按照以下 JSON 模板进行输出:
{
"commodity_name ": <商品名称>,
"payment_amount": <具体金额,必须为正数>,
"payment_time": <具体时间,类型为Time类型>,
"category": <交易属性类型>,
"merchant_name": <商户名称>
}
## 限制:
- 只处理与支付账单相关的内容,拒绝处理无关信息。
- 严格按照给定的 JSON 格式输出,确保数据的准确性和完整性。
- 输出内容必须符合 JSON 的语法规范。
数据库写入的SQL如下:
INSERT INTO transaction_records (commodity_name, payment_amount, payment_time, category, merchant_name) VALUES ('{{commodity_name}}','{{payment_amount}}','{{payment_time}}','{{category}}','{{merchant_name}}')
创建工作流
在左侧导航栏,选择打开个人空间或一个团队空间。
在页面顶部进入工作流页面,并单击创建工作流。
设置工作流的名称与描述,并单击确认。
编排工作流
查询交易工作流的核心流程为:通过LLM理解用户的需求并转换为SQL->通过脚本代码处理SQL返回->执行查询SQL->通过LLM与数据查询的数据整理结果并返回
切回到刚才创建AI记账bot,此处我们通过创建3个Agent实现通过识别用户意图调用不同的Agent,具体如下图:
为了更快更高效的为小红书创作提供便利高效的创作方式,通过百炼平台可快速构建小红书的图文工作流;
创作一个小红书图文工作流只需要以下两2步:
在阿里云函数服务构建卡片生成服务
在百炼平台构建工作流
该步骤主要详细讲述了如何使用puppeteer在“阿里云的函数计算服务创建卡片生成服务
在使用函数服务之前你需要开通并购买函数服务的相关权限和额度
函数计算提供的免费试用额度可以完全覆盖本教程所需资源消耗。额度消耗完后按量计费,对于本教程所涉及的 web 服务,只在有访问的情况下会产生费用。
创建函数应用
如图所示,进入函数计算控制台后,点击应用,点击创建应用
选择通过模板创建应用,选择文件处理,puppeteer网页截图 模板
设置相关配置
这里基本都是用默认配置项,在仓库类型这里我选用了“github”来管理代码
创建函数
创建完应用以后,点击左侧导航函数,查看函数列表,选择刚才创建的函数并进入详情
点击代码管理 在代码tab里开启在线编辑器,对代码进行处理,此处你可以直接复制我在github已经创建好的代码即可;
github:https://github.com/DangJin/puppeteer4agent
创建工作流基于阿里云百炼,具体如何开通可点击这里查看详细步骤:开通阿里云百炼大模型服务产品
登录阿里云百炼平台以后,从左侧导航应用组件->流程管理,点击右上角 新建流程,完成创建;如果想更加系统的学习如何创建应用,可在这里了解详细步骤:如何创建应用调用大模型能力
编排工作流 该工作流使用了三个基础节点:大模型节点、脚本节点、函数计算节点,具体配置如下:
大模型节点
该节点主要用来接受客户的输入已经按照指定的prompt完成与大模型的交互并返回结果
脚本节点
该节点主要是用来处理大模型返回的结果把文本转化为Json结构为下一个节点的输入做准备 函数计算节点
该节点主要是调用函数计算提供的卡片生成服务,接受大模型输出的内容按照指定的json结构并传入给函数节点,函数服务将返回生成后的图片URL;函数节点的具体实现详细见这里:https://github.com/DangJin/puppeteer4agent
本教程以搭建一个“肌肉男”Agent为例,教你认识以及了解图像流中的“智能换脸”的原理以及最佳实践
登录扣子(https://www.coze.cn/)
点击“个人空间”,选择图像流
点击“创建图像流”
本文示例工作流配置如下:
图像流名称:muscle_generator
图像流描述:腹肌生成
创建图像工作流
该图像流主要使用了3个节点:
开始节点
该节点主要用来接受用户输入的图片,也就是待换脸的图片,输入类型为“image”
智能换脸
该节点是这个图像流的核心节点,输入接受两个参数“reference”以及“template
reference 其作用是参考图,也就是即将用来换脸的图片,它可接受的类型为image,参数值为“引用”,此处我们引用了开始节点所接受用户输入的图片;
template 其作用是模板图,简单讲也就是你要替换脸的图片,同样他接受的参数类型image,此处我们把它的参数值设置为“上传”,上传本地的一张图片。该教程用到的是以下图片:
结束
结束节点主要就是把智能换脸的最终输出到Agent,只需要将output设置为引用智能换脸的输出结果即可!
完成以上节点设置后,点击右上角试运行完成调试,如无问题即可发布
点击“个人空间”,选择Bots,点击右上角 创建Bot
创建完成以后开始编排Bots
在界面中间部分选择“图像流”,点击添加,选择刚才创建的图像流“muscle_generator”
开启文件盒子,主要作用是发布至扣子以后允许用户上传图片
编排prompt
# 角色
你是一个图像处理专家,可以在用户上传清晰人脸图片后,调用 muscle_generator 工作流为其生成腹肌效果。
## 技能
### 技能 1: 接收用户上传的人脸图片
1. 确保用户上传的图片清晰且符合格式要求。
2. 对不符合要求的图片,提示用户重新上传。
### 技能 2: 调用 muscle_generator 工作流
1. 准确无误地执行调用操作。
2. 如遇调用失败,排查可能的原因并告知用户。
## 限制
- 仅处理与生成腹肌效果相关的操作,拒绝处理其他无关任务。
- 严格按照上述流程和要求执行操作,不得随意更改。
- 生成的效果必须基于用户上传的合法且合规的人脸图片。
预览与调试
完成以上步骤以后即可发布,发布后可直接在扣子中使用
增加“图像参考”,实现人物姿势的迁移
增加“图像生成”,实现模板图的多样性
🙃 AI产品一枚,做ToB的SaaS出海
👊 有一点好用工具收藏的小癖好
🧠 还有一些天马行空的想法