v0.2 智能剪辑能力全面升级

Vico AI Vlog Editor

你的 AI 剪辑师——上传照片和视频,几句话描述,AI 自动生成电影质感的 Vlog 短片

7
AI Agent 协作
5
AI 模型 / 服务
30s
一键出片
5
v0.2 新增能力
让每个人都能轻松出片
目标用户 25-35 岁,常旅行、常参加活动,手机里有大量未整理的照片和视频,但没有时间和技能去剪辑。Vico 用 AI 帮你完成从素材分析到成品视频的全流程。
🎬

服务优先,而非工具优先

不需要学习任何剪辑技能,AI 主动提问、理解意图、自动创作。对比剪映——我们做的是"服务"而非"工具"。

📸

真实素材为主,AI 生成为辅

80% 保留用户真实影像记忆,20% 用 AI 生成过渡镜头和特效,区别于 Pixverse 等纯 AI 生成路线。

🎵

完整叙事短片

不仅是滤镜或单图美化,而是包含分镜、配乐、转场、字幕的完整叙事 Vlog,区别于 Remini 等单图处理工具。

对比维度 剪映 CapCut Pixverse Remini Vico AI
定位 剪辑工具 AI 视频生成 图片美化 AI 剪辑服务
上手门槛 中等 极低
真实素材保留 100% 0% 100% 80%+
完整叙事能力 需手动 有限 AI 全自动
个性化定制 手动 提示词 滤镜 对话式交互
Multi-Agent 导演制片流水线
基于 LangGraph 构建的 Multi-Agent 协作系统,由 Director Agent 统一调度,六大专业 Agent 各司其职,从素材分析到成品视频全自动流转。
入口
📤 用户上传素材 + 描述
照片 / 视频 + 几句自然语言描述需求
Director
🎬 Director Agent
中央调度 · 意图分析 · 任务分发 · 进度控制 · 异常处理
Gemini Vision
🔍 Material Analyzer
逐张分析素材内容、色彩、场景、情绪,生成整体摘要
Claude
💡 Creative Generator
生成 5 张创意问答卡片 → 用户确认创意方向 → 输出完整创意方案
Claude
📋 Storyboard Generator
生成三幕结构分镜表:镜号、时长、描述、运镜、I2V 标记
Vidu Q3
🎥 Video Generator
Image-to-Video 并行生成
失败降级为原始素材
Suno + librosa
🎵 Music Generator
AI 配乐生成 + librosa 情绪分析
智能截取最佳匹配片段
FFmpeg + TTS
✂️ Unified Editor
模糊背景消黑边 · 智能转场 · 字幕 · TTS 旁白 · 节拍同步 · 调色 · 三轨混音 → 导出成品
输出
🎞️ 成品 Vlog 短片
9:16 竖屏 / 16:9 横屏,含配乐、智能转场、TTS 旁白、三轨混音
现代化全栈技术架构
后端 Python 生态 + 前端 React 现代栈,集成四大 AI 服务,全面支持异步流式处理。

🤖 AI / LLM

  • Claude 4.5 Sonnet创意 / 分镜 / 调度
  • Gemini 3 Flash视觉理解 / 素材分析 / 转场规划
  • Vidu Q3 Pro图生视频 (I2V)
  • Suno V4.5AI 配乐生成
  • 火山引擎 TTS旁白语音合成 (v0.2 新增)
  • librosa音乐情绪分析与智能截取 (v0.2 新增)

⚙️ 后端

  • FastAPIWeb 框架
  • LangGraphAgent 编排引擎
  • LangChainLLM 工具链
  • SQLAlchemy + AlembicORM + 数据迁移
  • FFmpeg + MoviePy视频处理引擎

🖥️ 前端

  • React 19UI 框架
  • TypeScript 5.9类型安全
  • Vite 7构建工具
  • Tailwind CSS样式框架
  • SSE / EventSource实时流式通信

🛠️ 基础设施

  • SQLite (dev)开发环境数据库
  • Redis缓存 / 状态管理
  • Structlog结构化日志
  • Sentry错误追踪
上海迪士尼 · v0.2 最新成片
2026-03-09 最新 Session,集成全部 v0.2 新能力后的端到端成片效果。

📍 上海迪士尼乐园一日游 · v0.2

18
张照片输入
33s
成片时长
5
AI 服务协同
9:16
竖屏短视频
mixed_357ccb9a.mp4 — v0.2 最新生成结果 (2026-03-09)
素材分析 Gemini Vision
逐张分析 18 张照片,识别出:白天到夜晚的时间线、城堡/游乐设施/花车场景、温暖欢乐情绪基调
创意生成 + 旁白规划 Claude 4.5 NEW
生成创意问答卡片,同步规划旁白设计(风格、情绪、是否需要 TTS 旁白)
分镜 + 转场 + 旁白文案 Claude 4.5 NEW
三幕结构分镜,同步设计 20 种智能转场效果、逐镜头旁白文案与情绪标注
视频生成 Vidu Q3 Pro
Image-to-Video 并行生成,失败自动降级使用原始素材
配乐生成 + 智能截取 Suno V4.5 librosa NEW
AI 生成配乐后,librosa 分析能量/频谱/节拍,智能截取情绪最匹配的片段
TTS 旁白合成 火山引擎 TTS NEW
根据分镜旁白文案,调用火山引擎 TTS 合成统一音色的旁白语音
智能剪辑 FFmpeg NEW
模糊背景消黑边 + 20 种智能转场 + 三轨混音(原声 + BGM + 旁白)→ 成品输出
v0.2 智能剪辑能力全面升级
截至 2026-03-09,在 v0.1 核心流程基础上完成 5 项重大功能迭代,剪辑质量显著提升。
5
v0.2 新增能力
20
种转场效果
3
轨音频混合
5
AI 服务集成
2.4k+
行核心新代码
2026-03-09 迭代详情

BUG FIX Director 修改请求不响应

修复工作流完成后,用户提出修改请求(如"换转场")时 Director Agent 只回复不执行的问题。

  • 重构 decide_action 优先级逻辑,needs_task 优先
  • 扩充 handle_modification 关键词映射(转场/效果/字幕/调色等)
  • modify 路径返回 action_required 信号触发前端 rerun
  • 增强 understand() prompt,明确修改请求识别规则

FEATURE 模糊背景消除黑边

仿抖音方案:素材宽高比与目标不一致时,底层放置模糊放大的同素材作为背景,上层保持原比例居中。

  • ffprobe 自动检测素材分辨率
  • split → blur(sigma=25) → overlay 双层合成
  • 覆盖 normalize / concat / xfade 全部路径

FEATURE 智能转场设计

20 种 FFmpeg xfade 转场效果,由 LLM 根据镜头内容、情绪变化、节奏智能选择最合适的转场。

  • fade / dissolve / wipe / slide / circle / pixelize / diag 全系列
  • LLM 分析镜头上下文,自动规划转场类型和时长
  • 支持用户对话修改转场方案并实时重新生成

FEATURE 火山引擎 TTS 旁白

创意阶段规划旁白风格,分镜阶段逐镜头设计文案,剪辑阶段合成语音并三轨混音。

  • 火山引擎 HTTP V1 TTS API 集成
  • 6 种预设音色自动匹配旁白风格
  • 三轨音频混合:原声 + BGM + TTS(支持 ducking)

FEATURE 音乐情绪智能截取

不再简单使用音乐开头片段,而是基于 librosa 分析找到情绪最匹配的最佳区间。

  • RMS 能量 + 频谱中心 + beat 位置综合评分
  • 根据视频情绪偏好(活泼/安静/戏剧性)匹配最佳片段
  • 优先在节拍位置开始截取,附加 fade-in / fade-out
Multi-Agent 核心框架 (LangGraph)
v0.1
素材上传与视觉分析 (Gemini Vision)
v0.1
创意方案生成与交互确认 (滑卡式)
v0.1
三幕结构分镜表自动生成
v0.1
Image-to-Video 视频生成 (Vidu Q3 Pro)
v0.1
AI 配乐生成 (Suno V4.5)
v0.1
统一剪辑 Pipeline + Web 前端 + SSE
v0.1
Director 修改请求响应修复
v0.2 NEW
模糊背景消除黑边(抖音风格)
v0.2 NEW
20 种智能转场效果 + LLM 规划
v0.2 NEW
火山引擎 TTS 旁白 + 三轨混音
v0.2 NEW
librosa 音乐情绪分析与智能截取
v0.2 NEW
I2V 成功率优化
进行中
自动字幕 + 变速精剪
下一步
待优化事项
v0.2 已解决部分关键问题,以下为剩余待优化方向。
HIGH

I2V 成功率偏低

视频生成任务成功率约 35%,需要优化 Prompt 工程和错误重试策略。

MEDIUM

时长控制不精确

目标时长与实际成片时长存在偏差,需加强分镜时长校验和剪辑阶段的补偿机制。

RESOLVED in v0.2

配乐情绪不匹配 ✓

已通过 librosa 音乐情绪分析 + 智能截取解决,不再简单使用音乐开头片段。

RESOLVED in v0.2

精剪能力不足 ✓

已完成:20 种智能转场、模糊背景消黑边、TTS 旁白、三轨混音。剪辑质感大幅提升。

产品演进路线图
v0.1 — 已完成

核心 Pipeline 跑通

  • Multi-Agent 调度框架
  • 素材分析 + 创意生成
  • 分镜 + I2V + 配乐 + 剪辑
  • Web 前端 + SSE 流式推送
  • Skill 预设系统
v0.2 — 当前版本

智能剪辑能力升级

  • Director 修改请求响应修复
  • 模糊背景消除黑边
  • 20 种智能转场 + LLM 规划
  • 火山引擎 TTS 旁白集成
  • librosa 音乐情绪智能截取
  • I2V 成功率优化
  • 端到端稳定性打磨