Vico AI Vlog Editor — 项目介绍

产品愿景

让每个人都能轻松出片

目标用户 25-35 岁，常旅行、常参加活动，手机里有大量未整理的照片和视频，但没有时间和技能去剪辑。Vico 用 AI 帮你完成从素材分析到成品视频的全流程。

🎬

服务优先，而非工具优先

不需要学习任何剪辑技能，AI 主动提问、理解意图、自动创作。对比剪映——我们做的是"服务"而非"工具"。

📸

真实素材为主，AI 生成为辅

80% 保留用户真实影像记忆，20% 用 AI 生成过渡镜头和特效，区别于 Pixverse 等纯 AI 生成路线。

🎵

完整叙事短片

不仅是滤镜或单图美化，而是包含分镜、配乐、转场、字幕的完整叙事 Vlog，区别于 Remini 等单图处理工具。

对比维度	剪映 CapCut	Pixverse	Remini	Vico AI
定位	剪辑工具	AI 视频生成	图片美化	AI 剪辑服务
上手门槛	中等	低	低	极低
真实素材保留	100%	0%	100%	80%+
完整叙事能力	需手动	有限	无	AI 全自动
个性化定制	手动	提示词	滤镜	对话式交互

系统架构

Multi-Agent 导演制片流水线

基于 LangGraph 构建的 Multi-Agent 协作系统，由 Director Agent 统一调度，六大专业 Agent 各司其职，从素材分析到成品视频全自动流转。

入口

📤 用户上传素材 + 描述

照片 / 视频 + 几句自然语言描述需求

↓

Director

🎬 Director Agent

中央调度 · 意图分析 · 任务分发 · 进度控制 · 异常处理

↓

Gemini Vision

🔍 Material Analyzer

逐张分析素材内容、色彩、场景、情绪，生成整体摘要

↓

Claude

💡 Creative Generator

生成 5 张创意问答卡片 → 用户确认创意方向 → 输出完整创意方案

↓

Claude

📋 Storyboard Generator

生成三幕结构分镜表：镜号、时长、描述、运镜、I2V 标记

↓

Vidu Q3

🎥 Video Generator

Image-to-Video 并行生成
失败降级为原始素材

Suno + librosa

🎵 Music Generator

AI 配乐生成 + librosa 情绪分析
智能截取最佳匹配片段

↓

FFmpeg + TTS

✂️ Unified Editor

模糊背景消黑边 · 智能转场 · 字幕 · TTS 旁白 · 节拍同步 · 调色 · 三轨混音 → 导出成品

↓

输出

🎞️ 成品 Vlog 短片

9:16 竖屏 / 16:9 横屏，含配乐、智能转场、TTS 旁白、三轨混音

技术栈

现代化全栈技术架构

后端 Python 生态 + 前端 React 现代栈，集成四大 AI 服务，全面支持异步流式处理。

🤖 AI / LLM

Claude 4.5 Sonnet创意 / 分镜 / 调度
Gemini 3 Flash视觉理解 / 素材分析 / 转场规划
Vidu Q3 Pro图生视频 (I2V)
Suno V4.5AI 配乐生成
火山引擎 TTS旁白语音合成 (v0.2 新增)
librosa音乐情绪分析与智能截取 (v0.2 新增)

⚙️ 后端

FastAPIWeb 框架
LangGraphAgent 编排引擎
LangChainLLM 工具链
SQLAlchemy + AlembicORM + 数据迁移
FFmpeg + MoviePy视频处理引擎

🖥️ 前端

React 19UI 框架
TypeScript 5.9类型安全
Vite 7构建工具
Tailwind CSS样式框架
SSE / EventSource实时流式通信

🛠️ 基础设施

SQLite (dev)开发环境数据库
Redis缓存 / 状态管理
Structlog结构化日志
Sentry错误追踪

实测案例

上海迪士尼 · v0.2 最新成片

2026-03-09 最新 Session，集成全部 v0.2 新能力后的端到端成片效果。

📍 上海迪士尼乐园一日游 · v0.2

张照片输入

33s

成片时长

AI 服务协同

9:16

竖屏短视频

mixed_357ccb9a.mp4 — v0.2 最新生成结果 (2026-03-09)

素材分析 Gemini Vision

逐张分析 18 张照片，识别出：白天到夜晚的时间线、城堡/游乐设施/花车场景、温暖欢乐情绪基调

创意生成 + 旁白规划 Claude 4.5 NEW

生成创意问答卡片，同步规划旁白设计（风格、情绪、是否需要 TTS 旁白）

分镜 + 转场 + 旁白文案 Claude 4.5 NEW

三幕结构分镜，同步设计 20 种智能转场效果、逐镜头旁白文案与情绪标注

视频生成 Vidu Q3 Pro

Image-to-Video 并行生成，失败自动降级使用原始素材

配乐生成 + 智能截取 Suno V4.5 librosa NEW

AI 生成配乐后，librosa 分析能量/频谱/节拍，智能截取情绪最匹配的片段

TTS 旁白合成火山引擎 TTS NEW

根据分镜旁白文案，调用火山引擎 TTS 合成统一音色的旁白语音

智能剪辑 FFmpeg NEW

模糊背景消黑边 + 20 种智能转场 + 三轨混音（原声 + BGM + 旁白）→ 成品输出

项目进展

v0.2 智能剪辑能力全面升级

截至 2026-03-09，在 v0.1 核心流程基础上完成 5 项重大功能迭代，剪辑质量显著提升。

v0.2 新增能力

种转场效果

轨音频混合

AI 服务集成

2.4k+

行核心新代码

v0.2 更新日志

2026-03-09 迭代详情

BUG FIX Director 修改请求不响应

修复工作流完成后，用户提出修改请求（如"换转场"）时 Director Agent 只回复不执行的问题。

重构 decide_action 优先级逻辑，needs_task 优先
扩充 handle_modification 关键词映射（转场/效果/字幕/调色等）
modify 路径返回 action_required 信号触发前端 rerun
增强 understand() prompt，明确修改请求识别规则

FEATURE 模糊背景消除黑边

仿抖音方案：素材宽高比与目标不一致时，底层放置模糊放大的同素材作为背景，上层保持原比例居中。

ffprobe 自动检测素材分辨率
split → blur(sigma=25) → overlay 双层合成
覆盖 normalize / concat / xfade 全部路径

FEATURE 智能转场设计

20 种 FFmpeg xfade 转场效果，由 LLM 根据镜头内容、情绪变化、节奏智能选择最合适的转场。

fade / dissolve / wipe / slide / circle / pixelize / diag 全系列
LLM 分析镜头上下文，自动规划转场类型和时长
支持用户对话修改转场方案并实时重新生成

FEATURE 火山引擎 TTS 旁白

创意阶段规划旁白风格，分镜阶段逐镜头设计文案，剪辑阶段合成语音并三轨混音。

火山引擎 HTTP V1 TTS API 集成
6 种预设音色自动匹配旁白风格
三轨音频混合：原声 + BGM + TTS（支持 ducking）

FEATURE 音乐情绪智能截取

不再简单使用音乐开头片段，而是基于 librosa 分析找到情绪最匹配的最佳区间。

RMS 能量 + 频谱中心 + beat 位置综合评分
根据视频情绪偏好（活泼/安静/戏剧性）匹配最佳片段
优先在节拍位置开始截取，附加 fade-in / fade-out

完整里程碑

✓

Multi-Agent 核心框架 (LangGraph)

v0.1

✓

素材上传与视觉分析 (Gemini Vision)

v0.1

✓

创意方案生成与交互确认 (滑卡式)

v0.1

✓

三幕结构分镜表自动生成

v0.1

✓

Image-to-Video 视频生成 (Vidu Q3 Pro)

v0.1

✓

AI 配乐生成 (Suno V4.5)

v0.1

✓

统一剪辑 Pipeline + Web 前端 + SSE

v0.1

✓

Director 修改请求响应修复

v0.2 NEW

✓

模糊背景消除黑边（抖音风格）

v0.2 NEW

✓

20 种智能转场效果 + LLM 规划

v0.2 NEW

✓

火山引擎 TTS 旁白 + 三轨混音

v0.2 NEW

✓

librosa 音乐情绪分析与智能截取

v0.2 NEW

⟳

I2V 成功率优化

进行中

⟳

自动字幕 + 变速精剪

下一步

已知问题

待优化事项

v0.2 已解决部分关键问题，以下为剩余待优化方向。

HIGH

I2V 成功率偏低

视频生成任务成功率约 35%，需要优化 Prompt 工程和错误重试策略。

MEDIUM

时长控制不精确

目标时长与实际成片时长存在偏差，需加强分镜时长校验和剪辑阶段的补偿机制。

RESOLVED in v0.2

配乐情绪不匹配 ✓

已通过 librosa 音乐情绪分析 + 智能截取解决，不再简单使用音乐开头片段。

RESOLVED in v0.2

精剪能力不足 ✓

已完成：20 种智能转场、模糊背景消黑边、TTS 旁白、三轨混音。剪辑质感大幅提升。

后续规划

产品演进路线图

v0.1 — 已完成

核心 Pipeline 跑通

✓ Multi-Agent 调度框架
✓ 素材分析 + 创意生成
✓ 分镜 + I2V + 配乐 + 剪辑
✓ Web 前端 + SSE 流式推送
✓ Skill 预设系统

v0.2 — 当前版本

智能剪辑能力升级

✓ Director 修改请求响应修复
✓ 模糊背景消除黑边
✓ 20 种智能转场 + LLM 规划
✓ 火山引擎 TTS 旁白集成
✓ librosa 音乐情绪智能截取
⟳ I2V 成功率优化
⟳ 端到端稳定性打磨

v0.3 — 下一阶段

产品化 & 扩展能力

○ 用户系统 & 权限管理
○ 自动字幕生成 (ASR)
○ 批量处理 & 任务队列
○ 变速精剪能力
○ 国际化 (i18n)
○ 生产部署 (Docker/K8s)