1. 前端极速提权
利用 Canvas 将高清原图在浏览器本地压缩为极轻量的 512px 缩略图 (Base64) 后上传,取代原图互传,极大地节省带宽并实现系统秒级响应。
2. 多模态视觉选曲
基于
Qwen-VL-Max 深度分析图组提炼画面情绪和主体内容,并从系统预装、由 Librosa 提取特征的数十首曲库中,智能检索匹配最搭的 BGM。
3. AI 剧本编排
Qwen-Plus 严格对齐 BGM 卡点波峰和视觉提示设定,结合用户意图,全流程零人工生成包含转场、滤镜与动态文案等视听一体化分镜图谱 JSON。
4. 并发云端渲染
Python 高性能渲染管线集成底层
FFmpeg / FFprobe,精准控制镜头运动空间学(Ken Burns)与文字叠加,最终多线程混合输出广播级成片。