Last updated 2 years, 8 months ago
Last updated 2 years, 8 months ago
官方网站 https://www.yu444.com
客服频道 @kefu
供求频道 @gongqiu
公群频道 @hwgq (汇旺公群首字母)
新群 @xinqun
核心大群 @daqun
记账机器人 @hwjz
公司介绍 @hwdbgs
担保流程 @dbliucheng
Last updated 1 month, 3 weeks ago
Gen-3 Alpha:视频生成技术的新前沿,实现高保真度、可控性视频生成
- 与视频和图像联合训练,支持从文字到视频、从图像到视频以及从文字到图像等工具,同时保留运动笔刷、高级相机控制、导演模式等控制模式。
- 引入了一系列安全保障措施,包括内部视觉审查系统和C2PA来源标准。
- 训练数据包含描述性细致和时间密集的描述,支持场景元素的富有想象力的过渡和精确的关键帧设置。
- 表现出色的生成式真人角色,可以展示广泛的动作、手势和情绪,解锁新的叙事方式。
- 由跨学科团队的科研人员、工程师和艺术家合作训练,旨在解释各种风格和电影术语。
- 与主要娱乐和媒体组织合作,为Gen-3创建定制版本,允许更具风格的控制和一致的字符,达到特定的艺术和叙事要求。
- 所有示例视频均完全由Gen-3 Alpha生成,无任何修改。
- Gen-3 Alpha代表了高保真、可控视频生成的新前沿。它为艺术家提供了强大的新工具,为多种行业带来自定义解决方案的可能性。
Generating audio for video:DeepMind视频音频生成技术,为无声视频创造同步音轨的创新工具,结合视频像素和自然语言提示生成丰富的音景
- DeepMind研发了视频到音频(V2A)技术,可以利用视频像素和文本提示生成与视频同步的丰富音轨。
- V2A可与像Veo这样的视频生成模型配合使用,为视频添加戏剧性配乐、逼真音效或与视频角色和语气匹配的对话。
- V2A也可以为各类传统镜头生成音轨,如档案素材、无声电影等,拓宽创作空间。
- V2A支持无限生成音轨,允许定义正向和负向提示来指导生成所需的音频。
- V2A使用基于扩散的方法,先编码视觉输入,然后模型逐步从随机噪声中提炼音频。这个过程同时利用视觉输入和文本提示进行指导。
- 为提高音频质量,训练中加入了AI生成的含音频详细描述和语音转录的注释信息。
- V2A可理解原始像素,添加文本提示是可选的。它也无需人工调整生成音频与视频的对齐。
- 当前局限包括视频失真可影响音频质量,语音同步存在待改进之处。
- DeepMind将采取负责任的方式开发和部署V2A,正在与顶级创作者合作改进技术,并加入合成识别工具SynthID以防范技术误用。
- V2A正在进行安全评估,初始结果显示它是使生成视频栩栩如生的有前景技术。
DeepSeek-Coder-V2-Instruct:开源的专家混合模型,性能媲美GPT4-Turbo,专为代码特定任务优化,支持多源高质量语料库预训练,显著提升编程和数学推理能力,支持338种编程语言,扩展上下文长度至128K
用 ORPO 将 Llama 3 的性能提升到新高度 | 详文
ORPO(Odds Ratio Preference Optimization)是一种新的微调技术,可以将传统的监督微调和偏好对齐阶段合并为一个过程,从而减少计算资源和训练时间。
ORPO通过修改语言建模目标,将负对数似然损失与比值(OR)项相结合,以弱化被拒绝的响应并强化被选择的响应,让模型同时学习目标任务和人类偏好。
文章使用TRL库中的ORPOTrainer在Llama 3 8B模型上进行ORPO微调,数据集包含DPO偏好对,共1000个样本。尽管由于样本量少仅训练了1个epoch,但微调后的模型在Nous的基准测试中表现良好,所有指标上均优于Llama 3原模型。
ORPO展现了作为新的微调范式的潜力,未来在更大规模的偏好数据集上进行充分训练将产生更好的效果。选择高质量的数据集也非常重要。
当前是开源社区的活跃时期,正在发布越来越多高质量的开源模型,开源模型与专有模型的差距正在缩小,微调是获得最佳性能的关键。
Last updated 2 years, 8 months ago
Last updated 2 years, 8 months ago
官方网站 https://www.yu444.com
客服频道 @kefu
供求频道 @gongqiu
公群频道 @hwgq (汇旺公群首字母)
新群 @xinqun
核心大群 @daqun
记账机器人 @hwjz
公司介绍 @hwdbgs
担保流程 @dbliucheng
Last updated 1 month, 3 weeks ago