Daily of Jin | 看逆天人士品逆天人生

Description
✨ 小金的日常生活呀 @SerinaNya
🌍 zh-Hans
🌆 Shanghai, UTC+8
🎮 maimai DX, Minecraft
💻 Python, Vue, github.com/SerinaNya
📡 fwnet

👇 友情链接 | See Also
· 咕谷酱的 @Goo_nest
· 橘猫 @orct_moments
We recommend to visit

Last updated 2 years, 11 months ago

Last updated 2 years, 12 months ago

官方网站 https://www.hwdb.la
客服频道 @kefu
供求频道 @gongqiu
公群频道 @hwgq (好旺公群首字母)
新群 @xinqun
核心大群 @daqun
记账机器人 @hwjz
公司介绍 @hwdbgs
担保流程 @dbliucheng

Last updated 2 months, 3 weeks ago

4 weeks, 1 day ago

这是能在b站上看的???😧

1 month ago

DeepSeek 使用了比 CUDA 更底层的 Nvidia PTX 进行编程

DeepSeek 高效突破是通过实施大量细粒度优化和使用 Nvidia 的汇编式语言 PTX (并行线程执行) 编程而不是标准的 CUDA 实现的。PTX 是 Nvidia 为其 GPU 设计的中间指令集架构,位于高级 GPU 编程语言 (如 CUDA C/C++ 或其他语言前端) 和低级机器代码 (流式汇编或 SASS) 之间。它将 GPU 公开为数据并行计算设备,因此允许细粒度优化,例如寄存器分配和线程/warp 级别调整,这是 CUDA C/C++ 和其他语言前端无法实现的。

在训练其 V3 模型时,DeepSeek 重新配置了 H800 GPU:在 132 个流式多处理器中,它分配了 20 个用于服务器间通信,可能用于压缩和解压数据,以克服处理器的连接限制并加快速度。为了最大限度地提高性能,DeepSeek 还实现了高级管道算法,可能是通过进行超精细的线程/warp 级别调整。这些修改远远超出了标准 CUDA 级开发,维护起来非常困难,这种级别的优化反映了 DeepSeek 工程师的卓越技能。

—— Tom's Hardware

1 month ago

新年快乐

3 months, 2 weeks ago
[#OUCDiner](?q=%23OUCDiner)

#OUCDiner
四食 馄饨面另加卤蛋、香肠+小笼包 21.5亓
评价:特种兵旅游回校,吃顿好的。味道爆赞?? 9/10分

3 months, 3 weeks ago
转发比赞多系列

转发比赞多系列

3 months, 3 weeks ago
6 months, 2 weeks ago

为什么最近几天我刷到那么多民族恐怖主义的视频?害得我必须看更多的搞笑视频来缓解

6 months, 2 weeks ago

早该管管了 ????

6 months, 2 weeks ago

就喜欢这种

We recommend to visit

Last updated 2 years, 11 months ago

Last updated 2 years, 12 months ago

官方网站 https://www.hwdb.la
客服频道 @kefu
供求频道 @gongqiu
公群频道 @hwgq (好旺公群首字母)
新群 @xinqun
核心大群 @daqun
记账机器人 @hwjz
公司介绍 @hwdbgs
担保流程 @dbliucheng

Last updated 2 months, 3 weeks ago