btrfs 翻车记

本文来自依云's Blog,转载请注明。 如标题所言,我用了多年的 btrfs,终于还是遇到翻车啦。由于文件系统翻车了,相关日志内容缺失,所以本文我仅凭记忆描述事件,就不提供准确的日志输出了。 事件经过 出事的是 archlinuxcn 的编译机。那天中午时分我就收到了 Grafana 给我发送的莫名其妙的报警邮件,称某个监控项无数据了。我去面板上瞅了半天,明明有数据的啊。不解,但是忙别的事情去了,也没有细究。晚些时候,我又收到了好些同类告警,遂登录机器打算检查 G

使用A100GPU训练Vicuna-13b模型的实践

1. 背景最近我有幸拿得了A100 GPU资源,用于训练AI模型。我进行了一次关于使用A100训练Vicuna-13b模型的实践。 以下是这次训练的环境配置: 8个A100 GPU(每个GPU内存40Gb) 640Gb内存 256核CPU 在进行训练时,可以选择直接在物理机上进行,也可以使用Docker容器。而我选择了使用Docker作为训练工具,下面是软件环境 系统:Ubuntu2204 CUDA:12.2 Docker:20.10.21-0ubuntu1~22.04