见闻文章网 手机版
热门文章
  • 甘井子区举办“赋能争先 聚力攻坚”知行学堂第二期培训
    为强化春季火灾防控工作,全面提升干部群众消防安全管理能力和安全意识,3月21日,区委组织部举办“赋能争先 聚力攻坚”知行学堂第二期“消防应急”专题培训。 按照“大力支持业务骨干走上讲台”的工作要求,本次培训邀请区应急管理局党委书记、局长和区消防救援大队大队长分别以《防救结合强化基层应急管理工作》《基
  • 续航灭霸来了!7300mAh大电池+90W快充,月底发!
    近日,vivo Y300 Pro+ 配置被曝光了。此前 Y300 系列凭借出色续航与亲民价格已积累不少好口碑。Y300 Pro+的配置从处理器性能提升到影像优化,可以说是亮点十足。小雷先带大家看看外观。Y300 Pro+ 延续了前代 Y300 Pro 的全等深微四曲屏,配备 6.77 英寸屏幕,具备
  • 《落子未来》!大连新势力崛起
    今晚8点大连新闻综合频道,锁定系列纪录片《落子未来》第三集《引智聚企》,带您走进具有强大创新能力的全球独角兽企业和极具创新发展潜质的瞪羚企业,了解大连创新矩阵的重要力量,解码科技创新和产业创新深度融合。看这片科创热土如何以科技为笔以产业为卷绘就一幅中国式现代化的创新蓝图全球独角兽——不同“钒”响位于
  • 今日开票!2025 中超大连英博主场首战在即,燃爆梭鱼湾!
    来源:大连英博足球俱乐部、甘井子文旅▼▼
最新文章
  • “美加征关税没有任何经济依据” 巴西将公布对等反制法令
    当地时间13日,巴西副总统兼发展、工业与贸易部长阿尔克明在圣保罗接受采访时表示,美国加征关税“没有意义,将损害北美消费者利益”。△巴西副总统兼发展、工业与贸易部长阿尔克明(资料图)阿尔克明表示,美国加征关税没有任何经济依据且并不恰当,巴西考虑向世贸组织进行申诉。巴西联邦政府预计在当地时间15日之前公
  • 活力中国调研行|从采石场到“天上宫阙”:悬崖小镇望仙谷的重生传奇
    白天宛如“清明上河图”再现,夜晚更似现实版的“仙侠世界”,这个名叫望仙谷的悬崖上小镇,吸引着世界各地的游客前来打卡游玩。然而在多年前,这里却因无序采石而造成环境破坏,经济发展停滞不前。为了走好绿色发展之路,当地政府2007年叫停了望仙乡的石材加工产业,村民没有了收入来源,纷纷外出务工。2010年,望
  • 点草成金!看华容县如何把“生态包袱”变为“绿色财富”
    夏日的华容大地,稻浪翻滚,收割机穿梭作业,金黄的稻穗颗粒归仓;粉碎的秸秆则均匀铺撒在稻田里,化作滋养土地的“营养餐”;工厂车间里,昔日的田间“废弃物”经加工变身清洁燃料、优质饲料,正源源不断销往各地……近年来,华容县通过探索秸秆“五化”高效利用模式,让秸秆从“生态包袱”蜕变为“绿色财富”,蹚出了一条
  • 全国首个“白名单”,正式落地连云港!
    曾几何时,令人闻之色变的地沟油经过回收利用,成为飞机的“绿色燃料”,正源源不断地注入国际航空巨头的飞机油箱。这种“绿色燃料”叫生物航煤,随着今年5月中旬连云港嘉澳新能源1.34万吨生物航煤的成功出口,标志着全国首个生物航煤“白名单”出口试点正式在港城落地。坐落于灌云县临港产业区的连云港嘉澳生物航煤项
您的位置: 首页 > 实时讯息 >

刷新世界记录,40B模型+20万亿token,散户组团挑战算力霸权

0次浏览     发布时间:2025-05-27 09:45:00    

全球网友用闲置显卡组团训练大模型。40B大模型、20万亿token,创下了互联网上最大规模的预训练新纪录!去中心化AI的反攻,正式开始。OpenAI等巨头的算力霸权,这次真要凉了?

互联网上最大规模的预训练来了!

Nous Research宣布正式推出Psyche网络(Psyche Network),通过去中心化方式革新人工智能(AI)训练。

Psyche网络利用区块链技术,汇聚全球计算资源,成功启动了40B参数大语言模型Consilience的预训练任务,总计20万亿token,创下了迄今为止互联网上最大规模的预训练纪录。

大语言模型Consilience采用DeepSeek V3的多头潜在注意力(MLA)架构,相较于Llama使用的GQA架构更具表达力,同时通过优化QKV投影矩阵减少计算开销。

三种注意力的对比

Psyche利用全球闲置的计算资源(如4090、A100和H100等消费级GPU),大幅降低训练成本。

通过并行实验,Psyche鼓励开源社区提出新的模型架构和训练方法,未来可能催生更多创新。

Psyche网络技术原理图,核心在于DisTrO优化器与Solana区块链

过去,人们总觉得「AI模型的去中心化训练」不过是一种幻想,尤其在那些超越了爱好者规模的语言模型面前更是如此。

但几项关键技术突破——尤其是并行化和强化学习——正在逐渐打破这种局限,让除了OpenAI、Anthropic这类大公司之外的小型团队也开始进入这个赛道。

现在看来,聪明的算法可以弥补基础设施的不足,而像Nous Research这样的去中心化参与者正希望抓住这个机会。

砸碎算力墙

近年来,AI模型的训练逐渐被大型科技公司垄断。

训练一个前沿模型需要数千个高性能GPU和超高带宽的集群,这使得普通研究者或小型团队几乎无法参与。

这种集中化趋势不仅限制了创新,还可能导致少数科技去投垄断甚至控制AI模型。

集中式AI,可能会少数科技巨头「比你更了解你自己」。

Hermes系列中规模最大的模型——Hermes 3 405B,是在基础的Llama 3.1模型上进行微调完成的。

整个训练过程动用了128块H100 GPU,耗时约16小时(总计约2,086GPU小时)。

从成本上看其实并不离谱——目前租用8块H100的计算节点每小时大约在16到24美元之间,因此一次完整训练的开销大约在5,000美元左右

作为Nous Research Hermes系列的最新迭代Hermes 3 405BLlama-3.1 405B的全参数微调模型

但如果我们想更进一步,想得更大呢?

毕竟,Hermes目前还是依赖Llama作为基础模型。

如果我们不再依赖已有的模型,而是从零开始构建自己的基础模型,那我们就需要更庞大的“船”了。

要以更大规模、低成本地实现类似的训练成果,确实面临不少挑战,尤其是当训练从集中化的GPU集群转向基于互联网的去中心化网络时。

Nous Research提出了Psyche网络的解决方案:通过去中心化的方式,让全球的计算资源参与AI模型训练,降低进入门槛,推动AI发展的民主化。

Nous Research的Psyche网络成功实现了去中心化的AI训练,开创了一个全新的模式。

Psyche不仅降低了AI开发的门槛,还推动了全球协作和创新。

Consilience模型的预训练只是起点,未来Psyche网络有望成为AI民主化的重要基石,为开源社区和小型团队提供与科技巨头抗衡的机会。

用DisTrO解决带宽瓶颈

在去中心化训练中,网络带宽一直是最令人担忧的问题之一。

在传统的数据中心里,GPU之间通过极高带宽的连接(如NVLink或InfiniBand)相连,带宽可达每秒几百Gb(千兆位)。

而相比之下,互联网上的志愿者节点,往往只有几十甚至几百Mb(兆位)每秒的带宽。

质疑者认为,这种高达100倍甚至1,000倍的带宽差距,会让跨互联网的AI训练变得无比缓慢、几乎不可能。

毕竟,传统的训练方式需要GPU之间持续地交换更新信息,而如果试图用普通家用网络来完成这些通信,很可能会陷入「灾难级」的训练体验。

在此前对DeMo(Decoupled Momentum Optimization)的研究基础上,Nous推出的DisTrO技术,能够让所有训练节点保持高度同步,同时将所需带宽降低1,000到10,000倍

2024年12月,Nous与多位合作伙伴一起,在封闭测试网中,训练了一个150亿参数的基础模型,并成功验证了多项理论设想:

首次将DisTrO优化器系列大规模应用于训练任务

验证了节点中途掉线和新增节点时的容错能力

证明了增加训练节点确实能提升整体训练速度

这次实验标志着分布式、去中心化训练迈出了从理论走向现实的关键一步。

区块链+AI

在硅谷的一些圈子里,「加密」这个词几乎成了贬义词,而Nous一直努力保持与AI开发者之间的开放交流桥梁不被切断。

也正因如此,他们这次将Psyche搭建在区块链上,是一个值得关注的重要转变

Psyche将成为Nous用于预训练、微调和部署下一代模型的平台。

通过将技术栈迁移到Solana区块链,Nous希望释放区块链的以下三大优势:

无需许可:任何人都可以贡献计算资源

弹性与高可用性:不再依赖中心化基础设施

激励机制:协调并奖励为网络作出贡献的参与者

将这一协议向整个市场开放,意味着任何人都能拥有其中的一部分。而其潜在的扩展性之大,显然已经让不少极客兴奋不已。

计划概览

Nous的初期目标是先上线一个封闭测试网(Phase 0),验证是否能在Solana上运行一个更大规模、分布式、具备容错能力的DisTrO系统。后续阶段会逐步引入更高级的功能。

在Phase 0阶段,贡献者可以携带自己的GPU加入进来(明确提到支持4090、A100和H100等型号),并开始获得奖励。此阶段会对参与者进行筛选,以防止恶意行为者加入。

一旦系统稳定运行,权限将逐步开放,允许不同类型的计算资源(无论是专业的还是消费级的)自由接入网络,协助训练Llama、Diffusion等不同类型的模型架构。

强化学习后训练阶段

强化学习(Reinforcement Learning,RL)不依赖于预先准备好的数据集,而是通过模型与环境直接互动来学习。

每个节点如果做出有助于模型进化的行为,就会获得正反馈,反之则获得负反馈。

由于这些节点可以异步运行,分布式训练在强化学习框架下反而运行良好。

每个节点可以独立行动,收集经验,并定期与其他节点分享进展。

这极大缓解了传统训练中常见的「同步难题」,特别是在硬件能力和网络延迟差异大的情况下。

通过RL,Psyche上的预训练模型可以进一步学会推理能力和领域知识。

而每个Psyche节点在训练过程中的表现都将影响它的奖励:计算能力更强或使用了更先进训练方法的节点,可能会获得更多代币激励。

区块链:回归初心

在常常被斥为「过度炒作又频频令人失望」的区块链生态中,能看到真正的创新成果,确实令人欣慰——简直让人「冷漠的灵魂也重新燃起了热情」。

这一切,真的令人感到振奋。

Nous并不是一开始就拥抱区块链技术的,相反,他们几乎是被「拖着、踢着、喊着」走上了这条路——

但原因很简单:区块链确实是解决他们问题最合适的工具

他们需要一种方式,不论对方来自哪里,都能吸引计算资源与人才并进行公平支付;区块链,在这一点上表现得无比出色。

他们需要一种手段,能够协调并扩展大规模训练任务;而协调与扩展,正是区块链技术的「第二天性」。

他们还需要一种不受停电、封禁、宕机等影响的托管机制,能让项目「打不死」、无法被关闭;在这方面,区块链(这次不再是讽刺)也的确提供了最可靠的保障。

而最值得欣慰的是:这一次,人们选择区块链,不是出于投机炒作,而是出于对实际问题的认真思考与真实需求的回应。

如果Psyche成功了,它不仅将证明去中心化训练是切实可行的,更是回归初心:为取代的集中化计算,提供了强有力的工具

参考资料:

https://x.com/NousResearch/status/1922744483571171605

https://nousresearch.com/nous-psyche/

https://x.com/563defi/status/1909976170990313594

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

相关文章
  • @太原人 警惕虚假宣传诱导网络贷款风险
    发布日期: 2025-07-14 06:38:00
    混淆概念 不实承诺 隐瞒成本警惕虚假宣传诱导网络贷款风险  近期,一些不法机构或平台通过混淆概念、不实承诺、隐瞒成本等虚假宣传手段,诱导消费者办理网络贷款,不仅给消费者带来沉重的经济负担,还可能使消费者陷入法律纠纷。7月11日,山西省防范和打击非法集资公众平台根据国家金融监督管理总局金融消费者权益保
  • 河南宜阳法院召开打击治理电信网络诈骗及关联犯罪工作新闻发布会
    发布日期: 2025-07-12 12:14:00
    7月11日,河南省洛阳市宜阳县人民法院召开打击治理电信网络诈骗及关联犯罪工作新闻发布会,国家、省市县等媒体参加新闻发布会,人大代表、政协委员受邀出席发布会。宜阳法院党组成员、副院长马兴远,刑事审判庭庭长杨小红参加发布会。发布会上,马兴远通报了宜阳法院打击电信诈骗及关联犯罪工作情况,杨小红通报了3个典
  • 我市启动网络综合治理系列宣传活动
    发布日期: 2025-07-11 19:11:00
    水母网讯 近日,烟台市委网信办按照上级统一部署启动“网络举报e齐行 共筑清朗好空间”网络综合治理工作主题宣传活动。活动以网络谣言整治、网络违法和不良信息举报为重点,开展“进学校、进机关、进社区、进企业、进景区、进乡村”,皆在增强广大网民对网络谣言、网络违法和不良信息的辨识能力,切实提高网络谣言整治和
  • 保障流浪人员安全度夏,济南启动“夏季送清凉”专项救助行动
    发布日期: 2025-07-10 18:14:00
    受副热带高压影响,3日至10日济南市连续出现35℃以上高温天气。为守护街头流浪乞讨等临时遇困人员的生命安全,济南市社会救助综合服务中心迅速启动高温天气应急预案,以更密集的巡查、更精准的服务、更及时的救助,在热浪中撑起一片清凉的“生命守护伞”,将“夏季送清凉”专项救助行动落到实处。面对高温“烤”验,济
  • “气”象焕新 | 贵州管网公司:智慧调度织起能源脉络
    发布日期: 2025-07-10 15:38:00
    2025年6月23日晚,贵州省油气管道调度中心仁怀调度台在运行过程中发现仁怀地区支线压力较低,剩余下载气量不足以应对第二天的早高峰酒厂用气,值班人员立即联系上下游各单位协调应急气源,同时启动应急保供程序,协调北京油气调控中心额外下载天然气20万立方米,顺利度过高峰用气……这是贵州省油气管道调度中心仁