您好,欢迎来到97ic电子库存网!收藏本站
您所在的位置:首页行业新闻把大模型“刻进”芯片,AI芯片推理速度17000 TOKENS/秒

把大模型“刻进”芯片,AI芯片推理速度17000 tokens/秒

来源: 发布时间:2026-03-02

摘要:加拿大多伦多初创企业Taalas正式推出其首款AI推理芯片HC1,该芯片创新性地将大模型权重直接蚀刻于芯片金属互连层,实现了17000 tokens/秒的超高推理速度,凭借独特的技术路线打破了传统AI芯片的性能瓶颈

Taalas发布HC1 AI推理芯片:架构革新与行业挑战解析

近期,加拿大多伦多初创企业Taalas正式推出其首款AI推理芯片HC1,该芯片创新性地将大模型权重直接蚀刻于芯片金属互连层,实现了17000 tokens/秒的超高推理速度,凭借独特的技术路线打破了传统AI芯片的性能瓶颈,引发行业广泛关注。

Taalas公司成立于2023年,由Tenstorrent前联合创始人、前AMD及英伟达架构师柳比薩·巴伊奇(Ljubisa Bajic),联合工程师Drago Ignjatovic、Lejla Bajic共同创立。截至目前,该公司已通过三轮融资成功募集超过2亿美元资金,为技术研发与产品落地提供了坚实的资金支撑。

作为公司核心创始人,巴伊奇曾主导Tenstorrent可扩展AI加速器的研发工作,2023年3月离开该公司后创立Taalas,确立了“将人工智能商品化”的核心使命。他曾公开表示:“人工智能就像电力一样,是人们生产生活中不可或缺的必需品,必须让所有人都能便捷获取。而要实现这一目标,需要将计算能力与效率提升1000倍,当前这种渐进式的技术升级方式,根本无法达成这一愿景。”

这种“非渐进式”的技术革新思路,让Taalas从创立之初就走上了与行业巨头英伟达截然不同的发展道路。2023年8月至2024年3月期间,Taalas顺利完成两轮融资,其中首轮5000万美元融资由皮埃尔·拉蒙德与Quiet Capital牵头主导,后续融资则将公司总估值推升至2.19亿美元。投资人皮埃尔·拉蒙德对Taalas团队给予高度评价,认为其核心成员具备业内顶级的技术经验,所选择的发展方向有望实现1000倍的成本优化,推动人工智能真正成为基础设施级的核心能力。

Taalas所宣称的1000倍效率提升,并非夸大其词,而是源于对传统AI芯片架构的彻底重构。不同于通用GPU“内存加载模型、软件调度运行”的传统模式,Taalas采用创新的“Model Based”架构,将特定大模型的训练结果直接固化在晶体管层面,构建出物理意义上的“硬核模型”,从根本上改变了AI推理的运行逻辑。

其首款产品HC1芯片,采用台积电6nm制程工艺与Mask ROM技术,将Llama 3.1 8B模型的权重直接硬编码在硅片之上,从物理层面彻底消除了计算与存储之间的数据搬运环节,大幅提升了推理效率。根据Taalas官方公布的数据,HC1芯片的token处理速度约为英伟达B200芯片的48倍,硬件成本仅为传统GPU方案的1/20,功耗更是降至传统方案的1/10,且无需依赖液冷系统与HBM显存,仅通过空气冷却即可稳定运行,大幅降低了部署成本与难度。

然而,极致的性能表现也伴随着明显的短板——通用性的完全缺失。HC1芯片仅能支持特定的Llama 3.1 8B模型,一旦模型完成更新迭代,芯片就需要重新流片才能适配。尽管Taalas宣称,可将新模型转化为定制芯片的周期压缩至两个月,但在AI模型快速迭代的当下,这种“一模型一芯片”的模式仍面临着巨大的市场挑战。该模式要求客户对特定模型做出长期承诺,一旦行业技术路线转向全新架构,现有专用硬件将面临快速贬值的风险。对此,Taalas的应对策略是押注Llama等开源架构的长期主导地位,同时借助LoRA微调技术,优化芯片固化模型的适配能力,缓解通用性不足的问题。

生态系统不完善,也是Taalas面临的另一大核心难题。英伟达之所以能在AI芯片领域占据主导地位,核心优势在于其成熟的CUDA软件生态以及开发者的深度依赖,而Taalas的专用芯片缺乏配套的开发工具链,开发者需要重新进行适配调试,这无疑增加了客户的迁移成本。因此,如何快速构建自身的软件生态,吸引开发者参与,成为Taalas能否实现规模化落地的关键所在。

在实际测试过程中,HC1芯片虽能实现“2000字回复秒出”的高效表现,但回复质量存在明显缺陷,不仅简单运算易出错,面对复杂问题时还会出现“胡编乱造”的情况。这一问题的根源,在于初代HC1产品采用的定点数格式,无法满足复杂AI推理的精度需求。为解决这一痛点,Taalas已明确规划第二代产品HC2,该产品将改用标准4-bit浮点格式,以此改善推理精度,同时将模型支持规模提升至200亿参数,计划在2026年底前实现对GPT-5级别系统的覆盖,进一步提升产品竞争力。

中国科学院计算技术研究所副研究员赵永威,对Taalas的技术路线给予了高度评价。他认为,尽管目前Taalas的产品尚未具备实际应用价值,但这款芯片必将具有重要的历史意义,其采用的硬连线模式有望成为未来芯片的重要发展趋势,而Taalas敢于扛起行业质疑、探索全新技术路线的做法,将为后续从业者推广相关概念、开展技术研发降低难度。

当前,随着AI产业的发展重心从模型训练逐步转向推理部署,定制化AI芯片正逐渐脱颖而出,成为行业竞争的新焦点。在AI推理芯片赛道上,Taalas并非唯一的探索者,行业内已有多家企业在尝试通过放弃某一传统设计要素,换取推理环节的性能突破。例如,Etched公司将Transformer架构固化为ASIC电路,Groq采用纯SRAM架构打造LPU芯片(其独特的可重构数据流架构,能实现Token“瞬时”+“准时”的吞吐,超越GPU、TPU的物理极限),Cerebras则创新地将整块晶圆作为单颗芯片,各家企业凭借差异化的技术路线,共同推动AI推理芯片产业的多元化发展。