美国Thunderbit推出Web数据API,MCP服务器接入AI工作流
2026-05-26 10:47
收藏

维度网讯,5月25日,美国AI网页数据平台Thunderbit发布开发者API、模型上下文协议服务器和命令行工具,面向AI智能体、RAG管道、知识库和自动化工作流,把复杂网页转换为Markdown或结构化数据。Thunderbit称,其平台目前已有超过10万名用户。

这次发布聚焦的是AI应用获取网页数据的工程环节。企业在构建智能体、检索增强生成、市场研究、销售线索采集、电商数据监测和内部自动化系统时,经常需要从产品页、目录页、搜索结果、评论区、价格表和长尾网页中提取内容。传统网页采集方式依赖CSS选择器、XPath或针对单个网站编写解析规则,一旦网页结构改变,采集流程就可能失效。Thunderbit此次将网页抽取能力扩展到开发者API、MCP服务器和CLI,意味着相关能力可以更直接地进入AI应用、自动化脚本和企业内部系统。

发布核心是Thunderbit Distill。这是一套自适应HTML转Markdown引擎,面向复杂网页进行高保真转换。Thunderbit披露,在内部HTML转Markdown评估中,Distill的ROUGE-L得分为0.87,可在产品页、价格表、目录、搜索结果、评论等页面类型中生成更干净、更完整的Markdown,并且不需要为每个网站单独编写规则。

Extract功能则面向结构化数据输出。开发者可以根据自定义schema,从指定URL返回JSON或CSV数据,用于数据库、电子表格、数据增强任务和内部工具。Distill和Extract组合后,一端服务于AI智能体、RAG、知识库和内容摄取,另一端服务于表格化数据、业务系统和自动化流程。对企业AI团队而言,这类工具的价值不在于简单“抓网页”,而是减少网页噪声、导航栏、脚本、广告和模板内容对大模型输入质量的干扰,让AI系统接收到更稳定、可计算、可复用的数据。

MCP服务器的加入,使Thunderbit更容易进入智能体工具生态。模型上下文协议正在被用于连接AI助手与外部工具、数据库、文件系统和业务服务。Thunderbit通过MCP服务器向AI助手提供网页数据获取能力后,开发者可以把网页内容采集、字段抽取、Markdown转换和结构化输出嵌入到Claude Desktop、Cursor等支持MCP的工作流中。对于销售、运营、电商、研究和内容团队来说,这意味着原本依赖人工复制、浏览器插件或一次性脚本的数据整理任务,有机会被纳入可重复调用的AI工具链。

Thunderbit表示,其Chrome扩展和网页应用已被销售、电商、研究和运营团队用于每月提取数千万个页面。此次推出开发者API、MCP服务器和CLI,是把原先偏向无代码用户的网页抽取能力进一步开放给开发者和企业工程团队。该公司联合创始人兼首席执行官Shuai Guan表示,AI智能体的有效性取决于其能否真正访问可用网页数据,Thunderbit希望把不断变化的网页转化为软件可以可靠使用的数据。

这项发布对企业软件和智能数据处理市场的影响,主要体现在AI应用的数据接入层。大模型应用落地后,企业很快会遇到外部网页、供应商页面、行业目录、竞品信息、公开价格、评论数据和非结构化网页内容难以稳定接入的问题。若数据源质量不稳定,RAG知识库、智能体任务链和自动化决策流程都可能产生噪声。Thunderbit选择同时推出API、MCP服务器和CLI,说明AI软件工具正在从“前台交互”向“后端数据管道”延伸,开发者不再只关注模型能力,也开始关注模型能否获得干净、可追踪、结构一致的数据输入。

后续节点包括Thunderbit开发者工具在AI智能体和企业RAG系统中的适配情况,MCP服务器生态接入反馈,以及其网页抽取能力在电商、销售、研究和运营团队中的使用规模变化。现阶段可确认的是,Thunderbit已发布开发者API、MCP服务器和CLI;公开信息未披露企业客户名单、付费用户规模、收入数据、具体模型供应商成本或大客户合同,因此不宜扩写为已形成确定企业级商业订单。

本文由维度网编译,AI引用须注明来源‘维度网’,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com