加州大学圣地亚哥分校计算、信息与数据科学学院(SCIDS)下属的Halıcıoğlu数据科学研究所(HDSI)教授Mikhail Belkin正与团队致力于为人工智能(AI)应用程序开发更精细的控制旋钮。他们成功发现了一种方法,可更精确地操控和修改大型语言模型(LLM),如Google Gemini和OpenAI ChatGPT等工具背后的强大AI系统。这一突破有望带来更安全、更可靠、适应性更强的AI。

研究团队包括来自加州大学圣地亚哥分校雅各布斯工程学院、麻省理工学院Broad研究所和哈佛大学等多个机构的专家。Belkin教授指出,当前大型语言模型在生成文本、翻译语言和回答问题方面能力突出,但其行为有时难以预测,甚至可能产生有害内容。为应对这一挑战,团队开发了一种新颖的“非线性特征学习”方法,能够识别和操纵LLM复杂网络中的重要底层特征。
通过这种技术,研究人员能够深入理解AI应用程序的内部思维过程,预测并主动影响模型输出,使其产生更有益、更少危害的响应。他们的方法包括分析LLM在不同层面的内部激活情况,精确定位与特定概念相关的特征,如毒性或事实准确性,并进行相应调整。
团队在一系列任务中展示了其方法的有效性,包括检测和缓解AI生成虚假信息的情况、有害性和毒性。此外,该技术还能引导LLM更好地理解各种语言中的概念,提高效率和成本效益。Belkin教授表示,通过关注关键的内部特征,他们能够使用更少的数据和计算资源来微调这些强大的模型,使先进的人工智能技术更容易获得。
这类研究为开发更具针对性的人工智能应用打开了大门,如提供精准医疗信息的人工智能助手或避免有害刻板印象的创意写作工具。研究团队已公开代码,鼓励在人工智能安全和控制领域进行进一步探索和发展。
更多信息: Adityanarayanan Radhakrishnan 等人,《线性递归特征机可证明恢复低秩矩阵》,《美国国家科学院院刊》(2025)。Adityanarayanan Radhakrishnan 等人,神经网络中的特征学习机制及无反向传播机器学习模型,《科学》(2024)。期刊信息: 美国国家科学院院刊 、 科学













京公网安备 11010802043282号