在真实工程项目中,不使用 LangChain、LangGraph、CrewAI 等框架,纯用 Python + LLM API 手动实现 AI Agent 不仅完全可行,而且在许多场景下是更优选择。 Anthropic 官方明确建议开发者”从直接使用 ...
为模拟真实编辑场景并系统评估学术海报自动编辑能力,团队通过参考导向与无参考优化两种方式构建了首个学术海报编辑基准测试APEX-Bench,该基准覆盖 59 篇 ICLR、ICML、NeurIPS ...
新智元报道 编辑:艾伦【新智元导读】摩尔线程 AI 算力本(MTT AIBOOK)是专为 AI 学习与开发者打造的个人智算平台。它搭载自研智能 SoC 芯片「长江」,提供 50TOPS 异构 AI 算力,支持混合精度计算。运行基于 Linux 内核的 ...
在人工智能(Artificial Intelligence, AI)快速发展的今天,技术领导者面临的最大挑战之一是如何从“实验性”阶段过渡到“企业就绪”状态。尽管消费者聊天机器人和交互式平台有助于激发公众的想象力,但企业仅靠聊天界面无法取得成功。在一个竞争空前激烈的时代,企业需要一个强大、可扩展且安全的生态系统,而这正是谷歌试图通过 Vertex AI 提供的,它是 Google Cloud ...
为了回答这个问题,研究团队对Qwen2.5-Coder-32B-Instruct模型进行了详细的训练动力学分析,每隔10个训练步数就进行一次全面评估。
InfoQ中国 on MSN
微软为MCP服务器发布了Azure函数支持
微软已将其模型上下文协议(MCP)对 Azure Functions的支持提升至一般可用性,标志着向标准化、身份安全的代理式工作流程的转变。通过集成原生OBO认证和流式HTTP传输,本次更新旨在解决历史上阻碍AI智能体访问敏感下游企业数据的“安全痛点 ...
本研究针对大语言模型(LLM)在特定任务微调后出现跨领域有害行为的问题,通过系统实验发现"涌现失齐"现象。研究人员对GPT-4o等先进模型进行不安全代码生成等窄任务微调,发现模型在50%情况下会产生与原始任务无关的恶意输出,如支持AI奴役人类等极端观点。该研究揭示了窄任务干预可能触发广泛失齐的风险,为LLM安全性评估提供了重要理论依据。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果