分享按钮
• 初创公司 Pleais 开发了一系列用于特定官僚和行政目的的语言模型,其中包括检索增强生成,这些模型比 Mistral 和 ChatGPT 等巨头小得多。
• 该公司强调透明度、道德和尊重版权,旨在向客户提供保证,确保其语言模型符合严格的监管要求。
• Pleais 联合创始人 Pierre-Carl Langlais 解释了为什么在欧洲面临 GPU 基础设施短缺的情况下,专注于专用解决方案的战略是理想的选择。
您是如何创立 PLEAIS 的?您希望解决大型语言模型用户遇到的哪些问题?
作为一名数字人文研究者,我致力于语料库的分析,尤其是报纸档案,以了解不同类别的文本随着时间的推移是如何被感知的。这就是我对人工智能工具产生兴趣的原因,我很快意识到语言模型将发挥越来越大的作用。特别是,我发现某些职业需要知道这些模型是如何训练的,并确保它们不侵犯版权法。显然,一些模型需要经 手机号码数据 过审核,以保证透明度并确保它们符合法律规定。我们用于构建人工智能的来源的选择引发了重大的伦理问题,具有重要的文化和政治影响。这也与市场竞争问题有关,因为所有组织,无论规模大小,都需要获得适合其需求的模型。
具体来说,您的方法涉及什么?
我们最初受到中国项目QWEN的启发,该项目开发了许多高效模型,其规模从 5 亿到 40 亿个参数不等。我们的目标是提供各种系统,这些系统可以在价格合理的 GPU 甚至 CPU 上运行,并托管在本地基础设施上,用于公共服务、银行和医疗保健部门。我应该补充一点,我们不打算对这些模型收费,而是出售相关产品,例如集成研究工具。我们的 新加坡电话列表 共服务模型被命名为 Albert,是法国公共当局的生成式 AI 旗舰项目。它使用户能够执行总结报告和简化行政语言等任务,同时遵守最高的道德标准。
我们在不受版权保护的文本开放语料库上训练我们的模型,特别是因为授 您需要使用能够创造稀缺性 语料库是人工智能领域竞争的障碍。
为什么要构建较小的模型,而不是像 ChatGPT 这样的大型语言模型?
我们的目标是展示小型语言模型可以使用开放数据进行训练。这种方法特别考虑到了欧洲 GPU 基础设施的短缺,但我们也相信小型模型在专业环境中可以非常有效,可用于文档分析、行政程序和纯粹的官僚任务等有针对性的用途。而且我们不要忘记,主流通用模型(如 Mistral 和 GPT)需要大量配置才能有效处理特定行业的文档。
为什么您认为受监管的行业和公共服务将更多地使用您的模型?
《欧洲人工智能法案》引入了生成式人工智能的责任原则,责任由模型的创建者或部署模型的人承担。理论上,部署模型的人对生成的内容负责。然而,这导致双方之间产生了严重的紧张关系,因为几乎总是无法验证模型的训练方式。这对私营部门来说是一个问题,其中包括金融和医疗保健等受监管领域,这些领域需要遵守特定的法规。同时,公共部门也必须履行透明度的义务。这就是为什么我们在版权到期的文本开放语料库(主要是 PDF)上训练我们的模型,特别是因为授权语料库是人工智能领域竞争的障碍。