可能由不同的模型

 这种方法带来了显著的不良影响()。通过并行处理任务,我们在速度上取得了优势,但这却以碎片化为代价。当与智能体的交互可能由不同的模型、提示词或工具管理时,保持统一的用户体验变得极其具有挑战性。 为了解决这个问题,我们采用 澳大利亚赌博数据 了一个简单的组织结构: )一个小型“横向”工程小组,负责处理公共组件并专注于整体体验。

这包括

各种支撑此产品的基础服务 评估测试工具 所有垂直领域使用的全局提示词模板(例如,智能体的全局身份标识、对话历史、越狱攻击的防护等) 客户端的共享组件(注:一般就是指按钮、下拉列表这些) 一个服务器端驱动的框架,用于发布新的 盒装包装商品 – 包装类型 更改,而无需更改或发布客户端代码。(注:因为在服务端,那就需要有个在服务端生成的框架,很麻烦的一个东西) )多个“纵向”工程小组,各自对其智能体拥有自主权,例如: 个性化帖子摘要 岗位匹配度评估 面试技巧 )那些东西对我们有用: 分而治之,但限制智能体的数量 建立一个中心化的,通过多轮

对话支撑的评估过程

共享提示词模板(如“身份”定义)、模板、工具及指令 . 评价输出好坏 评估我们回答的质量比预期的要困难得多。这些挑战大致来自三个方面:制 定指南、扩展标注和自动评估。 制定指南:以岗位评估为例:点击“评估我是否适合这份工作”却得到 “你非常不适合”的结果其实没啥用。我们希望它既具有事实性又充满同理可能由不同的模型心。有些用户可能正在考虑转行到他们目前并不十分适合的领域,并需要帮助了解差距和下一步行动。不能确保这些细节的一致性就没法让保持标注者保持评分的一致性。 

扩展标注

最初,团队中的每个人都参与了讨论(产品、工程、设计等),但我们知道我们需要一个更加有原则的方法,拥有一致且多样化的标注者。我们内部的语言学家团队建立了工具和流程,使我们能够每天评估多达次对话,并获得以下方面的指标:整体质量分数、幻觉率、负责任的人工智能违规情况、连贯性、风格等。这成为我们了解趋势、迭代提示词并确保我们准备好上线的主要参考点。 自动评估是终极目标,但仍在进行中:没有它,工程师只能依靠主观判断和对有限示例的测试,并且需要天以上的时间才能获得反馈。我们正在构建基于模型的评估器来估算上述指标,并允许更快的实验,我们在幻觉检测方面取得了一些成功(但这并不容易!)。 智能体产品案例深度思考和分享(全球顶级公司实践细节,做智能体必读) 图:我们执行的评估步骤。 工程师进行快速、粗略的评估以获得方向性度量和判断。标注者提供更详细的反馈,但大约需要天的时间。测试成员是最终的评判者,并为我们提供规模性的反馈,但单个更改的某些度量可能需要天以上的时间。 

滚动至顶部