合规注意

# uni-ai

ai大潮来袭，如何把ai能力引入自己的应用中？几乎是每个开发者都在关心的问题。

uni-ai，定位就是开发者使用ai能力的最佳开发库，更丰富、更易用、更高效。

# 特点

聚合

uni-ai，聚合了国内外各种流行的ai能力。包括

大语言模型LLM：chatGPT、GPT-4、百度文心一言、minimax等
图形能力：文心一格（未来还会聚合更多）

uni-ai支持配置自己在AI厂商处申请的API Key和代理，也支持免配直接使用。 <!-- 2. prompt辅助

自然语言谁都会说，但想提出一个好prompt来指挥ai满足自己的需求并不简单。所以出现了prompt工程师的说法。

uni-ai整合了大量prompt模板，并将提供 format prompt和prompt插件市场。

举个例子，如果你需要写一个产品营销文案，你可以使用自然语言，如请帮我编写一份产品营销文案，产品名称叫uni-app，它的特点是开发一次全端覆盖。

但实际上，自然语言这么写是繁琐且容易纰漏的。format prompt是弹出一个表单，你在表单里填写：

产品名称：uni-app
目标用户：程序员
产品归类：前端应用开发框架
产品用途：使用该框架开发应用，一次编码可覆盖到Android app、iOS app、web、以及各家小程序，如微信、百度、支付宝、抖音、qq、京东等小程序和快应用。
卖点：高效、易学、生态完善
文风：技术风格
字数：500字

uni-ai，为你提供更好的prompt。

私有数据训练

目前的大模型，没有最新的、以及企业私有的数据。各家也未开放fine-turning微调模型。

如何把私有数据灌入ai中，几乎是每个企业都关心的事情。

uni-ai将提供一整套方案解决这个问题，只需把私有数据按指定格式提交到你的uniCloud服务空间，就可以自动把这些最新的、私有的知识加入到ai的回答中。 --> 2. 现成开源项目

ai能力非常常见的应用场景，有智能客服和自动生成文稿。

uni-ai把这些常见场景对应的应用均已做好，并且开源。开发者可以直接拿走使用。

uni-ai-chat，独立的ai聊天模板。详见
uni-cms，内置了智能内容生成。详见
uni-im，内置了智能客服。详见

在线体验：https://hellouniadmin.dcloud.net.cn/。

这是一个集成了uni-cms的uni-admin系统。登录后，左侧内容管理中新建一篇文章，toolbar右上角有ai按钮。注意测试系统的数据会定时清除。

注意这个系统不等于uni-ai，uni-ai是底层的api。uni-cms是集成了uni-ai的开源应用。

费用优化

ai能力调用，是需要按token数量付费的。token太少会回答不准，太多则费用太高。在反复对话的场景下尤其涉及之前对话记忆多久的问题。uni-im等集成了uni-ai的对话应用，已经内置了平衡策略。开发者无需再编写复杂的代码。

使用简单的js api，快速开始你的ai之旅吧！

// 因涉及费用，ai能力调用均需在服务器端进行，也就是uniCloud云函数或云对象中
let llmManager = uniCloud.ai.getLLMManager({
  provider: 'azure'
})
await llm.chatCompletion({
  messages: [{
    role: 'user',
    content: '你好，ai'
  }]
})

# 概念介绍

# Token

在大语言模型中，token是指自然语言文本中的最小粒度单位，也就是一个最小的单词或符号。通常情况下，自然语言文本是由一个一个的token组成的，每个token都具备自己的词性、词义等属性。

在训练大语言模型时，会使用一种称为“词向量”的技术，将每个token表示成一个向量形式，这个向量可以包含很多有用的语义信息，比如单词的词性、上下文等。模型通过这些向量来学习和理解自然语言文本，并能够完成各种任务。

在大语言模型处理任务的过程中，输入的文本会被转译为token输入到模型中，而输出则是从token转译到文本。输入token与输出token的合计数量直接影响了大语言模型所消耗的算力，所以业界通常采用基于token数量的计费模式。

也就是一次请求，输入的前文和返回的后文，合计算token总数来计费。

不同的模型在处理文本时分词方法不完全相同，可能存在特定的一句话在不同的模型里面会计算出完全不一样的token数量，此外LLM服务商在处理输入时可能会加入一些额外token。如果服务商调整tokenizer算法也可能会导致token数计算变化。

中文、英文、数字、符号，对应的token数量也不同。

对于连续对话，如果有前文记忆总结，那么总结内容也会消耗token。比如uni-ai-chat模板中已经内置了前文记忆总结功能，会额外消耗token数（如果不进行总结，要不丢失会话记忆，要不多轮对话会因为token数太多无法进行）

不同大语言模型单次请求的token最大数是有上限的，详见开发文档。

举例，同样是输入15个字，返回100个字，在minimax和gpt-3.5-turbo上，token数不一样。

minimax：总token数**315**
用户：写一段关于森林的100字小作文
AI：森林，大自然的宝库，生机勃勃，郁郁葱葱。它为动物提供栖息之所，为植物提供生长的沃土。茂密的枝叶遮挡烈日，使森林内部充满凉爽，是夏日的天堂。徒步走进森林，感受清新的空气和鸟鸣，心旷神怡。树木彼此交织，形成绿色的迷宫，散发神秘的气氛。山谷河流点缀其中，与森林和谐共生，形成大自然的奇景。森林不仅是生态的保护者，也是人类心灵的避风港。

gpt-3.5-turbo：输入token数23，输出token数226，总token数**249**
用户：写一段关于森林的100字小作文
AI: 森林是地球上最美丽多样的自然景观之一。它们是许多生物的家园，包括动物和植物，这些生物相互依赖，在森林中形成一个复杂的生态系统。森林也是地球上最重要的碳吸收器之一，因此也是气候变化的关键因素之一。然而，现代人类的活动却给森林带来了极大的压力，我们的砍伐、野火和污染威胁了整个生态系统的平衡，我们必须介入保护森林。只有保护森林，才能在未来保持我们的人类家园健康和可持续。

# 常见用途场景

现阶段的ai，被称之为AIGC，即生成式ai。我们需要了解它擅长和不擅长的地方，并管理预期。

ai是模糊的、概率的，不是精确的，不要问生成式ai数学题。

从本质来讲，生成式ai不是在回答问题，而是在通过前文预测下文。你的前文可以恰好是一个问题，也可以不是问题。

ai会推理出很多下文并打分，选择最高分的下文返回给你。但“不知道”这个下文的打分往往不如其他胡诌的下文得分高，所以你很少会遇到ai的下文是“不知道”。

ai会使用互联网上的数据进行学习训练，但训练语料不会包含最新实时的知识和互联网上未公开的知识。

虽然ai学习了互联网的知识，但它不是复读机，它把知识压缩形成自己的理解。你的前文和它的理解碰撞出它的下文（所以合适的前文，也就是prompt很重要）。

越好的ai，其知识储备、理解和推理能力越优秀，预测的下文可以更逼近真实，甚至超过普通人的水平。

目前生成式ai的主要用途有：

文章生成、润色、续写：常见于生成文案、文书、标语、名字、营销邮件、笑话、诗词等。uni-cms中，已经内置了这个功能
闲聊：情感咨询、常识问答。由于聊天本身有不少代码工作量，推荐使用现成开源项目。比如单纯的ai聊天模板uni-ai-chat，或专业的im工具、支持私聊群聊的uni-im
翻译：各国各民族语言翻译
代码注释补充和简单代码生成，关于HBuilderX中提供ai代码辅助编程，有如下解决方案：
- github copilot插件：https://ext.dcloud.net.cn/plugin?id=15241，该插件是官方人员个人作品，使用了github copilot在vim等ide上的插件，登录github账户使用。
- codegeex插件：https://ext.dcloud.net.cn/plugin?id=15497，该插件是国内ai公司codegeex官方为HBuilderX做的插件。

如对生成内容有较高的准确性要求，一方面使用gpt-4等高级的模型；另一方面需要追加专业甚至私有的语料训练。

gpt-4是目前准确性最高的ai，也是最贵的ai。开发者需根据需求场景选择，一般的文章生成和闲聊，可以不用gpt-4。

另外想得到良好的推理结果，优化prompt前文也非常重要。

# 合规注意

国内使用ai，需注意合规性。监管部门并不拒绝使用ai提升生产效率，但对于可能造成社会动员能力、价值观影响等政治问题、以及黄赌毒等违法问题非常敏感。

ai生成的文章，如发布到互联网上，应当调用内容安全审查后再发布。比如uni内容安全。uni-cms已经内置了uni内容安全，只需在配置里开启即可。
如开放给用户聊天使用，也应该通过内容安全来管控，避免出现违法违规内容，导致被下架。
在微信小程序等平台，名字或内容涉及ChatGPT，都会被平台封禁。所以上微信小程序时不能提及ChatGPT，也不要使用uni-ai的openai配置功能。可以使用国内ai或让uni-ai自动分配。同时输入和返回的内容都需要做安全审查，具体见上。
如果在企业内部通过openai提升生产力，这不涉及合规问题，可以放心使用。