ARVIS,一个将LLMs(大模型们)与ML(机器学习)社区连接起来的系统。
随着ChatGPT的诞生,众多大模型也如雨后春笋般涌现,包括斯坦福的Alpaca,Meta的LLAMA,OpenAI的whisper以及stable-diffusion,还有清华大学开源的中文大语言模型ChatGLM。这些大模型专注于各自的领域,并具备出色的任务完成能力。目前你只能用alpaca去生成文本,用whisper处理语音,stable-diffusion生成图像。
使用midjourney或者stable-diffusion时,为了生成合适的图像,需要输入恰当的prompt(提示词),不同的prompt生成出来的图像可能有巨大的差异,因此许多人会先使用chatGPT,根据描述生成prompt,再将其输入到midjourney中生成图像。
而ChatGPT本就是作为生产力工具出现的,如此复杂的步骤在工程师眼中是不可容忍的。因此JARVIS应运而生。通过将各种不相关的大模型(LLM)串联在一起,去实现单一大模型无法完成的任务。在下图的例子中可以很清楚的看到大模型能力的提升。
如图,给JARVIS提出的需求是:生成一张小女孩看书的图片,并且她的姿势和提供的图片里小男孩的姿势一样。然后用语音描述这张新的图片。
这个需求由于涉及到几个大模型协同工作,因此目前单一的大模型无法处理。而JARVIS会将这个需求分解成几个需求,每一个需求找到合适的大模型去处理,最终成功完成任务。
系统要求
- Ubuntu 16.04 LTS
- NVIDIA GeForce RTX 3090 * 1
- RAM > 24GB
准备工作
JARVIS通过ChatGPT串联各个大模型,因此需要准备openai.key,JARVIS会需要从huggingface下载大模型,因此还需要准备huggingface.cookie。
项目描述
项目地址:https://github.com/microsoft/JARVIS
当有了以上资源后,就可以快速开始你的JARVIS之旅了。
提问:这些图片里有几只斑马?
回答: