上一主题下一主题
级别: 总版主
UID: 2
精华: 1
发帖: 13061
威望: 13072 点
铜币: 1136217 枚
贡献值: 0 点
注册时间: 2022-03-21
最后登录: 2024-02-23
0楼  发表于: 2024-02-23 15:42
 | 编辑

2 万字大模型调研:横向对比文心一言、百川、Minimax、通义千问、讯飞星火、ChatGPT

  2万字、47张图表、对6大模型进行了测评和体验。本文注重产品使用感受、实际应用场景与效果测评,让你轻松掌握各大模型的优劣与特色,助你全面理解各大模型的真实表现,快来看看吧。
  2023年之后,国内外多个大模型的相继发布和升级,进一步推动了全球AI竞赛的白热化,并对社会各行业产生深远影响。
  中国的大模型包括百度的文心一言(ERNIE系列)、阿里云的通义千问、Minimax系列模型、科大讯飞的讯飞星火以及美国OpenAI研发的ChatGPT等。这些模型凭借其强大的语言理解和生成能力,在文本创作、智能问答、知识检索、商业文案生成等诸多场景中展现出了巨大潜力。
  了解市场上的大模型产品及其供应商,分析各家产品的优缺点和适用场景。评估各家大模型产品的性能指标,为企业提供参考依据。了解大模型产品的部署、接入成本和定制化开发等技术支持和服务,确保企业能够顺利实施和应用。
  目前我们正在合作的AI,以及我们正在使用的的大模型产品。从实践的角度来看,都存在产品稳定性不够、产品效果不佳,以及供应商服务响应不太及时的问题。
  经过团队的沟通,现需要调研新的大模型产品,以寻找现有的产品的替换品或补充品,已保证的稳定运行,及高质量的输出表现。
  主要集中在国内的大模型厂商,以及openAI的接口测试能力。因为政策原因,对其他更多的外国厂商不进行调研和测试。
  调研的维度:主要选取和对比各家大模型的优劣势、产品性能、擅长领域、接入方式、使用成本、是否支持微调等。
  因为篇幅和个人能力有限,对大模型的技术原理、训练方法、模型架构不做深入的研究和分析,感兴趣的伙伴,可以寻找其他更加专业的作者的文章阅读。
  调研的主要方式是通过官网产品的C端体验进行,形式非权威且不正式,调研思路仅提供一种可能性启发,结果仅供参考。
  1)提高生产效率:通过大模型技术,企业可以自动化处理大量数据,提高生产效率,降低成本。例如:
  2)提升客户体验:大模型技术可以帮助企业更好地理解客户需求,提供更加个性化的服务和产品,提升客户体验。例如:
  大模型技术,也称为深度学习模型,其发展历程可以追溯到2006年,当时深度学习的概念被提出,并在语音识别、图像处理等领域开始得到应用。随着数据的不断积累和计算能力的提升,深度学习模型逐渐从传统的神经网络演变为更复杂的结构,如卷积神经网络(CNN)、循环神经网络(RNN)和Transformer等。
  其中,Transformer结构在大模型中得到了广泛应用,尤其是在自然语言处理领域。随着预训练语言模型的出现,如GPT系列和BERT等,大模型在自然语言处理任务中取得了显著成果,推动了人工智能技术的进一步发展。
  通俗地解释就是:如果电脑是个孩子,那么大模型技术就是他的大脑。一开始,这个孩子不太聪明,后来他通过不断学习,变得越来越聪明。大模型技术就是这样,它通过大量数据的学习,变得越来越聪明。这个技术的发展经历了很长时间,现在已经被广泛应用于各种领域。
  大模型的竞争格局日趋激烈,全球范围内,众多企业、初创公司和研究机构都在积极投入和研发大模型技术。
  百度在人工智能领域有着深厚积累,其研发的大模型包括文心一言(ERNIE系列),这是一个预训练语言模型,具有强大的自然语言理解和生成能力。百度利用该模型在搜索、信息流推荐、广告投放、智能写作、对话系统等场景中实现智能化升级,为用户提供更精准和个性化的服务。
  阿里巴巴推出的是通义千问大模型,这是基于阿里云构建的大型预训练模型,在电商、金融、物流等多个业务场景发挥了重要作用。例如,它能够优化商品推荐算法,提升客服效率,辅助决策分析,并在文本生成、问答交互等方面提供强大的技术支持。
  腾讯在AI领域的布局也十分积极,尽管混元大模型还在内测阶段,但预计会在游戏开发、内容生成、社交网络、在线娱乐等多个方面发挥重要作用,以提升用户体验并增强腾讯产品和服务的竞争力。
  华为研发了盘古大模型系列,旨在通过先进的深度学习技术推动云计算、物联网、智能终端等领域的技术创新。盘古大模型可应用于华为云服务,赋能行业解决方案,同时也在华为自家的智能手机、智能家居等智能硬件设备上提供了更加智能的功能。
  字节跳动虽然没有公开具体的大模型名称,但在自然语言处理和推荐系统等领域有深厚的积累和技术实力。其旗下的抖音、今日头条等平台依赖于高度智能的算法和模型,推测正在内部研发或应用大模型来提升内容理解与个性化推荐效果。
  京东的言犀大模型是专为其电商平台定制的人工智能模型,尤其擅长在智能客服、智能营销和智能供应链管理等方面发挥作用。通过言犀,京东可以高效地处理用户咨询、精准推荐商品以及优化运营策略。
  科大讯飞作为中国语音识别和人工智能行业的领军企业之一,推出了星火大模型,这是一种认知智能大模型,集成了多种自然语言处理和机器学习技术。星火大模型在教育、医疗、政务、司法等行业应用场景中广泛使用,尤其是在智能语音合成、语音识别、语义理解和知识图谱构建等方面表现突出。
  360集团依托自身在搜索引擎和网络安全领域的优势,推出了360GPT大模型。这款大模型不仅强化了360搜索引擎的智能化程度,还在网络安全防护、威胁情报分析、智能硬件协同等方面展现出强大的功能,有助于提升整体的互联网安全水平及用户体验。
  微软:推出了Azure OpenAI服务,集成了GPT系列等大模型,并在云服务、办公软件等领域有所应用。
  亚马逊:拥有自己的大模型技术,并在电商、云服务、智能音响等领域有所应用,但尚未公开具体的大模型名称。
  谷歌在人工智能领域处于全球领先地位,其研发的大模型包括LaMDA(Language Model for Dialogue Applications)和PaLM(Pathways Language Model)。LaMDA是专为对话交互设计的大型语言模型,旨在提供更自然、有深度的人机对话体验;而PaLM则是一个超大规模的语言模型,具有极强的推理能力和泛化能力,在搜索、广告相关性预测、智能助手响应生成等方面发挥关键作用。
  微软通过与OpenAI合作,将GPT系列大模型集成到了Azure云服务中,为企业客户提供强大的自然语言处理能力。例如,Azure OpenAI服务使得用户能够方便地调用GPT-3等先进的预训练模型来开发聊天机器人、文本生成工具以及增强办公软件如Office 365中的智能功能。
  亚马逊作为电商和云计算巨头,虽然尚未公开特定的大模型名称,但无疑在其业务中有应用自研或整合的大模型技术。这些技术可能体现在个性化推荐系统、客户服务机器人、Alexa智能语音助手等领域,利用大模型提高用户体验和服务效率。
  Meta在人工智能领域的探索广泛且深入,已推出了LLaMA(Large Language Models at Meta)等大模型,主要用于自然语言处理任务,同时也涉足图像处理、跨模态学习等前沿领域。此类大模型的应用场景涵盖社交网络内容理解与推荐、AR/VR虚拟世界互动、元宇宙建设等多个方面。
  苹果公司虽未正式对外宣布具体的大模型技术细节,但在其产品和服务中广泛应用了深度学习和人工智能技术。例如,Siri语音助手背后的自然语言理解和语音合成技术、Face ID面部识别系统中的机器学习算法等,都体现了苹果在先进模型上的研发投入。尽管如此,推测苹果内部正在积极研发或使用定制化的大型模型以提升旗下产品的智能化水平。
  作为一家人工智能领军企业,云从科技主要聚焦在计算机视觉和自然语言处理领域。其核心技术包括人脸识别、图像识别、语音语义理解等,并基于这些技术开发了多款大模型应用,广泛应用于金融、安防、交通、商业等多个行业场景,如智慧银行、智慧城市等。
  达闼科技以云端机器人技术为核心,通过构建智能云脑和智能终端的架构,研发了针对服务机器人的大模型应用。他们致力于将人工智能与机器人技术相结合,打造具备复杂环境感知、决策规划及自主行动能力的智能机器人解决方案。
  思必驰是一家专注于智能语音交互技术的企业,为各类智能硬件和软件提供全链路语音交互解决方案。其研发的大模型应用在语音识别、语音合成、语义理解等方面具有先进的性能,被广泛应用在智能家居、智能车载、智能客服等领域。
  深言科技专攻于自然语言处理以及智能推荐技术,他们的大模型产品可进行深度语义理解和用户行为分析,用于智能对话系统、个性化内容推荐等方面,提升用户体验并助力企业智能化升级。
  云知声是国内领先的智能语音技术服务商,特别是在语音识别和自然语言处理方面有深厚的技术积累。它们开发的大模型应用在智能家居控制、医疗、教育等行业得到广泛应用,旨在实现听见·看见·认知·思考的AI能力。
  明略科技着重于数据分析和知识图谱构建,结合大数据技术和大模型算法,为企业级客户提供智能决策支持和数据驱动的运营管理方案。其大模型应用有助于挖掘海量数据中的价值信息,优化业务流程和提高决策效率。
  格灵深瞳深耕计算机视觉和深度学习技术,其大模型应用主要用于视频内容分析、行为识别、物体检测等场景,在公共安全、城市管理、零售业、体育赛事分析等多个行业中实现了智能化监控和管理。
  商汤科技是全球领先的人工智能平台公司,尤其在计算机视觉和深度学习方面拥有顶尖实力。它们不仅开发了一系列基于大模型的应用,如图像识别、视频分析、增强现实等,还将其技术广泛应用于智能手机、自动驾驶、智慧城市、娱乐影视、教育健康等多个领域。
  Scale AI是一家以人工智能数据标注和训练为核心业务的公司,为自动驾驶、国防、电子商务等领域的机器学习模型提供高质量的数据集。他们开发的大模型应用和服务极大地加速了AI模型的训练过程,通过精细标注的数据有效提升了模型性能。
  Hugging Face是一家在自然语言处理(NLP)领域极具影响力的公司,他们运营着一个开放源码社区,并推出了Transformers库,其中包含了大量的预训练模型,如BERT、GPT系列等,使得开发者能够轻松地利用这些大模型进行二次训练或直接应用于文本生成、问答系统、语义分析等各种场景。
  Domino Data Lab提供了一个企业级的数据科学平台,致力于简化并加速从数据准备到模型部署的整个机器学习生命周期。该平台支持大规模数据处理、模型训练以及版本控制,让数据科学家能够高效地开发和管理包括大模型在内的各类机器学习项目。
  DataRobot提供自动化机器学习解决方案,帮助企业用户快速构建和优化预测性模型。其平台允许用户无需编码或深度理解算法即可训练各种复杂的大模型,尤其擅长于预测分析和决策制定,在金融、零售、医疗等行业有广泛应用。
  Feast是一个开源的特征存储系统,虽然它不直接提供大模型的应用,但作为机器学习工程的重要组成部分,它对特征工程有着关键作用。Feast帮助团队管理和共享用于训练大模型的特征数据,从而改善模型效果和协作效率。
  Invenia主要聚焦在复杂系统的建模与预测上,尤其是能源市场。他们的工作结合了高级数据科学和机器学习技术,尽管可能不直接对外提供大模型服务,但内部研发的模型通常规模庞大且复杂,用于解决电力市场的供需预测和其他复杂问题。
  FloydHub是面向机器学习和深度学习研究者的云端服务平台,提供GPU资源,支持用户方便快捷地在云端进行大模型训练。用户可以通过简单的命令行工具或API将代码上传至云端环境,从而实现计算资源的弹性扩展,大大降低了模型训练门槛。
  FastAI 是一个专注于使深度学习易于使用的开源库和教育项目,它构建于PyTorch之上,简化了大模型的训练流程。FastAI 提供了一系列工具和框架,使得即便是初学者也能快速搭建和训练高性能的计算机视觉和自然语言处理模型,并将其部署到生产环境中。
  请注意,以上列举的初创公司并非全部,还有许多其他的大模型初创公司在不同领域进行着创新和应用。同时,随着技术的不断发展和市场的不断变化,这些初创公司的竞争格局也可能会发生变化。
  这些产品在模型结构、参数规模、训练方法等方面存在差异,具有各自的特点和优势。其中,自然语言处理大模型是目前应用最广泛的类型之一,其特点是通过海量数据训练得到丰富的语义信息和语言知识,能够实现自然语言理解、生成以及文本分类等任务。
  计算机视觉大模型则注重图像特征的提取和分类,广泛应用于人脸识别、目标检测等领域。语音识别大模型则注重语音信号的处理和识别,能够实现语音转文字、语音合成等功能。
  大模型产品的特点是具有高度灵活性和可扩展性,能够根据不同场景和需求进行定制化开发和应用。同时,大模型产品的应用也需要相应的数据资源和计算能力支持,因此在实际应用中需要考虑数据隐私和安全等方面的问题。
  此外,由于大模型产品的技术门槛较高,需要专业的人才和技术支持服务。因此,企业在选择大模型产品时需要综合考虑产品的性能、易用性、可扩展性以及技术支持和服务质量等因素。
  在大模型调研和分析的对象选择上,主要考虑已备案、开放商用、有完备的API接入部署方式的国内的大模型产品。
  src=NLP大模型:面向语言理解、语言生成等NLP场景,具备超强语言理解能力以及对话生成、文学创作等能力。创新性地将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的新知识,实现模型效果不断进化。
  除了大语言模型,还有视觉模型、跨模态模型、生物计算模型等。在这里,可以考虑一下自家企业的产品和应用场景是否涉及并需要这些模型能力。
  在未来的文档分析和归类应用上,可以考虑跨模态的ERNIE-Layout模型,主要作用是文档分类、信息抽取、文档问答等。
  百度在互联网产品上,利用大模型,以产品为切入点做了一些落地应用。例如:百度搜索助手、文库助手、网盘助手、浏览器助手、AI图片助手、百家号创作助手等。
  Baichuan2 Turbo大模型,融合长上下文窗口和搜索增强,实现大模型与领域知识、全网知识的全新链接。支持PDF、Word等多种文档上传及网址输入,信息获取及时、全面,输出结果准确、专业。
  src=百川全新开放Baichuan2-Turbo系列API,支持搜索增强和 192K长窗口,新增 百川搜索增强知识库, 通过多项创新精准理解用户意图,召回更加准确。同时上线API体验中心,欢迎您使用。
  新闻摘要、投资研究分析、办公提效、公文写作、文档翻译,这些工具已经设计并开发好了,可以借鉴和使用,有比较好的表现。
  MiniMax开放平台提供基于自然语言交互的文本生成能力(文本大模型)、语音生成能力(语音大模型)和长记忆检索、知识库检索等能力,赋能开发者完成所在行业的AI场景创新。
  语音大模型(T2A、T2A pro、T2A large):基于自然语言交互生成能力的文字转语音接口;
  向量(Embeddings):文本转化为高维向量接口,可实现如长记忆检索、知识库检索等能力;
  知识库(Retrieval):支持高效检索文档信息,准确回答专业问题,为大模型补充专业领域知识。
  除了标准的API接口,我们提供定制模型微调。支持构造定制数据集对预训练模型进行微调、支持多样化微调,还支持云端私有化等多种交付方式。
  语音大模型,可以考虑接入,对资讯文章进行语音播报,但是收费比较贵,一篇500字左右的文章语音播放费用,大概是3~5元。
  基于千亿基座模型 GLM-130B,注入代码预训练,通过有监督微调等技术实现人类意图对齐,具备问答、多轮对话、代码生成功能的中英双语大模型。
  ChatGPT-Turbo被设计为提供高效、快速和准确的自然语言处理服务,它适用于多种场景,如智能客服、自然语言生成、文本摘要等。
  该模型具备强大的语言理解和生成能力,能够理解和处理各种复杂的语言结构和含义,并根据用户输入的上下文生成相应的回复或文本。它还能够处理多种语言,包括英语、中文等,使得跨语言交流更加便捷。
  ChatGPT-Turbo采用了先进的深度学习技术和大规模语料库进行训练,从而使其具备了高度的泛化能力和鲁棒性。此外,该模型还支持微调,可以根据特定任务或领域的数据进行进一步的优化,提高其在特定场景下的性能。
  Google Gemini大模型是Google推出的一款多模态大模型,它的定位、能力、特点和价格可以从以下几个方面进行分析:
  Google Gemini大模型被定位为能够同时处理文本、图像、音频、视频和代码五种类型信息的人工智能模型,旨在提供全面的多模态处理能力,支持广泛的自然语言处理和多媒体任务。它可以应用于搜索、广告、Chrome等服务中,也可以用于开发者和企业客户的各种应用场景中。
  多模态处理能力:Gemini大模型具备同时处理文本、图像、音频、视频和代码五种类型信息的能力,可以实现不同模态之间的转换和理解。
  自然语言处理能力:Gemini在自然语言处理方面表现出色,包括文本分类、情感分析、问答系统等任务,同时支持多种主流编程语言的高质量代码生成。
  强大的推理能力:Gemini能够在短时间内通读大量论文并进行总结,展现出了强大的复杂推理能力。
  原生多模态:与之前的多模态AI模型不同,Gemini是原生支持多模态能力的AI模型,从一开始就在不同模态上进行预训练,能更高效地使用AI模型的算力。
  安全性评估:Gemini在发布时经过了全面的安全性评估,以确保其在实际应用中的安全性和稳定性。
  关于Google Gemini大模型的具体价格,目前尚未有公开信息。考虑到Google通常将其AI技术通过Google Cloud AI平台提供服务,预计其价格会根据使用量、模型大小和所需计算资源等因素进行计费。具体价格需要参考Google Cloud的官方定价页面或联系销售代表获取。
  3)4个翻译中,百川大模型中准确性最高,百度文心和讯飞星火并列。最差是OpenAI,把盛美上海译为中芯国际的SMIC。
  src=这些问题旨在评估大模型在不同主题和领域内的知识理解、分析能力和语言表达水平。通过这些问题,您可以对大模型的语言能力进行全面而有效的测试。
  讯飞星火的得分比较低,主要是因为在同一个问题上,回答的结构性,输出的文字内容丰富度不够其他家好,但是整体给出的回答也是不错的。
  在计算、逻辑与推理、代码、语言理解和收取、生成与创作、上下文对话、角色扮演、工具使用、传统安全等领域,GPT4-Turbo是表现最好的,其次是国内的文心一言4.0,千问等;
  如果是API接入的方式,取通用能力,首选效果好的百川大模型、其次是百度文心大模型、阿里通义大模型;
  如果是API接入+微调+服务器的方式,取生态好,有云服务的厂商,首选:百度文心大模型、阿里通义大模型;
  如果是API接入+微调+服务器+行业落地应用+AI工具的方式,取通用能力强、生态好、产品矩阵丰富、有云服务的厂商、行业落地产品有实际案例的,首选:阿里通义大模型、百度文心大模型、其次讯飞星火大模型。
  综合来看,可采用API的方式接入:百度文心大模型、阿里通义大模型、讯飞星火大模型,局部AI能力购买百度或讯飞。
  本文调研的过程有其限制性,随着时间的推移,大模型技术在不断更新迭代,调研结果仅供参考交流使用。
  在调研过程中受益最大的是本人自己,整体对各家大模型产品和效果进行了横向比较和测试。通过实际试用和体验,对国内大模型有了比较全面的了解。
  Echo 产品论,微信公众号:产品经理的逻辑与审美,人人都是产品经理专栏作家。10年产品经验,多个0~1的完整产品经历,前好未来智能学习内容产品专家,目前聚焦在AI领域,专研AIGC行业应用产品落地研发,对产品的逻辑和审美有独到的思考。
☛ 1024社區区
上一主题下一主题
帖子浏览记录 版块浏览记录  电影2090 » 互动杂谈