智子引擎发布大模型

2023年是AI大模型全面爆发的元年,国内外AI大模型技术在加速更新迭代,产业需求不断增加。其中,多模态大模型作为最前沿的AI技术,有着广泛的应用前景。如何将多模态大模型与产业相结合、与具体应用场景相结合,成为多方关注的重要课题。智子引擎团队在多模态大模型领域深耕多年,他们的技术始终站在世界前列。今天,智子引擎发布元乘象ChatImg2.0,同时联合软通动力、软通智慧、福建AI计算中心等多家企业共同迈出多模态AI大模型产业落地的第一步。

一、回顾ChatImg1.0

2023年3月8日,智子引擎团队发布世界首个多模态对话应用ChatImg,如果说ChatGPT靠对文字输入这单一信号的理解就完成了对部分人类的智力超越,那么「元乘象 Chatimg」则实现了对多态输入信号的统筹理解,它能听能看,既能察言又能观色,它能说会道,既能感知多路信号,又能统筹理解该说什么不该说什么。它把GPT的五官和大脑的协同能力,又往前推进了一步。

给「元乘象 Chatimg」一张「搭载火箭升空的大脑」的图像,它不仅能解读出图片的内容,还能判断该场景在现实中是否合理。

智子引擎发布大模型

甚至,它还能根据图片编个故事,而且编的故事往往比较积极、阳光:

智子引擎发布大模型

随着AI智能涌现的到来,「元乘象 Chatimg」会加速自身能力迭代,如从多模态信息的识别推理能力,进一步向多模态的生成能力进化,并从更广的应用范围与其他事物进一步融合,如在机器人、玩具、可穿戴设备、家居家电、交通设备等等,万物互联、万物有灵的时代终将到来。

二、ChatImg2.0

在ChatImg基础上,智子引擎团队继续在多方面优化模型:1、支持语音输入;2、支持视频输入;3、增加多个一键体验功能;4、用户自定义新功能。

智子引擎发布大模型

智子引擎发布大模型

图文对话实际效果方面,ChatImg2.0可以看懂非常丰富的图像内容:

智子引擎发布大模型

视频对话实际效果方面,ChatImg2.0可以看懂视频并对内容作出推理:

智子引擎发布大模型

纯文本对话效果方面,ChatImg2.0可以读懂多种多样的指令(扮演诗人、rapper、演说家等):

智子引擎发布大模型

在公开的多模态对话数据集(LLaVa)上的评测结果,表明ChatImg2.0显著超过了众多的开源模型。具体地,我们采用如下打分方式给定90个问题,将问题、图像描述、待测模型回答结果和GPT4回答结果一起输入GPT3.5,让GPT3.5对比两个回答,分别给出分数(0-10分),最终为90个问题上的总分。详细的多模态对话评测结果见下表:

智子引擎发布大模型

上表中的GPT4回答结果,是使用GPT4的纯文本版本基于给定的图像描述和目标检测信息作答的,没有真正看到图像。特别地,* 代表待测模型针对测试集中的中文问题,绝大部分是用英文回答的,需要提前用GPT3.5翻译成中文。可以看出,ChatImg2.0的中文和英文多模态对话能力均超过了目前最好的开源模型。

三、ChatImg的落地场景

智子引擎联合软通智慧探索了多模态大模型在城市社会治理领域的应用场景。元乘象ChatImg可以同时在许多复杂场景达到90%以上的准确率,显著超越了传统AI模型。由于从部署几百个小模型变成了部署一个大模型,整个系统的复杂度、部署代价都有显著的降低。

智子引擎发布大模型

与此同时,元乘象团队还联合北京理工大学张伟民教授团队共同打造了一款智能机器人小象,为ChatImg装上了身体。

四、元乘象的未来发展

智子引擎团队表示,他们的核心发展战略是打造一个通用的多模态AI生成模型元乘象,支持多模态输入、多模态输出。ChatImg只是其中一部分对话模型,团队成员已经在文生图、文生视频、多模态融合搜索等多个领域取得成果,后期将全部整合进元乘象。

免责声明:本文作者:“甲子光年”,版权归作者所有,观点仅代表作者本人。本站仅提供信息存储分享服务,不拥有所有权。信息贵在分享,如有侵权请联系ynstorm@foxmail.com,我们将在24小时内对侵权内容进行删除。
(139)
jpeg resizer(500k电子照
上一篇 2024年01月29日
华为c8812root(华为c8812e
下一篇 2024年01月29日

相关推荐

  • 小米1s参数(小米全能扫地机器人1s尺寸)

    为方便给扫地机器人充电,应在离地30cm左右的墙面安排一个插座;其次,智能扫地机器人回充,需要一定的预留空间,即在以充电点为圆心,半径为60cm的区域要保证没有任何的障碍物,才能确保机器人成功完成自动回充。...

    2023年11月03日
  • 止损单(怎样消除没有迅速止损的错误)

    止损不坚决一般有两个层面因素。一是技术原因,经过一段时间的学习和市场的磨练,知道了止损的重要性,开仓必设止损。可是往往刚止损行情又回来了,不止损反而能盈利,几次吃亏就对止损怀疑动摇,开始犹豫不决。这里的主要原因是止损设置不合理,如何让止损设置...

    2023年11月07日
  • 苏宁手机网上商城(苏宁易购与单纯的网上商店有什么区别)

    没什么区别就是网购店,你想在苏宁易购上买到的东西和别的网店买到的东西差不多,只不过每个网店针对的客户群和消费品不一样,我打个比方淘宝更多偏向小商品市场,拼多多更多偏向农产品市场,京东更多偏向3c市场,苏宁易购更多偏向综合商品。...

    2023年11月10日
  • 红米2电信版(红米2参数配置尺寸)

    红米手机2采用了4.7英寸720p显示屏,搭载高通64位骁龙410四核1.2GHz处理器,内置1GB内存和8GB机身存储,最大支持32GBMicroSD卡扩展,提供一颗200万像素前置摄像头和一颗800万像素后置摄像头,电池容量2200mAh...

    2023年11月10日
  • 权贵论坛(审食其为何会和吕雉相依为命)

    淮南王刘长自袖铁椎,入辟阳侯府椎杀审食其的血案在公元前177年的京师长安引起了普遍的恐慌。上至薄太后和太子刘启,下到朝中文武百官都对勇悍的刘长侧目而视。审食其死后,刘长随即驰赴阙下,表面上是负荆请罪,其实是向皇兄孝文帝控诉审食其的三宗重罪,暗...

    2023年11月14日
  • hd 7670m(是HD7670好还是gtx750ti)

    750ti在hd7770和hd7850之间。hd7850价格比750ti便宜,而性能反而强一些。hd7850缺点是功耗稍大,不过发热控制还不错。...

    2023年11月18日
  • 家庭ktv设备(家庭ktv设备哪个牌子好)

    2、威斯汀(WESTDING)家庭KTV音响套装唱歌全套设备家庭影院卡拉OK双系统点歌机一体机【配置一】108智能语音双系统(2T版)...

    2023年11月19日
  • eventhandler(读取RS485串口寄存器状态)

    这其实就是一个用C#写一个串口调试的工具,下面看怎么实现1、在工具里面找到串口控件,拖到窗口上即可。然后添加需要的各种按键和显示框控件等2.绑定事件其实也没啥,系统都会帮我们全部建好,不用我们再去一行一行的去添加代码,soeasy!!...

    2023年11月21日
  • 诺基亚1000和1010(诺基亚1010锁住)

    2、进入re后,音量键选择wipedata/factoryreset,清空数据/恢复出厂设置,电源键确定。...

    2023年11月24日
  • 索尼黑胶(什么cd碟片音质最好)

    SACD碟片音质最好,SACD是在普通CD编码的基础上进行升级的一种格式,由索尼和飞利浦发起,其播放音质的密度与临场感都十分优秀。...

    2023年12月01日
返回顶部