多模态 AI: 机器学习的主要趋势和智能助手的关键技术KellyOnTech

Posted by : KellyOnTech Date : 2022-06-28
文章配图
您觉得这幅画画得如何?


图片来源:https://wallpapersafari.com/


这是人工智能生成的画。今天来聊聊多模态人工智能Multimodal AI。


添加图片注释,不超过 140 字(可选)


什么是多模态人工智能 Multimodal AI?

多模态人工智能是一种新的人工智能范式,将各种数据类型(图像、文本、语音、数值数据)与多种智能处理算法相结合,以实现更高的性能。

多模态人工智能有什么用?

人类拥有很多关于世界的常识性知识。比如说如果我们谈到狗,您可能已经想到了自家狗狗可爱的样子,摸起来毛绒绒的,还有汪汪的叫声等等。这种常识性知识通常是通过视觉、语言和感官线索等等的组合获得的。
文本到图像生成
多模态人工智能的用处之一就是文本生成图像。其中最著名的模型之一就是 OpenAI 的 DALL-E。比如说一个教堂想用蓝色的草莓装饰彩色的窗子,您会怎么设计?我们来看看人工智能的设计。


图片来源:OpenAI


怎么样?是不是脑洞大开?
智能语音系统或智能助手
多模态人工智能的另外一个应用是智能语音系统或智能助手。比如说我想买一件浅蓝色的真丝衬衣,智能助手需要能够分辨颜色和衣服的材质,然后提供相应的推荐。
自动生成视频字幕或评论
微软亚洲研究院和哈尔滨工业大学共同创建了一个系统,该系统学习捕捉音频或视频的字幕和评论,然后能够自动提供与视频中的场景相关的字幕或评论。
预测视频对话
谷歌对多模态人工智能的研究在于解决人工智能对视频中下一句对话的预测。这个有什么用呢?比如说您尝试做一道菜,但忘了下一个步骤,这时智能助手就派上用场啦,可以马上告知您下一个步骤是什么。

日本动漫翻译

多模态人工智能也被用到日本动漫翻译上。日本动漫里面有好多气泡中的文字,很难翻译出来。日本东京大学和机器翻译初创公司 Mantra 设计了一个系统原型,可以翻译气泡中的文字。


图片来源:Reddit.com


哪家多模态人工智能公司值得关注?

我今天介绍一家公司 - 杭州联汇科技,2003年成立。
OmModel多模态预训练大模型
联汇科技有一个叫OmModel多模态预训练大模型,基于大规模自监督学习的多模态人工智能算法,目前已完成基于行业的亿级图片、万级视频、十亿级图文大规模预训练。实现了用更小的标注样本数量,融合更多的模态信息,获得更为准确的AI模型,性能国际先进。

案例 - 媒体大数据分析

联汇科技的系统采用了自然语言理解和向量数据库技术, 使机器不仅能读懂文章,还能听懂音频,看懂视频,全方面地解读新闻信息,从而帮助媒体工作者快速发现新闻线索,发掘用户真正关心的热点问题,还能用数据客观分析媒体、专家、用户等不同观点。该系统目前汇聚了全网10万+的网站数据,每日追踪超过60万+条新闻信息。该系统获得了中国国家广电总局科技创新奖。

案例 - 智慧能源

联汇科技的系统还可以用到能源企业,针对煤矿、电力、油田等能源企业对重要设施、仪表数据、人员安全等监测需求,通过视觉预训练大模型对能源企业生产环境进行动态分析,建立人、设备、环境的多维认知知识库,实现对安全行为、操作规范、生产能效的综合分析与应用,做到无人监管值守。

我录了一个视频,供您参考。

English version