本报记者 王丽新 见习记者 陈潇
继史无前例的大降价后,阿里云再次送出人人都能用上的AI“大礼包”。6月1日,在阿里云峰会·粤港澳大湾区分会场,阿里云公布了通义大模型的进展,聚焦音视频内容的AI新品“通义听悟”正式上线,成为国内首个开放公测的大模型应用产品。
图为阿里云发布AI新品“通义听悟”企业/供图
“换一种方式,让音视频可以被轻松阅读、整理和分享。”阿里云CTO周靖人介绍,通义听悟是一款工作学习AI助手,它瞄准具有高知识附加值的音视频内容场景,比如开会、上课、访谈、培训、面试、直播、看视频、听播客等,能通过大模型等最新AI技术快速提炼和沉淀知识。
据了解,通义听悟接入了通义千问大模型的理解与摘要能力,可高效完成对音视频内容的转写、检索、摘要和整理,比如,用大模型自动做笔记、整理访谈、提取PPT等。
根据现场演示,通义听悟可高准确度生成会议记录、区分不同发言人,还可以在一秒内给音视频划分章节并形成摘要、总结全文及每个发言人的观点、整理关注重点和待办事项。此外,大模型一键提取PPT、针对多个音视频内容向AI提问、概括特定段落等功能也将于近期上线。
针对一些细分场景,通义听悟还设置了不少“宝藏功能”:打开Chrome插件,外语学习者和听障人士可以借助双语悬浮字幕条随时随地看无字幕视频;日程冲突时,通义听悟还可成为职场人士的“开会替身”,在静音情况下入会AI可代为记录会议、整理要点;转写结果可下载为字幕文件,方便新媒体从业者视频后期制作;通义听悟梳理的问答回顾可以让记者、分析师、律师、HR等群体整理访谈更高效。
通义听悟另一显著优势是,与阿里云盘打通,一键就能转写云盘上的音视频内容,公测期间注册的用户后续还将获得更大的阿里云盘存储空间,在云盘内在线播放视频时可自动出字幕。
周靖人介绍,通义听悟集成了阿里最先进的语音和语言技术。其内置阿里新一代工业级语音识别模型,识别准确率在多个权威中文数据集上名列第一;融合自研语音语义多模态说话人算法,能对10人以上说话场景进行角色区分;接入通义千问大模型后,能够对上万字的音视频内容进行摘要总结,事实准确性与要点完备性在国内领先,支持跨多音视频内容的精准问答理解。
值得一提的是,公测期间,阿里云官方微博、微信及各大平台社区还会发放大量20小时转写口令码,用户获得的福利权益可累加,一年内有效,免费时长达100小时以上。
据了解,通义听悟听悟除个人版本外,还有企业级应用。此前,通义听悟企业版已在阿里集团内部广泛使用,帮助使用者减少了大量会议记录和整理的工作,广受好评。同时,通义听悟的能力也可嵌进各类音视频平台,形成实时字幕、智能摘要等,钉钉的“钉闪记”就是集成了通义听悟的功能。未来,通义听悟还将在夸克APP、阿里云盘等端口提供服务。
(编辑 汪世军)