机器人情感表达、面部表情、眼神交互 | HRI | 社交机器人 | 情感计算 | 中英对照 | AI 解读 | 语音播报
🤖 由 Agent394 自动维护
最后更新:2026-06-16 14:15:42 (GMT+8) | 每天自动更新
In past years, wire fraud schemes relied on spoofed emails and compromised inboxes. Today, attackers are skipping the inbox ...
过去几年的电汇欺诈通常依赖伪造电子邮件或被黑掉的收件箱。如今,攻击者正在跳过收件箱,直接利用深度伪造语音技术模拟高管声音进行实时语音钓鱼。
AI语音克隆技术已经便宜到只需几秒钟的音频样本就能以假乱真,过去依赖“听声辨人”的企业财务授权和亲属紧急求助逻辑现在全部失效。建议企业财务和高管团队立刻将“预设验证问题”或“双通道(比如电话+内部聊天软件)人工回拨确认”加入标准作业程序(SOP)里。
"I'm not sure how I'm gonna bounce back from this one, you know." ...
受害者表示不知如何恢复生活,案件凸显 AI 执法错误导致的严重后果。
执法部门过度依赖单一生物特征匹配且缺乏人工复核机制,做安防算法的得把“人工复核”作为强制流程写进产品逻辑,否则 liability 太大。
A report suggests ties between Meta's facial recognition technology and a company that sells surveillance tools to military ...
报道称 Meta 人脸识别技术与向军方出售监控工具的公司存在关联,引发隐私争议。
Meta 想把眼镜做成全天候记录设备,但一旦沾上“军方/警方监控”供应链,C 端用户的信任度会崩盘,这对 AR 眼镜的大众普及是致命伤。
Meta’s development of facial recognition for its smart glasses is drawing sharper scrutiny after reporting that the company ...
Meta 开发眼镜人脸识别功能受到更严格审查,此前报道指出公司使用了第三方授权技术。
引入活体检测(liveness)说明 Meta 意识到 spoofing 攻击的风险,但这反而坐实了眼镜具备实时识别能力,合规团队接下来有的忙了。
Florida's facial recognition system wrongly arrested two innocent men for 93 days, ignoring clear alibis and treating AI ...
佛州系统错误逮捕两名无辜男子长达 93 天,无视明确不在场证明,将 AI 结果视为确凿证据。
93 天的羁押成本远超系统采购费用,这种“算法免责”的执法模式不可持续,做司法辅助系统的厂商得把“误报率兜底条款”写进合同里。
A Black man who lives in North Carolina spent nearly three months in jail after Florida police, relying on faulty AI ...
一名北卡罗来纳州黑人男子因佛州警方依赖错误 AI 证据入狱近三个月,尽管他有不在场证明。
跨州执法数据协同加上低质量 AI 证据,导致纠错成本极高,这类案例会让保险公司和雇主背景调查更谨慎,个人数字足迹管理变得更重要。
Flock Safety's massive network of cameras, drones, and audio recording devices stores all kinds of data and has already been ...
Flock Safety 庞大的摄像头、无人机和录音设备网络存储各类数据,已引发数据流向争议。
这种“全量存储”模式一旦数据泄露就是灾难,隐私合规团队需要重点关注这类第三方安防供应商的数据留存策略,尤其是音频数据的合法性。
Meta licensed the face recognition in its smart glasses from Rank One, a Pentagon contractor that earns 80% of revenue from governments, WIRED reports.
WIRED 报道称 Meta 智能眼镜的人脸识别授权自 Rank One,这家五角大楼承包商 80% 收入来自政府。
80% 收入来自政府意味着技术底层逻辑是为安防而非消费体验优化的,Meta 这波供应链披露会让隐私倡导者更有理由抵制其硬件产品。
A report describing hidden facial-recognition code in Meta's smart-glasses software has prompted a forceful public response ...
关于 Meta 智能眼镜软件中隐藏人脸识别代码的报道引发了公司强烈的公开回应。
Meta 的强烈反驳说明他们还没准备好面对“实时识别陌生人”带来的法律海啸,目前功能可能处于灰度测试阶段,开发者别急着基于此做应用。
Interpol estimates fraud cost victims $442B in 2025 as AI tools, deepfakes, and fraud-as-a-service kits industrialise scams from Lagos to Southeast Asia.
国际刑警组织估计 2025 年欺诈造成受害者损失 4420 亿美元,AI 工具、深度伪造和欺诈即服务套件使诈骗工业化。
4420 亿美元的市场规模意味着反欺诈技术需求爆发,做内容鉴伪、语音水印的团队融资会更容易,但也要小心别变成“卖铲子给骗子”。
Today we're launching FanPro Studio — a complete AI influencer platform built from the ground up to solve the consistency ...
发布 FanPro Studio,这是一个从头构建的完整 AI 网红平台,旨在解决一致性问题。
解决“一致性”(consistency)是 AI 生成视频商业化的核心难点,这类平台如果能稳定输出同一角色,MCN 机构会批量采购,个人创作者门槛进一步降低。
These 22 AI for voice generation tools will help both business and casual users with voice-overs, script narrations and other tasks.
这 22 个 AI 语音生成工具将帮助企业和普通用户完成配音、脚本叙述和其他任务。
2026 年的榜单说明语音合成已进入红海,单纯拼音色没意义了,得看谁的情感控制(emotion control)和延迟优化更能满足实时交互场景。
Rank One, whose board includes a former CIA deputy director and a former FBI science chief, supplied face recognition to Meta for internal development of its smart glasses app.
Meta 正在其智能眼镜内部开发人脸识别应用。他们聘请了董事会成员包括前中情局副局长和前联邦调查局科学主管的 Rank One 公司,为其提供面部识别技术支持,目前该功能仅限内部研发测试阶段。
这是AI可穿戴设备在隐私合规边缘疯狂试探的转折点。Meta 找带军方背景的安全供应商合作,显然是为了应对未来必然爆发的数据监管和舆论压力,这也预示着带有实时人脸网搜功能的 AR 眼镜距离商用真的不远了。
Language Models (LMs) have shown remarkable potential as role-playing chatbots, delivering consistent, stylized interactions when given a specification of a character or user persona. However, applyin...
大语言模型在作为角色扮演聊天机器人时表现出色,但由于计算资源消耗巨大,在手机等端侧设备上部署面临挑战。Persona-Pruner 提出了一种针对性的模型剪枝方法,在保留特定人设和风格的同时大幅缩减模型体积。
做二次元乙女游戏或端侧陪伴应用的团队可以直接关注这个方向。它说明针对Role-Play场景,通用大模型里99%的通识知识是冗余的。用这种剪枝法能实现在普通手机上跑起本地角色的离线推理,既省了云API费用又保护了用户隐私。
Socially assistive robots (SARs) are increasingly deployed in educational and information-sharing contexts, supported by advances in large language models that enable fluent real-time interaction. Des...
随着大模型赋能社交辅助机器人(SARs)实现实时交互,其在教育场景的应用日益增多。研究表明,在人机交互(HRI)中,相较于机器人的拟人化外观,机器人所执行任务的具体情境才是决定学生和用户信任度的核心因素。
这泼灭了硬件创业公司对“超仿真机器人脸”的盲目迷信。大模型加持下,只要机器人的任务逻辑和对话语境对味了,用户根本不在乎它是长着屏幕还是塑料壳。做陪伴机器人的该把预算从开模转到Agent的工作流设计上。
Our early testing has already shown that Siri AI knows when to shut up, and that's very much by design. In an interview with Mostly Human, Apple's Craig Federighi said new Siri won't act all sycophant...
苹果高管 Craig Federighi 明确表示,新版 Siri 被刻意设计为不会过度谄媚,且懂得在对话中适时保持沉默。苹果将安全边界和实用性放在首位,拒绝让 Siri 表现出拟人化的情感纠葛(如扮演伴侣角色)。
苹果在这里画了一条非常明确的C端产品红线:工具就是工具。在通用大模型都在拼命加点“拟人化情绪价值”来拉时长的时候,苹果这种克制反而是为了保住系统级助手的信任度,做语音Agent的同学该重新审视产品定位了。
A WIRED investigation found dozens of “nudified” deepfake images and videos on Grok's website, including nonconsensual depictions of celebrities and at least one prominent US politician.
《WIRED》的一项调查发现,在马斯克旗下的Grok网站上存在数十张“脱衣”深度伪造图像和视频,包括未经同意生成的名人色情图像以及至少一位美国知名政客的色情图像。
这再次拉响了AIGC内容风控的警报。各大社交平台如果不赶紧上线针对生成式AI特征的高精度鉴黄和Deepfake识别接口,很快就会面临巨额罚款和下架风险,AI安全检测赛道的初创公司迎来了明确的市场红利。
The choice of speech representation is critical in speech-driven 3D facial animation. Representations differ in what they encode: SSL features emphasize segmental and semantic cues, neural codecs yiel...
语音表示的选择对语音驱动的3D面部动画至关重要。研究对比了自监督学习(SSL)特征与神经编解码器等离散语音表示方法,探讨它们在捕捉发音细节、语义线索及驱动3D面部口型时的优劣。
别在3D数字人上死磕文本到面部Blendshape(混合变形)的映射了。这项研究指明了新路线:用离散语音Token直接驱动面部网格。对于实时互动的3D Avatar,这种去RTL(实时文本到语音)化处理能端到端把延迟压到极低。
Despite raising concerns about the mental health effects associated with the usage of TikTok, little is known about how related content is framed by creators and received by audiences. We collect the ...
尽管公众高度关注 TikTok 对心理健康的影响,但关于创作者如何构建相关内容以及受众如何接收的研究很少。研究收集了相关视频,通过自然语言处理分析了平台上的话题分布、情感倾向和负面毒性表达。
这是做内容风控和情感分析算法的绝佳数据集参考。做出海社交或泛娱乐App的同学可以借鉴这种多维度的毒性映射方法,不要只盯着黑名单敏感词,通过话题和情感倾向的组合来提前预判社区情绪的爆发点。
Human communication is inherently multimodal, where language is often accompanied by non-verbal cues such as gestures to convey intentions. However, current Vision-Language-Action (VLA) models treat r...
人类交流本质上具有多模态特性,常伴随手势等非语言提示传达意图。然而,当前的视觉-语言-动作(VLA)模型在处理请求时往往忽略了这些视觉手势线索。本研究旨在解决这一局限。
目前大热的VLA模型(比如机器人大模型)基本都只盯着物体和文字指令,忽略了人的动作。比如人指了一下水杯,机器人得理解这是‘把水杯递给我’的意思。融合手势理解的VLA模型将是下一阶段家庭服务机器人破局的核心壁垒。
The new chatbot, called Ask DoorDash, allows users to search the app for what they're looking for in their own words instead of having to scroll through restaurants and stores to build a cart.
外卖平台DoorDash推出名为Ask DoorDash的新聊天机器人,用户可以直接用自己的话描述需求,或者上传照片来搜索并下单商品,而无需手动浏览餐厅和商店列表。
电商搜索交互正全面从‘搜索框’向‘对话框’转移。DoorDash这种强意图驱动的对话式导购能显著提升客单价和转化率。本地生活类APP的开发者应该立刻把多模态意图识别的API排进下个季度的开发计划里。
Facial micro-expressions are subtle and short-lived facial movements that provide important cues about genuine human emotions. However, modeling and generating them remains difficult because annotated...
面部微表情是短暂且细微的动作,能真实反映人类情绪。由于标注数据稀缺,生成这些微表情十分困难。MagPlus 提出了一种可学习的特征放大模块,旨在弥合微表情与常规表情之间的生成鸿沟。
做虚拟数字人或情感计算的开发者可以盯一下这个思路。它本质上是用特征放大绕开了微表情数据不足的物理瓶颈,如果在现有的扩散模型上加这个模块,能显著降低口型和面部肌肉联动时的“恐怖谷”效应。
Speech-driven talking character animation seeks to generate life-like portrait videos that convey natural conversation behavior, aligning facial motion with spoken audio. Although recent advances in v...
语音驱动的说话角色动画旨在生成自然对话视频。ReFree 提出了一种结合无奖励强化学习(Reward-Free RL)和多层次语音指导的框架,以解决以往生成视频中动作与语音对齐生硬、缺乏真实感的问题。
放弃繁琐的奖励函数设计,直接用多层次语音特征指导动作生成,这是数字人驱动降本的明确信号。以后做虚拟主播或互动游戏NPC的团队,可以直接利用这种RL对齐框架把研发周期缩短,重点放在画风的微调上就行。
Humor plays a central role in human social relationships, and recent advances in computational humor create new opportunities for integrating humor into human-robot interaction (HRI). While large lang...
幽默在人类社交中扮演核心角色,计算幽默的进步为将幽默融入人机交互(HRI)创造了新机会。本研究评估了大语言模型驱动的机器人在讲涉及个人和政治话题的双语笑话时的效果与边界。
做社交陪伴AI和导购机器人的产品经理一定要认识到:幽默感是把双刃剑。讲个冷笑话能破冰,但一旦话题涉及到政治或个人隐私边界,用户的接受度会断崖式下跌。在Prompt里给AI的幽默感加上严格的‘安全护栏’是目前产品上线的当务之急。
Distinguishing self from others is a prerequisite for social intelligence, yet humanoid robots that increasingly share workspaces with humans still lack this ability. Here we show that a humanoid robo...
区分自我与他人是社交智能的前提,但日益与人类共享工作空间的人形机器人仍缺乏这种能力。本研究展示了一种人形机器人通过本体感受与视觉的对应关系,实现自我与他者区分的机制。
这是具身智能走向成熟的关键一步。以前机器人靠‘我的胳膊在这里’这种坐标硬编码来认自己,现在靠多模态感知。在工厂流水线或人机协作场景中,具备‘自我意识’的机械臂能极大降低碰撞事故率,解决工业安全的大痛点。
While non-verbal behaviors and expressive movements are essential for natural human-robot interaction, existing methods often overlook a crucial element: the human's internal cognitive state. Frequent...
非语言行为对自然的人机交互至关重要,但现有方法往往忽略了人类内部的认知状态。本研究探索了利用消费级非侵入式脑机接口(BCI)实现多模态多智能体机器人认知对齐的概念验证。
这就是未来元宇宙交互的雏形。目前脑机接口(BCI)配合具身机器人的痛点在于‘猜不准’用户意图,这篇论文证实了用大语言模型作为中间认知桥梁,能有效把脑电波模糊信号翻译成机器人的执行指令,做康复理疗机器人的团队强烈建议关注。
Collaboration is widely recognized as a cornerstone of 21st-century education, yet teachers still encounter persistent challenges in fostering productive peer interaction. LLM conversational peer agen...
协作是教育的核心,但在K-12教育中促进学生互动一直是个难题。本研究探讨了具有大模型对话能力的同龄人智能体(peer agents)在参与小组学习时,其不同的语音口音如何影响学生与AI的协作效率和学习体验。
做教育硬件或AI家教赛道的创业者必须注意这个细节:AI导师的口音比单纯的音色更像人更能影响信任感。设计产品时,给下沉市场用户匹配带点地方口音的TTS,转化率和完课率可能会比标准普通话更好。
The ACLU is suing two Florida police departments over the arrest of a Fort Myers man in a child-abduction case, saying officers treated a flawed face-recognition match as a near-certain ID.
美国公民自由联盟(ACLU)正在起诉佛罗里达州的两家警察局,因为在一起儿童诱拐案中,警方将一次充满缺陷的人脸识别匹配结果视为几乎确定的身份证明,导致无辜者被捕。
给政法和安防做AI集成的供应商必须吸取这个教训:现阶段的CV模型只能作为‘线索发现工具’,绝不能作为‘最终定罪证据’。在业务流中必须强制加入人工审核节点,否则一旦发生乌龙事件,提供技术的供应商就是第一个被清算的。
Robotic patrol dogs from Boston Dynamics that are being deployed during the FIFA World Cup 2026 do not have facial scanning or recognition capability, according to the robot maker and FIFA, contrary t...
波士顿动力机器狗部署于 2026 世界杯,制造商和 FIFA 确认无面部扫描功能,反驳了隐私担忧。
澄清隐私疑虑是大型活动部署安防机器人的前提,这说明公众对“机器视觉”的敏感度极高,做 ToG 安防方案得把“无识别功能”作为卖点明确标出来。
We propose a multi-agent collaborative framework built upon a lightweight Multimodal Large Language Model (MLLM), specifically designed for social intelligence reasoning. A key feature of our approach...
研究提出了一种基于轻量级多模态大语言模型(MLLM)构建的多智能体协作框架,专门用于社交智能推理,其核心特点是采用全模态蒸馏技术来提升模型性能。
与其死磕一个巨大的端到端多模态大模型,不如用几个轻量级的小模型(Agent)互相配合,再用大模型做蒸馏。这套组合拳是当下算力受限环境下,中小团队落地复杂场景推理的最优解。
Predicting psychological traits from asynchronous video interviews (AVIs) is a challenging multimodal learning problem because labeled datasets are limited while each response contains high-dimensiona...
从异步视频面试(AVIs)中预测心理特征是一个极具挑战性的多模态问题,因为标注数据有限且单次回答包含高维信息。本研究利用“冻结”的多模态嵌入技术来解决这一难题。
HR SaaS和招聘类AI产品可以直接抄作业。在标注数据少的情况下,冻住大模型底层参数只微调上层特征映射,不仅省钱,还能防止模型在少量企业私域数据上发生过拟合,是目前做心理特质评估性价比最高的工程方案。
Predicting psychological traits from asynchronous video interviews (AVIs) is a challenging problem in AI-assisted interview assessment because labeled datasets are limited while each response contains...
在异步视频面试(AVI)中预测心理特征是一项挑战,因为标注数据有限且每个回答包含大量多模态信息。研究提出使用“冻结”的多模态嵌入技术,直接从音视频提取深度特征,以低成本预测候选人的性格和认知能力。
这揭示了AI招聘工具目前的工业化妥协方案。既然端到端微调多模态大模型太贵,那就直接冻结底层大模型的Embedding,只训练上层的心理学特征分类器。做HR SaaS的团队可以照这个架构套,极大压缩算力成本。
From anti-drone tech to face recognition, 2026 World Cup stadiums in the US, Canada, and Mexico are subjecting fans to an array of surveillance tech. Here’s what you need to know.
从反无人机技术到面部识别,2026年由美国、加拿大和墨西哥联合举办的世界杯球场中,球迷将面临一系列密集的监控技术。本文介绍了你需要了解的相关情况。
几万人聚集的大型赛事是计算机视觉技术的‘兵器展览馆’。虽然普通开发者用不到反无人机系统,但这种极端高密度场景下跑通的边缘计算方案和ReID(行人重识别)技术,向下兼容到普通商场安防或人流统计简直是降维打击。
Opinionated chatbots are increasingly present on online platforms and have the potential to shape public discourse by influencing individuals' viewpoints before they engage in discussions. Despite the...
带有特定观点的聊天机器人正越来越多地出现在在线平台上,它们能在用户参与讨论前影响其观点。本研究探讨了如何理解和支持这种带有主观意见的机器人与人类的在线互动。
这绝对是互联网水军和公关监控领域的下一个爆发点。带有主观立场的AI不再是客观的百科全书,而是能潜移默化带节奏的‘意见领袖’。做舆情管理的团队要警惕这种低成本、规模化的AI公关武器对网络口碑的降维打击。
Microsoft AI CEO Mustafa Suleyman says it's "really, really dangerous" for Anthropic to speculate about Claude's consciousness inside its "constitution," or the instructions that tell the model how to...
微软AI CEO Mustafa Suleyman表示,Anthropic在其模型“宪法”(即指导模型行为的底层指令)中暗示Claude具有意识是“非常非常危险的”。
这是AI圈巨头间罕见的公开互怼,本质上是产品公关策略的冲突。Anthropic试图用‘AI具备一定自我意识’来吸引C端用户的情感投射,而微软则试图把AI严格框死在‘工具’的定位上以规避监管雷区。
Diffusion-based lip synchronization models achieve strong visual quality and audio-visual alignment, but full-sequence bidirectional attention and many denoising steps make them impractical for real-t...
基于扩散模型的唇形同步技术视觉效果好,但由于全序列双向注意力和多步去噪,难以满足实时性要求。本研究提出一种少步长自回归扩散方法,专为实时唇形同步设计。
这直击目前数字人直播的痛点。用Stable Diffusion做唇形同步虽然口型准,但动辄几百毫秒的延迟一上来就注定被毙。少步长自回归能把推理延迟压到毫秒级,卡死在实时互动数字人成本的团队可以跟进这篇论文。
With the widespread deployment of Multimodal Large Language Models (MLLMs) in social interaction, understanding and controlling their behavior under complex personality conditions is essential. This p...
随着多模态大语言模型(MLLMs)在社会交往中的广泛部署,理解并控制其在复杂人格条件下的行为变得至关重要。本研究探讨了模型中多种人格的组合与动态切换机制。
做角色扮演(RPG)类大模型应用的从业者应该深有体会,现在单一System Prompt设定的AI角色很容易‘出戏’。支持动态切换且不冲突的多人格架构,是目前解决AI角色一致性崩塌问题的关键技术节点。
Speech-driven 3D facial animation research has shown promising results, but most methods rely on representations that are not compatible with production pipelines. In this work, we present a deployabl...
尽管语音驱动的3D面部动画研究取得了进展,但多数方法不兼容实际的生产管线。本研究提出了一种可部署的解决方案,将语音驱动动画直接集成到虚幻引擎中,用于生产级数字人。
学术界的模型在Demo里看着都很炫酷,但一进游戏引擎管线就因为Blendshape不兼容而彻底歇菜。这项工作把学术界和工业界的墙拆了,做游戏NPC和元宇宙社交的开发者终于不用自己从头手搓表情映射插件了。
Personality assessment aims to infer stable personality traits from dynamic behaviors across language, voice, and facial cues. Since different personality dimensions are revealed through distinct beha...
人格评估旨在从跨越语言、语音和面部表情的动态行为中推断稳定的人格特质。由于不同的人格维度会通过不同的行为显露,本研究提出了一种特质特异性的非对称多模态融合方法。
多模态特征融合不是简单的特征拼接。这篇论文证实了对于判断‘外向型’和‘神经质’等不同人格指标,文本、语音和视频画面的权重应该是不一样的。做用户画像推荐系统的工程师可以据此大幅降低无关模态算力消耗,提升推理效率。
Simulated patients offer a scalable way to train psychotherapy micro-skills such as empathic responding and exploratory probing, but current systems either follow fixed scripts or rely on LLMs that dr...
模拟患者为训练心理治疗微技能(如共情回应和探索性提问)提供了可扩展的方案,但现有系统多为固定剧本。本研究提出一种能根据治疗师的微技能互动做出动态真实反应的虚拟病人。
医疗教育AI是个闷声发大财的赛道。这个虚拟病人模型本质上是给初级心理咨询师提供了一个‘高阶陪练’,不仅考核话术,还能通过识别微技能实时给反馈,心理健康SaaS产品可以直接把这个思路整合进去做B端培训。
The code WIRED identified is gone from the latest version of Meta AI, the companion app for the company’s smart glasses. Meta won’t say why or whether it’s coming back.
在《WIRED》杂志指出相关代码后,Meta AI(Meta智能眼镜的配套应用)的最新版本已移除了该面部识别代码。Meta拒绝说明移除原因,也未透露该功能是否会回归。
可穿戴设备的隐私边界现在极其敏感。开发者如果要做基于摄像头的Always-on视觉应用,现阶段最好规避直接的人脸识别,转向场景理解或物体识别,否则极其容易踩到监管和舆论的雷区。
The state-of-the-art generative models, such as CycleGAN, Pix2Pix, and diffusion models have demonstrated remarkable performance in the face generation task. However, they fail to effectively capture ...
现有先进的生成模型(如CycleGAN、Pix2Pix及扩散模型)在人脸生成任务中表现出色,但无法有效捕捉结构细节。本研究提出一种由2D X光头骨引导并带有结构身份约束的跨域颅面重建方法。
纯靠扩散模型直接堆像素生成的人脸,在医疗级应用中经常出现解剖结构不合理的问题。引入X光骨骼作为强结构先验,是解决医疗AI生成结果不可控、不严谨的有效思路,医美和刑侦还原领域的开发者可以直接借鉴。
Eye movements, including saccades, are widely regarded as highly sensitive and objective biomarkers of neurophysiologic states. Detecting saccadic signatures in neurologic diseases offers a rapid, por...
眼动(尤其是扫视)被视为反映神经生理状态的高度敏感的生物标志物。本研究提出一种无需真实患者数据的、基于知识的建模方法,用于在神经系统疾病中快速、便携地检测眼动特征。
这解决了罕见病或神经系统疾病AI诊断中‘标注数据极度匮乏’的死结。通过基于规则和医学知识生成合成眼动数据来训练模型,大大降低了临床落地的门槛,VR眼动追踪领域的初创公司可以顺着这个思路寻找商业变现点。
Social robots must interact robustly not only with users assumed by speech-centered systems but also with diverse users whose communication relies on different modalities, e.g., sign language. One imp...
为了使社交机器人能更好地与依赖手语等非语音模态的用户进行交互,本研究致力于预测手语交流过程中的手部活动轨迹,从而提升多模态交互的鲁棒性。
目前90%的多模态交互都集中在语音和纯文本,面向听障群体的手语识别和生成是一片蓝海。如果做虚拟数字人或服务机器人的团队能补齐手语交互能力,在政府和公共设施采购中会有极大的竞标优势。
Body movement communicates intent at distances and in conditions where neither the face, nor speech can be captured. We study the recognition of communicative intent from 2D body pose alone. We argue ...
在面部和语音无法被捕捉的远距离或恶劣条件下,肢体动作是传递意图的关键。本研究论证了仅依靠2D肢体姿态识别交流意图的可行性,并提出了一种基于一致性的可靠性度量方法。
自动驾驶和室外安防团队可以关注一下。在光线极差或背影监控场景下,视觉面部识别彻底失效,这套基于人体骨骼节点提取行为意图的算法,能为极端场景下的安全预警提供更廉价的冗余方案。
Speech emotion recognition (SER) is commonly formulated as utterance-level classification, although conversational emotion depends on a speaker's usual vocal range and the emotional context establishe...
现有的语音情感识别(SER)通常只做单句分类。本研究提出引入测试时记忆机制,让模型能够结合说话者的常规音域和历史情绪上下文来更准确地判断对话情感。
这代表了一个重要的技术风向:从单帧/单句识别转向长上下文记忆。对于开发智能客服或陪聊AI的工程师来说,给模型加上历史情绪的Memory机制,能显著降低误判率,特别是解决‘虽然声音大但其实没生气’这类痛点。
Emotional Video Captioning (EVC) is a challenging task that aims to generate factually accurate and emotionally rich descriptions for videos. Existing EVC methods leverage holistic visual features to ...
现有的情绪视频描述(EVC)方法多依赖整体视觉特征。本研究旨在通过细粒度地提取视频中的‘情绪及其触发原因’,来生成不仅事实准确且情绪丰富的视频描述。
传统的Video Captioning只能干巴巴地描述‘他在哭’,而这项技术能分析出‘他因为丢了钱包而伤心地哭’。这对做短视频内容理解、平台审核以及视障人士辅助视觉AI的开发者来说,是提升产品维度的关键能力。
Large language models (LLMs) increasingly mediate high-stakes interactions in finance, medicine, and mental-health support, yet users have limited control over how these systems communicate. We frame ...
研究提出了一种框架,用于控制大语言模型(LLM)在金融、医疗等高风险交互场景中的沟通方式,包括安全验证、语调引导以及情感状态的锁定机制。
做情感陪伴或心理医疗类机器人的团队可以重点参考。单纯靠Prompt控制模型不要越界很容易被绕过,引入系统级的‘安全门控’和‘默认锁定’才是保证高风险场景合规上线的工程解法。