杨 毅1,徐淑正1,乔 飞1,王靖淇2,王生进1
(1.清华大学电子工程系,北京100084;2.英特尔(中国)有限公司,北京100()13)
摘要:媒体与认知实验课程是清华大学电子工程系在课程改革中提出的一门全新的核心必修课程。文章首先阐述该课程的特点,然后介绍基于英特尔RealSense设备及微软Kinect设备开发的一套探索前沿型实验教学平台,分别说明基于手势识别的博弈游戏实验项目和基于姿势识别的组合拍照实验项目,指出通过这些前沿的基于交叉学科的智能感知技术和内容,学生可以掌握成为本领域高层次专业人才必需的各项基本技能和专业知识。
教育期刊网 http://www.jyqkw.com
关键词 :RealSense;媒体认知;智能感知;机器学习;人机交互
文章编号:1672-5913(2015)15-0108-03 中图分类号:G642
基金项目:英特尔一清华媒体与认知实验教学项目( 202023011)。
第一作者简介:杨毅,女,高级工程师,研究方向为数字信号处理,yangyy@mail.tsinghua.edu.cn。
1 背景
媒体与认知实验课程借鉴包括美国MIT大学、CMU大学、Stanford大学、英国伦敦大学学院等在内的国外著名大学跨媒体信息处理、入机交互与感知技术、虚拟现实及信号处理领域实验教学课程的特点,并结合清华大学电子工程系在该领域研究的基础、优势和创新性成果,有针对性地将已有科研成果转化为教学实验课中的教学内容,通过建设一套完整、全面的涵盖人机感知交互、媒体信息处理、虚拟现实及信号处理领域的探索前沿型实验教学平台,培养学生的智能感知技术开发能力;同时,采用集体创新培养和个人研究探索相结合的方式,最终达到理工与人文、技术与艺术、感知与思考的高度融合,成为具有国际一流水平的、兼具科研创新能力和探索精神的领军型人才。
实验教学课程内容及平台涉及的主要研究内容包括媒体数据获取与人机交互、生物特征识别、语音识别及情感理解、虚拟交互行为分析等。该实验课程力图建设成为达到国际水平的智能感知技术实验教学课程及项目平台。通过该实验课程的建立,学生能够了解国际科学界及工业界最前沿的媒体认知及智能感知技术热点和难点问题,利用平台的基础设施和设备构建并实施多种解决方案。跨行业、跨领域、跨学科的媒体认知及智能感知类前沿综合实验课程,通过借助智能感知及人机交互知识作为工具和手段解决媒体信息处理、虚拟现实及人机交互的问题,充分挖掘和激发理工科背景知识较佳的电子工程系学生在交叉学科和前沿技术方面的实力和潜力。
2 媒体与认知实验课程特点
媒体与认知实验设计开发了一套以实时智能感知技术为基础的探索前沿型实验教学平台,该平台在设备和设计内容方面均与国际水平接轨,具有教学互促、知识延伸、技能拓展的特点。项目平台涵盖跨媒体信息处理、人机交互与感知技术、虚拟现实等领域的设备和技术,力图成为与国际接轨的探索前沿型实时智能感知实验教学平台。
该课程涉及的技术和研究方向均为国内外智能感知技术领域各大高校和科研院所的研究热点及难点,将这些研究内容引入实验教学,可以引导本科学生开阔科研视野、坚定科研信念和明确科研方向。通过构建与国际最新研发技术水平相当的实验平台,学生能够了解国际领先的媒体认知及信号处理知识和技能,利用该平台的基础设备构建并实施多种解决方案;教学最终达到培养掌握国际领先技术、具有突出创新实践能力和持续探索精神的高素质人才的目的。
该平台内容主要面向各年级本科生及硕士研究生,与基础核心课、专业限选课等课程配套,逐步形成层次清晰、逐级扩展的具有创新探索前沿性质的智能感知技术教学实验课程体系。
3 基于手势识别的媒体认知实验项目
人机交互的双向信息流动是以媒体感知和处理为核心的。人将用户感觉和效应通道传递的交互意图在计算机内表示为文本、语音、图形、图像等多媒体信息。人到机( human to computer)信息流动是多媒体信息的获取及识别过程,计算机处理的信息需要以文本、语音、图形、图像等用户理解概念所需的多媒体信息形式展现出来;机到人( computer to human)的信息流动是多媒体信息的合成和呈现过程,机器利用感知及推理对来自用户感觉和效应通道的跨媒体信息进行识别、集成和协调,获取用户动作和行为习惯、偏好及其他相关信息,以人类易理解的多媒体信息方式为用户提供输出信息,从而提供不受时空限制而效能最大化的个性化计算服务。
美国Stanford大学电子工程系提出一种基于Kinect的手势识别方法,通过Kinect获取RGB图像信息和深度数据,采用SURF变换算法实现高准确度的手势识别。西班牙马德里卡洛斯大学机器人实验室( Robotics Lab,Univ. Carlos IIIof Madrid Leganes,Spain)针对传统的手势识别系统受光照条件影响导致计算量大、训练过程长等问题,根据RGB-D摄像头获取的深度数据建立人手的骨骼模型,从三维骨骼模型中提取手势的时域信号,采用有限状态机对手势不同状态下的方向进行编码,采用基于模板的分类器识别出手势。瑞士苏黎世联邦理工大学计算机视觉实验室( Computer Vision Lab,ETH Zurich,Zurich,Switzerland)提出一种基于Haarlet的手势识别系统,根据微软Kinect设备获取的深度信息检测手势的三维指向,将手势转换为交互命令,提高了人与机器人交互的自然性。
石头、剪子、布、蜥蜴、史波克( Rock-Paper-scissors-Lizard-Spock)是一种由石头、剪子、布延伸出来的博弈论猜拳游戏,在石头、剪子、布基础上增加了两种手势,减少了原来石头、剪子、布游戏和局的几率。该游戏的手势及输赢说明如图1所示(图来自百度图片搜索)。
英特尔的RealSense设备是一种能通过采集视觉、深度,音频等多种媒体信息获得手势、语音等表征意图的智能感知设备,可以广泛应用于自然互动、沉浸式协作与创作等创新应用,能够帮助开发人员在游戏、娱乐和内容创建交互方面实现新的突破。该实验项目通过利用全新的英特尔三维智能感知设备RealSense,可以实现上述手势识别的智能感知功能。该实验设置多种难度,将简单难度设置为电脑随机出拳;针对高等难度则需要学习用户的出拳模式并构建一个马尔科夫模型,电脑针对用户的出拳模式进行相应出拳。基于RealSense识别的5种手势如图2所示,可以看出ReaISense设备对不同手势的区分度较高。
4 基于姿势识别的媒体认知实验项目
人体的三维模型包含足够的信息以描述人体的运动特征,对于体感交互设计而言,姿态识别、动作识别、手势识别非常重要。微软推出的Kinect设备与计算机软件开发包一起使用,为企业和开发者提供创建交互式应用程序的基础,允许开发者借助微软或语言开发相关应用,提供骨豁跟踪、人脸跟踪、语音识别技术等底层功能。基于Kinect设备开发的平台和应用获得了不错的效果。艺术家通过人体组合姿势构成英文里的各种字母形象,如图3所示。
该实验项目通过利用Kinect实现人体字母造型识别,在造型匹配某个特定字母或组合时触发拍照,解决在实际拍照过程中为了摆出某一特定造型需要多次重复大量拍摄的问题。基本思路是利用Kinect的人体识别功能,在摄像头获得的图像中提取出人体位置信息,然后将人体位置信息在本地程序中与预设的目标造型进行匹配,只有当匹配程度到达一定值的时候,程序才触发拍摄事件并将图像保存。系统由5个模块组成:初始化、人体识别、计算匹配度、图形显示和拍照触发。其中,初始化模块属于主窗口类,内部由时间进行关联,其他模块各为一类,分别通过调用函数和嵌入窗体的方式使用,其算法框架如图4所示。系统运行过程中,计算出的匹配数值会直接显示在屏幕上,同时弹出提示字幕,向用户反馈其姿势准确程度。
5 结语
媒体与认知实验课程为涉及感知技术的基础核心课、专业限选课和前沿探索课提供全面的实验支持,以智能感知及人机交互知识作为工具和手段解决媒体信息处理、虚拟现实及人机交互的问题,可以充分挖掘和激发理工科学生在交叉学科和前沿技术方面的实力和潜力。该实验平台具有感知层次多、可逐级扩展的优势,可开展面向本科生及硕士研究生的感知技术实验教学;进一步将面向全校信息技术领域本科生及硕士研究生开放,达到本研贯通、学科交叉的目的,实现培养信息领域高素质人才的最终目标。