AI
音声から感情やこころの不調を含む非言語情報を推定する技術を開発しています。感情推定においては、自然な音声に含まれる曖昧な感情も推定し、実用での性能を向上させるための技術改良を行なっています。さらに、音声感情推定技術を拡張し、音声からこころの不調を推定する技術も新たに開発中です。これらの技術は、リモート社会で音声コミュニケーションが限定される中で、相手の感情や不調を把握したり、自らの感情や不調を表出して可視化したりするために役立ちます。
人間は音声を聞くときに、話し手が「何を言ったか」という言語情報だけでなく、話し手の感情や元気さといった非言語の情報も捉えています。つまり、書き起こしたテキストからだけではわからない非言語情報が、音声には含まれています。特に、リモート社会では相手の非言語情報を捉えにくく、コミュニケーションに困難が生じるケースが多くあります。そこで、非言語情報を効果的に推定できるAI技術の開発と、音声を入力してもらえるUX設計にチャレンジしています。
声から感情を推定する音声感情推定技術においては、基礎研究では特定の感情がある程度明確に表出された音声が多く扱われます。一方、実用においては、音声中に多様な感情が混じり合っていたり、感情の表出度が弱かったりすることが多くあります。そのような音声に対しても、NTT研究所で培われた、感情という曖昧なデータを学習するためのノウハウを活用し、多様な感情の推定を実現しています。さらに、音声感情推定技術を拡張し、こころの不調を推定する技術を開発中です。