2022年03月23日 [色々なこと]
手話AI
お疲れ様です。院長です。
3月23日の水曜日でございます。
だんだん暖かくなり、ボチボチ桜がどうのという地方も出てきますね。
やっぱり春は良いですな。
では、ここのところ登場頻度が非常に高く、毎回のように進化を見せつけてくれるAIネタですが、今日もなかなかなAIをご紹介したいと思います。
なんと、手話をリアルタイムで通訳してくれるAIが開発されたそうなんです。
動きを画面上で、テキストに変換してくれるんだそうですよ。
ズームなどによるテレビ会議システムなど、オンラインを介したコミュニケーションが、コロナ禍により、一般的になってきています。
ですが、映像と音声を使ったやり取りとなると、耳の不自由な人には非常に困難になることも確かです。
そこで新たに開発されたのが、AI(人工知能)で手話をリアルタイムで通訳してくれるシステムなんですよ。
インドの学生が開発したAIモデルは、画面上で手話の動きをすると、瞬時にそれをテキストに変換してくれるというまさしく、オンライン時代の切り札みたいなAIなんですよ。
画像認識技術を応用して作られたその手話通訳AIは、腕や指など体の複数のパーツの動きを分析して、アメリカ式の手話を英語に変換します。
開発したのは、インド、ヴェロール大学工学部の学生プリヤンジャリ・グプタさんと言う方で、彼女によると、この開発の原動力になったのは、工学部の学生として人の役に立つ、特別なことにトライしなさいという母親からの励ましだったそうなんです。
「私の知識とスキルで何ができるか考えさせられました。それで包括的テクノロジーのアイデアが閃き、一連の計画に着手しました」とプリヤンジャリ・グプタさんは語っています。
手話通訳AIは、聴覚に障害がある人々のコミュニケーションをより円滑にしてくれると大いに期待できますが、今はまだ開発初期段階だそうです。
現在認識できる手話は、「はい」「いいえ」「こんにちは」「ありがとう」、そして「愛してる」の基本的なものだけだそうです。
ちなみにこんな感じで、テキスト変換されます。
まぁ、これだけでは会話にはならないですが、あとはこうしたモデルの信頼性を高めるために、大量の手話データでAIを学習させていかねばなりません。
今回使われたデータセットは、ウェブカメラを使って手作業で作成されたものだそうなんですから、それはそれでスゴイですよね。
それゆえに、1フレームだけしか学習できず、連続した動作はまだ検出することはできないようなんですが、このアイデアの可能性は十分実証されたと思われます。
現在プリヤンジャリ・グプタさんは、「LSTM(Long-Short Term Memory network)」という人工回帰型ニューラルネットワークで、複数のフレームを取り込めるよう研究を続けているとのことです。
またAIの開発には、機械学習の専門家で、人気ユーチューバでもあるニコラス・レノッテ氏からの協力も仰いだとのことです。
プリヤンジャリ・グプタさんはこのAIモデルをソフトウェア開発のプラットフォーム「Github」に公開しました。
オープンソース(ソースコードが公開されているソフトウェアのことです。)にすることで、コミュニティの力を借りながら、課題を解決しつつ、作業をさらに進められるだろうと期待しているそうです。
なおわたくし院長も知りませんでしたが、アメリカにおいては、「手話」は英語とスペイン語について3番目に話者が多い言語なのだそうですよ。
現時点で、そうした需要をズームなどのコミュニケーションアプリが満たしているとはとても言い難い状況です。
しかし昨今のコロナ禍でこの状況に注目が集まっているのは確かなようです。
ちなみにこのブログでも以前紹介しましたが、手話を音声に変換してくれる「手袋型デバイス」も開発されていますしね。
手話の話者とそれを理解しない人との間の言葉の壁は、思っているよりも早くなくなるかもしれませんね。
これって、盲点と言うかこういう方法があったんだなぁと、改めて発想の可能性を感じましたね。
もし、これらのAIが完成し、アプリ化とかできたら、手話者の動きをスマホのカメラでとることで、スマホにその意味が?表示されるとかできたら、ズームなんかのオンライン上以外でも、手話者とのコミュニケーションがもっと手軽にとれますよね。
こういう必要性の高いAIは、ドンドン研究して下さい。
そして、どこの誰かは分かりませんが、こういった若い探求心のある発明者に資金を投入して下さいよ。
お金のバラマキとか言って、意味のないことするより、こういった人たちにキッチリ研究できる環境を作ってあげるのが大事じゃないかと思います。
ま、わたくし院長、資金提供とか無理ですけどね(笑)
ではまた〜。
京都 中京区 円町 弘泉堂鍼灸接骨院
3月23日の水曜日でございます。
だんだん暖かくなり、ボチボチ桜がどうのという地方も出てきますね。
やっぱり春は良いですな。
では、ここのところ登場頻度が非常に高く、毎回のように進化を見せつけてくれるAIネタですが、今日もなかなかなAIをご紹介したいと思います。
なんと、手話をリアルタイムで通訳してくれるAIが開発されたそうなんです。
動きを画面上で、テキストに変換してくれるんだそうですよ。
ズームなどによるテレビ会議システムなど、オンラインを介したコミュニケーションが、コロナ禍により、一般的になってきています。
ですが、映像と音声を使ったやり取りとなると、耳の不自由な人には非常に困難になることも確かです。
そこで新たに開発されたのが、AI(人工知能)で手話をリアルタイムで通訳してくれるシステムなんですよ。
インドの学生が開発したAIモデルは、画面上で手話の動きをすると、瞬時にそれをテキストに変換してくれるというまさしく、オンライン時代の切り札みたいなAIなんですよ。
画像認識技術を応用して作られたその手話通訳AIは、腕や指など体の複数のパーツの動きを分析して、アメリカ式の手話を英語に変換します。
開発したのは、インド、ヴェロール大学工学部の学生プリヤンジャリ・グプタさんと言う方で、彼女によると、この開発の原動力になったのは、工学部の学生として人の役に立つ、特別なことにトライしなさいという母親からの励ましだったそうなんです。
「私の知識とスキルで何ができるか考えさせられました。それで包括的テクノロジーのアイデアが閃き、一連の計画に着手しました」とプリヤンジャリ・グプタさんは語っています。
手話通訳AIは、聴覚に障害がある人々のコミュニケーションをより円滑にしてくれると大いに期待できますが、今はまだ開発初期段階だそうです。
現在認識できる手話は、「はい」「いいえ」「こんにちは」「ありがとう」、そして「愛してる」の基本的なものだけだそうです。
ちなみにこんな感じで、テキスト変換されます。
まぁ、これだけでは会話にはならないですが、あとはこうしたモデルの信頼性を高めるために、大量の手話データでAIを学習させていかねばなりません。
今回使われたデータセットは、ウェブカメラを使って手作業で作成されたものだそうなんですから、それはそれでスゴイですよね。
それゆえに、1フレームだけしか学習できず、連続した動作はまだ検出することはできないようなんですが、このアイデアの可能性は十分実証されたと思われます。
現在プリヤンジャリ・グプタさんは、「LSTM(Long-Short Term Memory network)」という人工回帰型ニューラルネットワークで、複数のフレームを取り込めるよう研究を続けているとのことです。
またAIの開発には、機械学習の専門家で、人気ユーチューバでもあるニコラス・レノッテ氏からの協力も仰いだとのことです。
プリヤンジャリ・グプタさんはこのAIモデルをソフトウェア開発のプラットフォーム「Github」に公開しました。
オープンソース(ソースコードが公開されているソフトウェアのことです。)にすることで、コミュニティの力を借りながら、課題を解決しつつ、作業をさらに進められるだろうと期待しているそうです。
なおわたくし院長も知りませんでしたが、アメリカにおいては、「手話」は英語とスペイン語について3番目に話者が多い言語なのだそうですよ。
現時点で、そうした需要をズームなどのコミュニケーションアプリが満たしているとはとても言い難い状況です。
しかし昨今のコロナ禍でこの状況に注目が集まっているのは確かなようです。
ちなみにこのブログでも以前紹介しましたが、手話を音声に変換してくれる「手袋型デバイス」も開発されていますしね。
手話の話者とそれを理解しない人との間の言葉の壁は、思っているよりも早くなくなるかもしれませんね。
これって、盲点と言うかこういう方法があったんだなぁと、改めて発想の可能性を感じましたね。
もし、これらのAIが完成し、アプリ化とかできたら、手話者の動きをスマホのカメラでとることで、スマホにその意味が?表示されるとかできたら、ズームなんかのオンライン上以外でも、手話者とのコミュニケーションがもっと手軽にとれますよね。
こういう必要性の高いAIは、ドンドン研究して下さい。
そして、どこの誰かは分かりませんが、こういった若い探求心のある発明者に資金を投入して下さいよ。
お金のバラマキとか言って、意味のないことするより、こういった人たちにキッチリ研究できる環境を作ってあげるのが大事じゃないかと思います。
ま、わたくし院長、資金提供とか無理ですけどね(笑)
ではまた〜。
京都 中京区 円町 弘泉堂鍼灸接骨院