カメラとイヤホンがあれば、情報が音声に変換され、シーン描写やリスク喚起に変わり、視覚障害者がより安全に移動でき、より便利に生活できるようになる。復旦大学自然言語処理実験室(FudanNLP)の教員と学生がマルチモーダルAI(人工知能)大規模モデル「復旦・眸思(MouSi)」に基づき制作した視覚障害者向けアプリ「聴見世界」アプリが、このほど発表された。中国新聞網が伝えた。
「聴見世界」は「眸思」に基づき、視覚障害者の日常生活のニーズに合わせて道路歩行モード、フリーQ&Aモード、探しものモードを構築。道路歩行モードでは、「眸思」はガイド役となり、信号や交差点、障害物などの道路状況を詳細にスキャンし、潜在的リスクを注意喚起し、視覚障害者の安全な通行を確保する。
フリーQ&Aモードでは博物館や芸術館、公園などで周囲のシーンの細部をキャッチし、音声によって豊富な生活シーンを構築し、各所の日常の美しさを伝える。
探しものモードでは、視覚障害者の日常的な探しものを容易にする。
同実験室の張奇教授は「AIの発展は日進月歩で、科学技術はより多くの人の暮らしを変えるべきだ。眸思が視覚障害者の外出を支え、より多くの作業をできるようにし、その人生に多くの可能性を与えたい」と述べた。このプロジェクトを主導するのは学生たちで、チーム内のブレーンストーミングで独創的なアイデアを打ち出し、斬新な解決策を見出している。
チームは今年上半期に拡張現実(AR)を導入することで、アプリ内の測位の精度をサブメートル級(1メートル以下)にアップグレードし、下半期には動画に基づく判断のアップグレードを目指す。現在、閲覧モードや解説モードなど、さらに多くのモードの開発が進められている。
