Các nhà nghiên cứu đang khám phá các cách sử dụng giọng nói của con người để chẩn đoán nhiễm coronavirus, chứng mất trí, trầm cảm và nhiều loại bệnh khác nữa.


Theo dõi giọng nói của bệnh nhân Parkinson có thể giúp hỗ trợ đánh giá hiệu quả của việc sử dụng các liệu pháp điều trị khác nhau. Ảnh: Don Kelsen/Los Angeles Times/Getty.

Khi đại dịch bùng phát với tốc độ đáng kinh ngạc vào hồi tháng ba, các nhà quản lý trên khắp thế giới bắt đầu kêu gọi tất cả mọi người tham gia vào cuộc chiến. Các bệnh viện đã yêu cầu các công ty địa phương quyên góp khẩu trang. Các nhà nghiên cứu kêu gọi những người đã hồi phục sau Covid-19 hiến huyết tương của họ. Và ở Israel, Bộ Quốc phòng và một công ty tên là Vocalis Health đã yêu cầu mọi người đóng góp giọng nói.

Vocalis, công ty phân tích giọng nói có văn phòng tại Israel và Hoa Kỳ, trước đây đã xây dựng một ứng dụng điện thoại thông minh, có thể phát hiện các đợt bùng phát của bệnh phổi tắc nghẽn mãn tính bằng cách lắng nghe các dấu hiệu người dùng bị hụt hơi khi nói. Công ty muốn làm điều tương tự với Covid-19. Những người đã có kết quả xét nghiệm dương tính với coronavirus có thể tham gia chỉ bằng cách tải xuống ứng dụng nghiên cứu Vocalis. Mỗi ngày một lần, họ kích hoạt ứng dụng bằng cách nói vào điện thoại, phát âm to và đếm từ 50 đến 70.

Sau đó, Vocalis bắt đầu xử lý các bản ghi âm này bằng hệ thống máy học, so sánh với giọng nói của những người đã được xét nghiệm âm tính, nhằm cố gắng xác định dấu hiệu của căn bệnh này. Vào giữa mùa hè, công ty đã có hơn 1.500 mẫu giọng nói và đưa ra phiên bản thử nghiệm của công cụ sàng lọc kỹ thuật số Covid-19. “Đây không phải phương pháp gây xâm lấn, không phải là thuốc, chúng tôi không thay đổi bất cứ điều gì. Tất cả những gì bạn cần làm là nói”, Tal Wenderow, chủ tịch kiêm giám đốc điều hành của Vocalis nói. Công cụ này không nhằm đưa ra chẩn đoán chính xác để giúp các bác sĩ phân loại các trường hợp tiềm ẩn, xác định những người có thể cần xét nghiệm, cách ly hoặc chăm sóc y tế.

Có ba nhóm khác cũng đang thực hiện ý tưởng tương tự. Đó là một dấu hiệu cho thấy lĩnh vực chẩn đoán giọng nói mới mẻ này đang phát triển nhanh chóng. Trong thập kỷ qua, các nhà khoa học đã sử dụng trí tuệ nhân tạo (AI) và hệ thống máy học để xác định các dấu hiệu sinh học giọng nói của nhiều tình trạng khác nhau, bao gồm mất trí nhớ, trầm cảm, rối loạn phổ tự kỷ và thậm chí cả bệnh tim. Các công nghệ mà họ đã phát triển có khả năng chọn ra những khác biệt nhỏ trong cách nói chuyện của những người mắc một số bệnh. Các công ty trên khắp thế giới đang bắt đầu thương mại hóa chúng.

Hiện tại, hầu hết các nhóm đang thực hiện cách tiếp cận chậm, từng bước, thiết kế các công cụ phù hợp để sử dụng trong văn phòng bác sĩ hoặc các thử nghiệm lâm sàng. Nhưng nhiều người mơ ước triển khai công nghệ này rộng rãi hơn, một ngày nào đó có thể cho phép các nhà dịch tễ học sử dụng điện thoại thông minh để theo dõi sự lây lan của dịch bệnh và biến nó thành thiết bị y tế trong nhà. “Trong tương lai, các trợ lý ảo như Siri hay Alexa trên điện thoại có thể biết được bạn có bị ốm hay không”, Björn Schuller, ở Đại học Augsburg của Đức Germany and Imperial College London, người dẫn dắt một trong những nghiên cứu về Covid-19 nói.

Nhưng phân tích giọng nói tự động vẫn còn là một lĩnh vực mới và có một số bất cập tiềm ẩn, từ chẩn đoán sai lầm cho đến xâm phạm quyền riêng tư cá nhân và y tế. Các nghiên cứu vẫn còn ở phạm vi nhỏ và mới chỉ sơ bộ, và việc chuyển từ lý thuyết sang sản phẩm sẽ không dễ dàng. 

Tín hiệu giọng nói

Nói đòi hỏi sự phối hợp của nhiều cấu trúc và hệ thống giải phẫu. Phổi đẩy không khí qua các dây thanh âm, tạo ra âm thanh được định hình bởi lưỡi, môi và khoang mũi, cùng các cấu trúc khác. Bộ não và hệ thần kinh giúp điều chỉnh tất cả các quá trình này cũng như xác định những từ ngữ mà ai đó đang nói. Một căn bệnh ảnh hưởng đến bất kỳ cơ quan nào trong số các cơ quan trên đều có thể để lại manh mối chẩn đoán.

Phần lớn các nghiên cứu ban đầu trong lĩnh vực này tập trung vào bệnh Parkinson, căn bệnh có ảnh hưởng lớn đến giọng nói mà chưa có một phương pháp chẩn đoán cụ thể. Rối loạn này gây ra một loạt các triệu chứng vận động, bao gồm run, cứng cơ, các vấn đề về thăng bằng và phối hợp. Sự mất kiểm soát kéo dài đến các cơ khiến nhiều người bị Parkinson có giọng nói yếu và mềm. Reza Hosseini Ghomi, bác sĩ tâm thần kinh tại EvergreenHealth ở Kirkland, Washington, cho biết: “Những dấu hiệu đó có thể thấy rõ khi bạn nghe trực tiếp. Nhưng nếu đưa 10.000 mẫu giọng nói vào một máy tính, nó chính xác hơn nhiều.”

Hơn một thập kỷ trước, Max Little, một nhà nghiên cứu về máy học và xử lý tín hiệu tại Đại học Birmingham, Vương quốc Anh, đã bắt đầu điều tra xem liệu phân tích giọng nói có thể giúp các bác sĩ đưa ra những chẩn đoán khó hay không. Trong một nghiên cứu, Little và các đồng nghiệp của ông đã sử dụng bản ghi âm của 43 người, trong đó có 33 người bị bệnh Parkinson, nói “ahhh”. Họ đã sử dụng các thuật toán xử lý giọng nói để phân tích 132 đặc điểm âm thanh của mỗi bản ghi âm, cuối cùng xác định được 10 đặc điểm – bao gồm các đặc điểm như thở và dao động run về cao độ, âm sắc – dường như là dự đoán chính xác nhất về bệnh Parkinson. Chỉ sử dụng 10 tính năng này, hệ thống có thể xác định các mẫu giọng nói của những người mắc bệnh với độ chính xác gần 99%.

Little và những nhà chuyên môn khác trong lĩnh vực này cũng đã chứng minh rằng một số đặc điểm giọng nói tương quan với mức độ nghiêm trọng của các triệu chứng Parkinson. Little nói, các hệ thống này vẫn chưa đủ mạnh để sử dụng thường xuyên trong lâm sàng, nhưng có rất nhiều ứng dụng tiềm năng. Phân tích giọng nói có thể cung cấp một cách nhanh chóng, chi phí thấp để theo dõi những cá nhân có nguy cơ mắc bệnh cao; để sàng lọc các quần thể lớn; hoặc thậm chí có thể tạo ra một dịch vụ có thể chẩn đoán từ xa cho những người không thể đến gặp bác sĩ. Bệnh nhân có thể sử dụng công nghệ này tại nhà – dưới dạng một ứng dụng điện thoại thông minh – để theo dõi các triệu chứng của chính họ và theo dõi tác dụng của thuốc mà họ đang sử dụng. Little nói: “Loại công nghệ này có thể cho phép ghi lại, với tốc độ cao, gần như liên tục về triệu chứng của bệnh nhân đang có dấu hiệu thay đổi”.

Các nhà nghiên cứu đang nghiên cứu để xác định các dấu hiệu sinh học dựa trên giọng nói để tìm hiểu về các loại bệnh thoái hóa thần kinh khác. Ví dụ, một bộ ba nhà khoa học ở Toronto, Canada, đã sử dụng các mẫu giọng nói và bản ghi âm của hơn 250 người để xác định hàng chục điểm khác biệt giữa giọng nói của những người có khả năng mắc bệnh Alzheimer và của những người không mắc bệnh này. Trong số những người tham gia, những người mắc bệnh Alzheimer có xu hướng sử dụng các từ ngắn hơn, và nhiều đoạn trong câu hơn. Họ cũng tự lặp lại và sử dụng tỷ lệ đại từ cao hơn, chẳng hạn như ‘it’ hoặc ‘this’, cho danh từ riêng. Frank Rudzicz, một nhà khoa học máy tính tại Đại học Toronto, người đứng đầu cuộc nghiên cứu cho biết: “Đó có thể là một dấu hiệu cho thấy họ không nhớ tên của mọi thứ nên họ phải sử dụng đại từ thay thế”. 

Khi hệ thống xem xét 35 đặc điểm giọng nói này với nhau, nó có thể xác định những người mắc bệnh Alzheimer với độ chính xác 82%. (Rudzicz cho biết đã được cải thiện lên khoảng 92%) “Những đặc điểm đó cộng lại thành một dấu hiệu của bệnh mất trí nhớ”, Rudzicz nói. “Đó là một mô hình ẩn rất phức tạp mà chúng ta khó có thể nhìn thấy bề ngoài, nhưng máy học có thể phát hiện, nếu đủ dữ liệu”.


Robot Ludwig, do Frank Rudzicz và các cộng sự nghiên cứu chế tạo, có thể tương tác, thu thập dữ liệu giọng nói để các nhà khoa học phân tích chứng bệnh mất trí nhớ. Ảnh: Laura Pedersen/Naitonal Post.

Vì một số thay đổi giọng nói này xảy ra trong giai đoạn đầu của các bệnh thoái hóa thần kinh, các nhà nghiên cứu hy vọng rằng các công cụ phân tích giọng nói có thể giúp bác sĩ lâm sàng chẩn đoán bệnh sớm hơn và có khả năng can thiệp trước khi các triệu chứng khác trở nên rõ ràng. Tuy nhiên, hiện tại, ý tưởng này chủ yếu vẫn là lý thuyết; các nhà khoa học vẫn cần phải thực hiện các thử nghiệm lớn, dài hạn để chứng minh tác dụng của nó.

Các nhà nghiên cứu trong lĩnh vực này nhấn mạnh rằng mục tiêu không phải là thay thế các bác sĩ hoặc tạo ra các thiết bị chẩn đoán độc lập. Thay vào đó, họ coi phân tích giọng nói như một công cụ mà bác sĩ có thể sử dụng để đưa ra các quyết định, như một ‘dấu hiệu quan trọng’ khác mà họ có thể theo dõi hoặc kiểm tra. Isabel Trancoso, nhà nghiên cứu về xử lý ngôn ngữ nói tại Đại học Lisbon, cho biết: “Tầm nhìn của tôi là thu thập các mẫu giọng nói sẽ trở nên phổ biến như xét nghiệm máu”.

Mở rộng ứng dụng

Một số công ty khởi nghiệp về phân tích giọng nói – bao gồm Winterlight Labs, một công ty ở Toronto do Rudzicz đồng sáng lập và Aural Analytics ở Scottsdale, Arizona – đang cung cấp phần mềm của họ cho các công ty dược phẩm. Nhiều người đang sử dụng công nghệ này để giúp đánh giá xem liệu những người tham gia thử nghiệm lâm sàng có đáp ứng với các phương pháp điều trị thử nghiệm hay không. Visar Berisha, đồng sáng lập và giám đốc phân tích, cho biết: “Phân tích lời nói cho thấy những thay đổi tinh tế về sức khỏe thần kinh. Điều này thúc đẩy việc phát triển thuốc, hoặc ít nhất là xác định những loại thuốc không có triển vọng điều trị ngay từ sớm”.

Rối loạn thoái hóa thần kinh chỉ là bước khởi đầu. Các nhà khoa học đã xác định được các kiểu nói riêng biệt ở trẻ bị rối loạn phát triển thần kinh. Trong một nghiên cứu nhỏ năm 2017, Schuller và các đồng nghiệp đã xác định rằng các thuật toán phân tích tiếng bập bẹ của trẻ sơ sinh mười tháng tuổi có thể xác định trẻ nào sẽ được chẩn đoán mắc chứng rối loạn phổ tự kỷ. Hệ thống đã phân loại chính xác khoảng 80% trẻ tự kỷ và 70% trẻ có khác biệt về thần kinh.

Các nhà nghiên cứu cũng phát hiện ra rằng nhiều trẻ em mắc chứng rối loạn tăng động nói to hơn và nhanh hơn so với các bạn cùng lứa tuổi và có nhiều dấu hiệu căng thẳng giọng nói hơn. Công ty PeakProfiling ở Berlin đang phát triển một công cụ phân tích giọng nói lâm sàng mà họ hy vọng có thể giúp các bác sĩ chẩn đoán tình trạng bệnh. Nhưng một số bác sĩ vẫn nghi ngờ về việc các hệ thống như vậy sẽ thực sự cung cấp bao nhiêu thông tin hữu ích.

Tuy nhiên, Rhea Paul, một chuyên gia về rối loạn giao tiếp tại Đại học Sacred Heart ở Fairfield, Connecticut cũng lưu ý: “Một số trong số đó hơi bị thổi phồng quá mức. Trẻ bị rối loạn phát triển thần kinh thường có nhiều triệu chứng hành vi dễ quan sát”. Hơn nữa, vẫn chưa rõ liệu các thuật toán có thực sự xác định các dấu hiệu cụ thể cho chứng rối loạn phổ tự kỷ hay chỉ xác định các dấu hiệu chung của sự phát triển não không bình thường, hoặc thậm chí chỉ là những sai lệch thoáng qua trong lời nói. 

Các nhà khoa học cũng đang chuyển công nghệ này nhắm sang các bệnh tâm thần. Nhiều nhóm trên khắp thế giới đã phát triển các hệ thống có thể xử lý giọng nói chậm, nặng và đơn điệu, có xu hướng đặc trưng cho bệnh trầm cảm. Những nhóm khác đã xác định các dấu hiệu sinh học giọng nói liên quan đến rối loạn tâm thần, tự tử và rối loạn lưỡng cực. Charles Marmar, một nhà tâm thần học tại Đại học New York cho biết: “Giọng nói truyền tín hiệu cảm xúc của chúng ta vô cùng phong phú. Tốc độ, nhịp điệu, âm lượng, cao độ, âm điệu [căng thẳng và ngữ điệu] – những đặc điểm đó cho bạn biết liệu một bệnh nhân có chán nản và nản lòng hay không, liệu họ có bị kích động và lo lắng hay không, hay liệu họ có mắc chứng khó chịu và phấn khích”.

Trong nghiên cứu của mình, Marmar đã sử dụng máy học để xác định 18 đặc điểm giọng nói liên quan đến chứng rối loạn căng thẳng sau chấn thương (PTSD) ở 129 nam cựu quân nhân. Bằng cách phân tích các đặc điểm này (chủ yếu là các chỉ số về giọng nói chậm, đều và đơn điệu), hệ thống có thể xác định, với độ chính xác gần 90%, ai trong số các cựu chiến binh mắc PTSD. Nếu nhóm có thể tổng quát hóa các phát hiện, Marmar cho rằng công nghệ này có thể là một cách hữu ích để nhanh chóng xác định những người có thể cần đánh giá về tâm thần kỹ lưỡng hơn. Ông nói: “Ứng dụng trong thế giới thực đầu tiên sẽ là để sàng lọc chứng PTSD với số lượng lớn. Nó có thể thực hiện 4.000 giọng nói trong vài giờ”.

Bộ Cựu chiến binh Hoa Kỳ cũng đang nghiên cứu xem liệu một ứng dụng theo dõi sức khỏe tâm thần có thể xác định các thành viên dịch vụ có đang gặp khó khăn về tâm lý hay không. Ứng dụng dành cho điện thoại thông minh, do công ty Cogito phân tích và hướng dẫn đàm thoại ở Boston, Massachusetts phát triển. Họ thu thập siêu dữ liệu về thói quen của người dùng – chẳng hạn như tần suất họ gọi điện hoặc nhắn tin cho người khác – và phân tích các bản ghi thoại mà họ để lại trên điện thoại.

Thậm chí các nhà nghiên cứu có thể phát hiện ra các dấu hiệu sinh học về giọng nói cho các tình trạng bệnh tật dường như không liên quan gì đến lời nói. Trong một nghiên cứu từ năm 2018, các nhà khoa học phân tích mẫu giọng nói của 101 người được hẹn chụp mạch vành đã phát hiện ra rằng một số mẫu tần số giọng nói nhất định có liên quan đến bệnh mạch vành nghiêm trọng hơn so với bình thường. Amir Lerman, bác sĩ tim mạch tại Phòng khám Mayo ở Rochester, Minnesota, trưởng nhóm nghiên cứu, cho biết, về mặt lý thuyết bệnh động mạch vành có thể thay đổi giọng nói bằng cách giảm lưu lượng máu. Nhưng cũng có thể bản thân căn bệnh không phải là nguyên nhân gây ra những thay đổi về giọng nói mà là những yếu tố nguy cơ liên quan khác, chẳng hạn như căng thẳng hoặc trầm cảm. 

Khó chuyển đổi

Nghiên cứu trên cho thấy cả những hứa hẹn và hạn chế của công nghệ này. Máy tính chọn ra các mẫu giọng nói là một việc, nhưng lại là một nhiệm vụ khó khăn hơn để hiểu chúng có nghĩa là gì và liệu chúng có ý nghĩa lâm sàng hay không. Chúng có phải là những đặc điểm cơ bản của căn bệnh được đề cập không? Hay chỉ đơn thuần là dấu hiệu của một số khác biệt khác giữa các nhóm, chẳng hạn như tuổi, giới tính, kích thước cơ thể, trình độ học vấn hoặc mệt mỏi. Bất kỳ yếu tố nào trong số đó có thể là một yếu tố gây nhiễu? Ghomi nói: “Chúng tôi đang cố gắng loại bỏ việc chỉ đưa dữ liệu vào một thuật toán và thực sự đi sâu vào các tập dữ liệu, đưa ra một mô hình về căn bệnh và sau đó kiểm tra nó bằng máy học”.

Để đảm bảo rằng các kết quả có thể được tổng quát hóa và giảm sai lệch, các nhà nghiên cứu sẽ cần phải kiểm tra hệ thống phân loại của họ trong các mẫu lớn hơn, đa dạng hơn và bằng nhiều ngôn ngữ. Jim Schwoebel, phó chủ tịch dữ liệu và nghiên cứu tại Sonde Health, một công ty phân tích giọng nói có trụ sở tại Boston, cho biết: “Chúng tôi không muốn xác nhận mô hình giọng nói chỉ với 300 bệnh nhân. Chúng tôi nghĩ rằng chúng tôi cần 10.000 hoặc hơn”.

Đối với nhiều ứng dụng mà các nhà nghiên cứu đang nghĩ đến, các hệ thống phân tích giọng nói sẽ không chỉ phân biệt những người ốm với những người kiểm soát khỏe mạnh mà còn phải phân biệt giữa nhiều loại bệnh và tình trạng khác nhau. Họ sẽ cần làm điều này bên ngoài phòng thí nghiệm, trong các tình huống hằng ngày không được kiểm soát và trên nhiều loại thiết bị.

Khi Epps và các đồng nghiệp của ông, bao gồm cả một nhà nghiên cứu tại Sonde Health, phân tích các mẫu giọng nói được ghi bằng micrô chất lượng cao trong phòng thí nghiệm, họ có thể phát hiện chứng trầm cảm với độ chính xác khoảng 94%. Khi sử dụng các mẫu giọng nói mà mọi người đã ghi lại trong môi trường của riêng họ trên điện thoại thông minh, độ chính xác giảm xuống dưới 75%.

Nhưng, một vấn đề đặt ra là, công nghệ không xâm lấn không có nghĩa là nó không có rủi ro. Nó đặt ra những lo ngại nghiêm trọng về quyền riêng tư, bao gồm khả năng danh tính cá nhân có thể được xác định từ các mẫu giọng nói ẩn danh, rằng hệ thống có thể vô tình nắm bắt các cuộc trò chuyện riêng tư và thông tin y tế nhạy cảm có thể bị bán, chia sẻ, tấn công hoặc sử dụng sai mục đích.

Nếu không có những quy định phù hợp và rõ ràng, sẽ có nguy cơ các công ty bảo hiểm hoặc người sử dụng lao động có thể sử dụng các hệ thống này để phân tích mẫu giọng nói mà không có sự đồng ý rõ ràng, hoặc để lấy thông tin sức khỏe cá nhân và có khả năng phân biệt đối xử với khách hàng hay nhân viên của họ. 
Sau đó là nguy cơ dương tính giả và chẩn đoán quá mức. Rudzicz nói: “Chúng ta phải thực tế và nhận ra rằng phần lớn điều này vẫn đang là nghiên cứu. Chúng ta cần bắt đầu suy nghĩ về những gì sẽ xảy ra khi áp dụng nó vào thực tế”.

Đức Phát dịch / Tạp Chí Tia Sáng
https://www.nature.com/articles/d41586-020-02732-4