Một vài tìm tòi về ngôn ngữ


Bài viết giải đáp được phần nào các câu hỏi: Vì sao cùng là ngôn ngữ đơn lập mà tiếng Việt làm được chữ biểu âm còn tiếng Hán thì không; vì sao tiếng Nhật rất nghèo âm tiết lại làm được chữ biểu âm; vì sao phần lớn các nước đều dùng ngôn ngữ đa lập và chữ biểu âm.

Tuy không còn nhiều người tìm hiểu về ngôn ngữ của cha ông trong quá khứ nhưng những lớp học chữ Nho như thế này vẫn có lượng “học trò” nhất định, bao gồm cả người già và người trẻ. Trong ảnh: Lớp học tại chùa Mễ Trì Thượng (Nam Từ Liêm, Hà Nội). Nguồn: Zing.


Tiếng Việt kỳ diệu

Hai dân tộc Kinh Việt Nam và Hán Trung Quốc (TQ) có nhiều điểm giống và khác nhau. Trong 1000 năm Bắc thuộc, nước ta bị Hán hóa toàn diện, các khác biệt bị xói mòn rất nhiều. May sao tổ tiên ta vẫn giữ được một khác biệt căn bản nhất – ngôn ngữ. Giữ được thế cũng là nhờ tiếng Việt tiềm ẩn những tính năng kỳ lạ, chẳng hạn ngữ âm cực kỳ phong phú, có thể ghi âm hầu như mọi ngữ âm ngoại ngữ.

Với hai ưu điểm quý giá – biểu âm và Latin hóa – chữ Quốc ngữ đã làm thay đổi hẳn đời sống ngôn ngữ, văn hóa, xã hội nước ta, mở ra một kỷ nguyên mới cho nền văn minh Việt.

Sau 1000 năm bị Hán hóa, ngôn ngữ Việt chấp nhận chữ Hán nhưng cấm cửa tiếng Hán. Tổ tiên ta đã nghĩ ra cách đọc chữ Hán bằng tiếng Việt (gọi là từ Hán-Việt) mà không đọc bằng tiếng Hán, tức Việt Nam hóa phần ngữ âm của chữ Hán, biến thành chữ của mình, gọi là chữ Nho với ý nghĩa “Chữ của người có học”. Chữ Nho chính là chữ Hán được phiên âm ra tiếng Việt, vì thế dễ học hơn. Tổ tiên ta có thể dùng chữ Nho bút đàm giao dịch với quan chức chính quyền chiếm đóng, đạt được yêu cầu bắt dân ta học chữ của chúng. Rốt cuộc người Việt có chữ để ghi chép và giao tiếp nhưng vẫn đời đời nói tiếng mẹ đẻ, không ai nói tiếng Hán. Mưu toan Hán hóa ngôn ngữ hoàn toàn thất bại1.


Giữ được nguyên vẹn tiếng mẹ đẻ và nhờ đó giữ được nòi giống và đất nước mình – đây là thắng lợi vĩ đại nhất trong lịch sử dân tộc Việt Nam. Nói theo ngôn ngữ học hiện đại, là tổ tiên ta đã biết lợi dụng đặc điểm ghi ý không ghi âm của chữ Hán để đọc chữ Hán bằng bản ngữChữ Nho đã thầm lặng vô hiệu hóa quá trình Hán hóa ngôn ngữ. Từ Hán-Việt đã giúp kho tàng từ vựng tiếng Việt phong phú thêm nhiều lần cả về số lượng và mỹ cảm. Cho dù khoảng 60% từ vựng tiếng Việt hiện nay có gốc Hán ngữ nhưng đó chỉ là hiện tượng giao thoa ngôn ngữ bình thường. Tại TQ, khoảng 70% từ ngữ tiếng Hán hiện dùng có gốc tiếng Nhật2.


Để sửa nhược điểm chữ Nho không ghi được tiếng Việt, thế kỷ XII tổ tiên ta làm một thử nghiệm ngôn ngữ táo bạo: sáng tạo chữ Nôm có yếu tố biểu âm, ghi được tiếng Việt. Chữ Nôm cấu tạo trên nền tảng chữ Hán, biết chữ Hán mới học được chữ Nôm, vì vậy phụ thuộc Hán ngữ và khó phổ cập, lại chưa được nhà nước công nhận, thời gian tồn tại quá ngắn. Tuy vậy, do chữ Nôm thể hiện được tiếng nói và nỗi lòng của số đông bình dân nên đã tạo dựng được một nền văn học mới trội hơn hẳn văn học chữ Nho, mở ra một giai đoạn phát triển rực rỡ nền văn hóa Việt. Thử nghiệm này còn hé lộ một tính năng tiềm tàng cực kỳ quý giá của tiếng Việt –thích hợp chữ biểu âm(phonograph). Đây là điều kiện tất yếu về ngôn ngữ học để 5 thế kỷ sau các giáo sĩ Francesco de Pina, Cristoforo Borri, Alexandre de Rhodes,…làm được chữ biểu âm Latin hóa cho tiếng Việt. Giả thử các giáo sĩ-bậc thầy ngôn ngữ học ấy đến TQ làm chữ biểu âm cho tiếng Hán thì chắc chắn cực kỳ khó khăn bởi lẽ tiếng Hán không thích hợp chữ biểu âm.

Nghiên cứu về di sản chữ Viết ở Việt Nam là một trọng tâm được các Viện nghiên cứu về KHXH quan tâm trong nhiều năm qua. Gần đây nhất, dự án hợp tác Pháp – Việt Vietnamica sẽ số hóa nhiều di sản Hán Nôm. Trong ảnh: Ông Gaudemar (Tổng giám đốc Tổ chức Đại học Pháp ngữ) và Ông Verdier (Chủ tịch Viện Khảo cứu cao cấp Pháp) đi in rập thác bản văn bia cùng Viện Nghiên cứu Hán Nôm và đoàn Dự án Vietnamica tại chùa Nôm, Hưng Yên, 6/11/2019. Ảnh: Fb Nguyễn Tuấn Cường.

Với hai ưu điểm quý giá biểu âm và Latin hóa chữ Quốc ngữ đã làm thay đổi hẳn đời sống ngôn ngữ, văn hóa, xã hội nước ta, mở ra một kỷ nguyên mới cho nền văn minh Việt. Loại chữ này ghi âm được 100% tiếng Việt, thực hiện nói/nghĩ thế nào viết thế ấy, viết thế nào đọc thế ấy, lại dễ học dễ dùng chưa từng thấy. Giới tinh hoa nước ta ca ngợi Chữ Quốc ngữ là hồn đất nước. Trên thế giới đã có chữ viết nào được đánh giá cao như thế?


Nói chữ biểu âm Latin hóa là loại chữ viết tiên tiến chắc sẽ bị những người theo “Thuyết chữ Hán ưu việt” phủ định, nhưng lại được hai sự việc sau khẳng định: 1- Người TQ từng bỏ ra ngót 100 năm thực thi cải cách chữ viết theo hướng làm chữ biểu âm Latin hóa thay cho chữ Hán. 2- Toàn bộ 14 phương án chữ viết do Nhà nước TQ làm sau năm 1949 cho 10 dân tộc thiểu số chưa có chữ đều dùng chữ biểu âm Latin hóa. Dân tộc Tráng từ xưa đã có chữ vuông kiểu chữ Nôm, Nhà nước vẫn làm chữ mới biểu âm Latin hóa cho họ.

Việt Nam nhờ dùng chữ Quốc ngữ mà từ năm 1919 chính thức bỏ chữ Hán. Quá trình “Thoát Hán -Thoát Khổng” này nhanh gọn, không gây ra sự đứt gãy văn hóa, là một thắng lợi văn hóa-tư tưởng cực kỳ quan trọng.

Cùng với những chuyển biến của lịch sử đầu thế kỷ XX, chữ Quốc ngữ góp phần thúc đẩy nền văn minh Việt phát triển với tốc độ gấp trăm lần quá khứ. Thứ chữ này nhanh chóng được toàn dân hân hoan chào đón và học tập, vừa nâng cao dân trí vừa có tác dụng thống nhất âm tiếng Việt trong cả nước, qua đó góp phần thống nhất dân tộc. Dùng chữ Quốc ngữ có thể dịch các từ ngữ Hán-Nôm và ngoại văn ra tiếng Việt, nhờ thế dân ta được tiếp xúc với kho tàng văn hóa của tổ tiên, các trào lưu tư tưởng mới và khoa học kỹ thuật phương Tây. Các lĩnh vực văn học, giáo dục, nghệ thuật, báo chí, xuất bản nhanh chóng hình thành và phát triển, vượt xa mấy nghìn năm cũ. Cây văn hóa Việt Nam vươn cao, thoát khỏi nguy cơ còi cọc vì cớm nắng do ở cạnh đại thụ văn hóa Trung Hoa. Phạm Quỳnh nói chữ Quốc ngữ là công cụ kỳ diệu giải phóng trí tuệ người Việt. Đúng thế, dùng chữ Quốc ngữ có thể ghi lại mọi ý nghĩ, không bị gián đoạn do phải tra tìm chữ như khi dùng chữ Hán, chữ Nôm, nhờ thế trí tuệ được giải phóng, dẫn đến sự hình thành một tầng lớp trí thức tân tiến. Do chữ cái Latin dùng được kỹ thuật in chữ rời, các sách báo, ấn phẩm đua nhau xuất bản. Các tổ chức cách mạng đều dùng chữ Quốc ngữ để tuyên truyền tư tưởng yêu nước chống thực dân phong kiến.


Chữ Quốc ngữ làm cho tiếng Việt trở thành ngôn ngữ độc lập với chữ Hán. Thời xưa Việt Nam, Nhật, bán đảo Triều Tiên đều dùng chữ Hán; khi thấy mặt hạn chế của nó, cả ba đều cố “Thoát Hán” về ngôn ngữ. Bán đảo Triều Tiên thế kỷ XV làm chữ biểu âm Hangul, nhưng Hàn Quốc hiện vẫn phải dùng chữ Hán để chú giải các từ ngữ cần chính xác (như về pháp lý). Người Nhật thế kỷ IX làm chữ biểu âm Kana, nhưng hiện vẫn dùng gần 2000 chữ Hán. Riêng Việt Nam nhờ dùng chữ Quốc ngữ mà từ năm 1919 chính thức bỏ chữ Hán. Quá trình “Thoát Hán -Thoát Khổng” này nhanh gọn, không gây ra sự đứt gãy văn hóa, là một thắng lợi văn hóa-tư tưởng cực kỳ quan trọng.

Hán ngữ nhìn từ tiếng Việt

Sau khi tiếp xúc phương Tây, giới tinh hoa TQ nhận ra các nhược điểm nghiêm trọng của chữ Hán. Từ cuối thế kỷ XIX, họ bắt đầu nghiên cứu cải cách Hán ngữ theo hướng phiên âm hóa chữ Hán do nhà truyền giáo người Ý Matteo Ricci đề ra năm 1605. Đầu tiên họ làm ra chữ thiết âm (1892), đến 1911 đã đề ra 28 phương án chữ phiên âm. Thời Ngũ Tứ, nhiều học giả đòi bỏ chữ Hán, dùng chữ phiên âm. Năm 1918, TQ ban hành phương án “Chú âm Tự mẫu” dùng 39 chữ cái ghi âm Hán ngữ, là công cụ để nghiên cứu phần ngữ âm tiếng Hán. Phương án này hiện vẫn dùng ở Đài Loan và trong các tự điển của TQ.


Năm 1952, Mao Trạch Đông chỉ thị cải cách chữ Hán phải theo xu hướng phiên âm chung của thế giới. Năm 1954 TQ lập Ủy ban Cải cách chữ viết, tiến hành cải cách chữ Hán với quy mô lớn chưa từng có. Ngô Ngọc Chương Chủ nhiệm Ủy ban nói: TQ sau này sớm muộn sẽ phải chuyển sang dùng chữ phiên âm (tức chữ biểu âm), đây là quy luật khách quan phát triển chữ viết của thế giới; nhưng TQ không chủ trương bỏ chữ Hán…

Một số ví dụ về hiện tượng từ đồng âm khiến người Trung Quốc thường phải giải thích cách viết của những từ đồng âm để tránh gây hiểu lầm.

Cải cách chữ viết đã đạt được thành tựu quan trọng: – Đơn giản hóa (bớt nét) được vài nghìn chữ Hán để chữ trở nên dễ học dễ nhớ; – Làm ra Phương án Pinyin Hán ngữ dùng chữ cái Latin có thể ghi chú âm (phiên âm) cho chữ Hán, mã hóa chữ Hán đưa vào máy tính, đánh chữ trên máy tính và smartphone, quốc tế hóa chữ Hán; – Chuẩn hóa chữ Hán, xác định tiếng Phổ thông (Standard Mandarin) là tiếng nói của toàn dân. Các thành tựu trên đã được luật hóa và áp dụng trong cả nước, giúp nâng cao tỷ lệ biết chữ, thống nhất ngôn ngữ. Hiện nay TQ đã áp dụng rộng rãi chế độ “Nhất ngữ Song văn”(Một tiếng nói, hai chữ viết): Toàn dân nói một thứ tiếng Phổ thông; chữ Hán là chữ viết pháp định, vẫn dùng như cũ, kèm theo dùng chữ Pinyin Hán ngữ để ghi âm chữ Hán.


Từ 1986, Nhà nước TQ ngừng đặt vấn đề làm chữ biểu âm thay chữ Hán, và nói tương lai chữ Hán sẽ do các thế hệ sau quyết định. Nghĩa là rốt cuộc TQ đã không đạt được mục tiêu tạo loại chữ biểu âm thay cho chữ Hán.


Ở đây có hai vấn đề: có nên bỏ chữ Hán không và có thể làm được chữ biểu âm cho Hán ngữ không. Hiển nhiên, bỏ chữ Hán sẽ gây thảm họa bỏ mất di sản vĩ đại của nền văn minh Trung Hoa 5000 năm; 1,4 tỷ người Hoa khó có thể chấp nhận. Việc làm chữ biểu âm có nhiều khó khăn, chủ yếu là Hán ngữ có quá nhiều chữ hoặc từ đồng âm.

Chấp nhận quan điểm Chữ Hán là báu vật thời xưa lại là gánh nặng thời nay nhưng người Trung Quốc sẽ không vì mang gánh nặng ấy mà tiến chậm trên con đường hiện đại hóa, bởi lẽ họ nổi tiếng cần cù, chịu khó, chịu khổ lại được tiếp nguồn sức mạnh to lớn của nền văn minh Trung Hoa 5000 năm.


Chữ/từ đồng âm (homophonic words) là những chữ/từ khác nhau về tự hình và ý nghĩa nhưng đọc cùng âm, do đó mỗi chữ/từ có nhiều ý nghĩa khác nhau, khi nghe đọc hoặc khi dùng chữ biểu âm sẽ không phân biệt được, gây hiểu lầm. Chữ đồng âm dẫn tới cụm từ đồng âm, làm cho ngôn ngữ kém chính xác. Đây là vấn đề của Hán ngữ chứ không phải của chữ Hán. Một ngôn ngữ chính xác thì không nên có chữ/từ đồng âm, nhưng thực tế ngôn ngữ nào cũng ít nhiều có hiện tượng này. Khi có nhiều chữ/từ đồng âm thì không thể dùng chữ biểu âm – vì nhìn chữ sẽ chẳng hiểu gì. Như câu 他 叫 她 跟 它 走 khi nhìn chữ Hán (chữ biểu ý, ideograph) thì có thể hiểu ý nghĩa, nhưng nhìn chữ biểu âm Ta jiao ta gen ta zou thì chẳng thể hiểu, vì ba chữ 他, 她, 它 (he, she, it) cùng đọc [ta]. Đoạn văn 施氏食狮史3 cho thấy rõ nạn đồng âm đã giết chết chữ biểu âm.


Tổ tiên người TQ hiểu lẽ đó nên đã làm chữ viết có tính biểu ý (tức chữ Hán) mà không làm chữ biểu âm. Thế nhưng hiện nay một số học giả TQ vẫn hy vọng giải quyết được vấn đề chữ đồng âm và do đó làm được chữ biểu âm cho Hán ngữ 4.


Qua nghiên cứu tiếng Hán từ trên nền tảng tiếng Việt, chúng tôi cho rằng hy vọng nói trên là không hiện thực. Ngay từ năm 1954 Ủy ban Cải cách chữ viết TQ đã đặt nhiệm vụ tham khảo chữ Quốc ngữ Việt Nam. Nhưng năm 2009 một học giả hàng đầu TQ chê bai: “Chữ viết của Việt Nam sau khi phiên âm hóa, đầu đội mũ, chân đi giày, rất nực cười.”5 Do nhìn chữ Quốc ngữ với con mắt trọng tự hình, nhẹ ngữ âm nên họ chỉ thấy “giày, mũ” mà chưa thấy một điều quan trọng: tiếng Việt giàu âm tiết, tiếng Hán nghèo âm tiết, do đó Hán ngữ có quá nhiều chữ đồng âm, hậu quả là không làm được chữ biểu âm.


“Nghèo âm tiết” là nói số âm tiết ngôn ngữ đó sở hữu nhỏ hơn số đơn từ thông dụng.


Để xác minh Hán ngữ nghèo âm tiết, chúng tôi đã dùng “Tự điển Tân Hoa” bản thứ 10 (có 8700 đơn tự) để thống kê số âm tiết có trong tự điển, kết quả được 415 âm tiết không xét thanh điệu, gồm 22 âm tiết có một chữ, 393 âm tiết có 2 chữ trở lên (tức có chữ đồng âm); đổ đồng mỗi âm tiết có 22 chữ đồng âm. Một số âm tiết có quá nhiều chữ đồng âm: [yi] có 135, [ji] – 123, [yu] – 118, [xi] – 103,…. So với 8105 chữ thông dụng Nhà nước TQ quy định thì 415 âm tiết rõ ràng là nghèo âm tiết


Số liệu trên không khác mấy số liệu của TQ 4. Li Gong-Yi dựa “Hán tự Tin tức tự điển” (7785 đơn tự) thống kê, được 414 âm tiết không xét thanh điệu, gồm 22 âm tiết có một chữ, 392 âm tiết có chữ đồng âm; [yi] có 131, [ji] – 121, [yu] – 115, [xi] – 102, [fu] – 99 chữ. Khi thống kê theo “Từ Hải” (19485 đơn tự), âm [yì] (khứ thanh) có 195 chữ! Thống kê âm tiết có xét thanh điệu thì tiếng Hán có khoảng 1400 âm tiết – so với 8105 chữ thông dụng thì vẫn là quá nghèo âm tiết. Nếu xét toàn kho chữ Hán 100 nghìn chữ (và không ngừng tăng) thì số chữ đồng âm quá nhiều.


Dễ thấy tiếng Việt giàu âm tiết: có 11 âm ă, â, b, đ, gh, ô, ơ, ư, v, ng, nh mà tiếng Hán không có; về thanh điệu tiếng ta có 6, tiếng Hán 4. Thống kê âm tiết (không xét thanh điệu) bắt đầu bằng nguyên âm A: tiếng ta có 27, tiếng Hán có 5 âm tiết6. Dễ thấy tiếng ta có nhiều âm tiết chưa dùng, như đỉu, đĩu, bỉa, bĩa… Hiện chưa có số liệu âm tiết tiếng Việt do Nhà nước công bố. Một công bố trên mạng cho biết tiếng Việt có 17.974 âm tiết, trong đó quá nửa chưa dùng7. Một công bố khác nói có hơn 6000 âm tiết đã dùng8.


Tiếng Hán và tiếng Việt thuộc loại ngôn ngữ đơn âm tiết (đơn lập, monosyllabic), mỗi tiếng một âm tiết, do đó cần dùng rất nhiều âm tiết, vì thế dễ xảy ra nạn lắm chữ/từ đồng âm. Như đã nói, tiếng Việt giàu âm tiết nên không có nạn đồng âm, do đó làm được chữ biểu âm; tiếng Hán nghèo âm tiết nên có nạn đồng âm nghiêm trọng, do đó không làm được chữ biểu âm. Theo chúng tôi, chừng nào Hán ngữ còn là ngôn ngữ đơn lập và nghèo âm tiết thì còn chưa thể làm chữ biểu âm, suy ra không thể thay được chữ Hán. Kết luận này dường như không hợp với quan điểm của học giả TQ, hy vọng vào việc làm được chữ biểu âm (viết trong tài liệu số 4).

Ngôn ngữ đa âm tiết

Có một sự thực: tiếng Nhật ít âm tiết hơn tiếng Hán (100 so với 415)9mà vẫn làm được chữ biểu âm Kana – điều đó chứng tỏ tiếng Nhật có số đơn từ khác âm nhiều hơn số đơn từ cần dùng. Như đã biết, tiếng Nhật thuộc loại ngôn ngữ đa âm tiết(đa lập, polysyllabic, multisyllabic), ví dụ từ samurai  Hiroshima có 3 và 4 âm tiết.


Trong ngôn ngữ đa lập, mỗi đơn từ có thể là một chỉnh hợp (arrangement, tổ hợp có phân biệt thứ tự) gồm ít nhất 2 âm tiết khác nhau. Sau đây sẽ dùng toán học để chứng minh kết cấu chỉnh hợp tạo ra tổng số đơn từ lớn hơn tổng số âm tiết của ngôn ngữ. Khi ấy được bài toán tính số chỉnh hợp chập kcủa một tập hợp chứa n phần tử. nlà lượng âm tiết của ngôn ngữ; k là số âm tiết khác nhau trong một đơn từ, A là số lượng các chỉnh hợp (đơn từ) tạo ra từ n âm tiết. Kết quả A bằng n giai thừa (factorial) chia cho (n – k) giai thừa:


(n, k) =  n! / (n-k)! 


Rõ ràng A lớn hơn n rất nhiều; kcàng lớn thì A càng lớn. Khi k=2 thì A= (n-1) n ; khi k=3 thì A=(n-2) (n-1) n…Tóm lại, kết cấu chỉnh hợp có ưu điểm tạo ra số lượng đơn từ rất lớn, khiến cho ngôn ngữ dù nghèo âm tiết vẫn làm được chữ biểu âm.


Ví dụ một ngôn ngữ có 415 âm tiết (n = 415), khi mỗi đơn từ là một chỉnh hợp 2 âm tiết (k = 2, như city,семья), tổng số đơn từ A sẽ bằng (415-1)(415), tức 171810 đơn từ, quá nhiều so với 415 âm tiết. Khi k= 3 (như minister, привычка) được 70957530 đơn từ.


Giả thử Hán ngữ là ngôn ngữ đa lập, mỗi từ 2 âm tiết, thì do có 171810 đơn từ nên không thể có chữ đồng âm. Tiếc rằng không thể cải tạo Hán ngữ từ đơn lập thành đa lập. Tiếng Nhật có thể chỉ dùng chữ biểu âm Kana nhưng vì để thừa kế di sản văn hóa mà Nhật hiện vẫn dùng gần 2000 chữ Hán kết hợp với chữ Kana.

Kết luận

Các trình bày nói trên đã chứng minh hai luận điểm của tác giả:


1– Ngôn ngữ đơn lập nếu nghèo âm tiết thì không thể làm được chữ biểu âm, nếu giàu âm tiết thì làm được chữ biểu âm. 


2– Ngôn ngữ đa lập dù nghèo âm tiết vẫn có thể làm được chữ biểu âm.


Từ đó giải đáp được các câu hỏi vì sao cùng là ngôn ngữ đơn lập mà tiếng Việt làm được chữ biểu âm còn tiếng Hán thì không; vì sao tiếng Nhật rất nghèo âm tiết lại làm được chữ biểu âm; vì sao phần lớn các nước đều dùng ngôn ngữ đa lập và chữ biểu âm.


Xin nói thêm: cho dù hiện nay chữ Hán vẫn bị phê phán, song cần thấy rằng chữ Hán là lựa chọn hợp lý của người TQ. Chữ Hán có tính biểu ý thích hợp với một đất nước quá rộng và đông dân, nói hàng trăm phương ngữ khác nhau, hơn nữa ngôn ngữ nói có quá nhiều chữ/từ đồng âm, nếu chỉ dựa vào thính giác thì rất khó phân biệt (nhưng không thể tránh được tình trạng này, bởi lẽ Hán ngữ nghèo âm tiết). Những lý do ấy không cho phép Hán ngữ dùng chữ biểu âm; từ đó suy ra chữ Hán sẽ không thể bị thay thế, – nghĩa là chữ Hán sẽ không bao giờ bị từ bỏ. Chấp nhận quan điểm Chữ Hán là báu vật thời xưa lại là gánh nặng thời nay nhưng người Trung Quốc sẽ không vì mang gánh nặng ấy mà tiến chậm trên con đường hiện đại hóa, bởi lẽ họ nổi tiếng cần cù, chịu khó, chịu khổ lại được tiếp nguồn sức mạnh to lớn của nền văn minh Trung Hoa 5000 năm.

—–

Ghi chú:

1Nguyễn Hải Hoành: “Tại sao Việt Nam không bị đồng hóa sau 1000 năm Bắc thuộc”  http://nghiencuuquocte.org/2015/09/07/viet-nam-khong-bi-dong-hoa-1000-nam-bac-thuoc/

2Nguyễn Hải Hoành: “Người Nhật phát triển Hán ngữ hiện đại ”.

http://nghiencuuquocte.org/2017/02/07/nguoi-nhat-phat-trien-han-ngu-hien-dai/

3 Nguyễn Hải Hoành : “Lạm bàn về tính ghi ý của chữ Hán ”.

https ://tiasang.com.vn/-van-hoa/Lam-ban-ve-tinh–ghi-y-cua-chu-Han-Nhan-doc-”Nghien-cuu-chu-Han-hien-dai-cua-the-ky-XX”-17438

苏培成著 “二十世纪的现代汉语研究”, 书海出版社2001版.

5 Nguyễn Hải Hoành : “ Sao lại nói chữ Quốc ngữ Việt Nam rất nực cười ”   http ://vanhoanghean.com.vn/component/k2/35-dien-dan/12220-sao-lai-noi-chu-quoc-ngu-viet-nam-rat-nuc-cuoi

Tiếng Việt : a, ac, ach, ai, am, an, ang, anh, ao, ap, at, au, ay ; ăc, ăm, ăn, ăng, ăp, ăt ; âc, âm, ân, âng, âp, ât, âu, ây (27 âm tiết). Tiếng Hán : a, ai, an, ang, ao (5 âm tiết).

7  All syllables in Vietnamese language.  (http://www.hieuthi.com/blog/2017/03/21/all-vietnamese-syllables.html).

8  http ://luom.tv/2015/11/01/danh-sach-am-tiet-tieng-viet-xep-theo-van/

9http://afe.easia.columbia.edu/japan/japanworkbook/language/lsp.htm

Nguồn: Tạp Chí Tia Sáng

DoIT: Công cụ phát hiện đạo văn cho tiếng Việt


Hệ thống kiểm tra đạo văn do nhóm nghiên cứu của trường Đại học Công nghệ, ĐHQGHN xây dựng được kỳ vọng có thể giúp phát hiện sự sao chép trong các sản phẩm học thuật của Việt Nam cũng như góp phần nâng cao tính nghiêm túc trong học tập và nghiên cứu.

Tư duy vượt khó kiểu “con nhà nghèo”.

Vào khoảng 5-6 năm trước, một số trường đại học ở Việt Nam như ĐH Kinh tế Quốc dân, ĐH Kinh tế TP Hồ Chí Minh, ĐH Hoa Sen… đã mua các phần mềm kiểm tra đạo văn của nước ngoài để đánh giá bài làm hay các sản phẩm học thuật của người học. Tuy nhiên điểm yếu của các phần mềm ngoại là chỉ bán theo số lượng lớn tài khoản cho các đơn vị với chi phí bản quyền cao nên những người có nhu cầu kiểm tra cá nhân lại không thể sử dụng.

Thêm vào đó, do chưa được tối ưu cho xử lý Tiếng Việt – “ngôn ngữ vốn cần phát hiện trùng lặp theo cả một đoạn dài thay vì so sánh kiểu word by word như một số ngôn ngữ khác” (chia sẻ của nhóm nghiên cứu ĐH Công Nghệ), việc dùng các phần mềm này cho các tài liệu trong nước cũng chưa thực sự hiệu quả.
Điều đó đã thôi thúc nhóm nghiên cứu bao gồm các giảng viên và sinh viên của trường Đại học Công nghệ, ĐHQGHN thực hiện ý tưởng: “phải xây dựng được hệ thống kiểm tra trùng lặp đáp ứng được nhu cầu sử dụng tại Việt Nam, từ đó góp phần thúc đẩy sự nghiêm túc trong nghiên cứu và học tập trong nước”.

Giao diện trang chủ phần mềm DoIT.

Việc xây dựng một phần mềm chống đạo văn như vậy đòi hỏi phải giải quyết rất nhiều vấn đề từ thu thập và xử lý dữ liệu cho đến công tác bảo mật và trải nghiệm người dùng. Giao diện trang chủ phần mềm DoIT.Nhưng theo anh Nguyễn Ngọc Sơn – cựu sinh viên trường ĐH Công nghệ, thành viên nghiên cứu chính và hiện đang làm việc tại Công ty Cổ phần Metis, cái khó nhất và quan trọng nhất làm nhóm nghiên cứu phải “đau đầu” chính là “làm sao để có thể phát hiện sự tương đồng trong văn bản trên hàng terabytes dữ liệu trên internet mà vẫn phải đảm bảo chất lượng, tốc độ kiểm tra cũng như khả năng chịu tải trên một hạ tầng phần cứng bị giới hạn”.

“Bài toán này giống như bài toán của các công cụ tìm kiếm, tuy nhiên khác nhau ở chỗ: khi tìm kiếm trên Google, Cốc Cốc, người dùng thường tìm những từ khóa ngắn và có thể lặp lại, trong khi đó hệ thống trùng lặp lại luôn phải xử lý những câu văn dài nên khó áp dụng được các phương pháp tối ưu truy vấn của công cụ tìm kiếm. Thêm vào đó, dung lượng tính toán cũng thường cao hơn nhiều so với các từ khóa ngắn”, Nguyễn Ngọc Sơn giải thích.

Với một nhóm nghiên cứu không có quá nhiều tiềm lực để đầu tư vào cơ sở hạ tầng, họ lựa chọn tối ưu thuật toán và công nghệ trên tài nguyên đã có. Tư duy “con nhà nghèo nên phải vượt khó” đã đưa họ đến việc thiết kế hệ thống để cân bằng tải, sử dụng các kiến trúc và công nghệ mới như kiến trúc vi dịch vụ (microservices) và hàng đợi (queue) để các tài liệu gửi lên luôn luôn được đẩy vào danh sách “xếp hàng”.

Nhờ vậy, khi có số lượng người dùng lớn, hệ thống cũng không bị quá tải mà luôn xử lý theo giới hạn xử lý tối đa của phần cứng. Song song với đó, nhóm cũng liên tục thử trên rất nhiều thư viện lập trình và nền tảng công nghệ khác nhau, từ trả phí đến mã nguồn mở, cũng như từ các thuật toán tương đồng đến các công nghệ big data và các hạ tầng phần cứng ở nhiều nơi để tìm ra giải pháp tối ưu tốc độ truy vấn tương đồng và đảm bảo kết quả trả về một cách nhanh nhất.

Sau gần bảy năm “đập đi xây lại” cũng như trải qua 4 phiên bản khác nhau, nhóm đã xây dựng và phát triển hoàn thiện được hệ thống hỗ trợ nâng cao chất lượng tài liệu DoIT phục vụ nhu cầu sử dụng của hàng ngàn thầy cô, sinh viên mỗi năm. Không chỉ được tích hợp khả năng kiểm tra chính tả, kiểm tra bài tập theo nhóm, hỗ trợ nhiều loại định dạng văn bản khác nhau và có thể áp dụng triển khai nội bộ cho các đơn vị, theo Nguyễn Ngọc Sơn, điểm vượt trội nhất của phần mềm này là khả năng xử lý tiếng Việt so với các phần mềm khác trên thế giới. Nhờ phát triển được một thuật toán riêng, sử dụng độ đo bất đối xứng nên việc kiểm tra, tính điểm trùng lặp giữa một câu văn ngắn và một câu văn dài trở nên chính xác hơn; hệ thống cũng phát hiện được cả những ký tự ẩn bất thường trong văn bản mà học viên có thể sử dụng để “lách luật”.

Mục tiêu xây dựng cộng đồng chia sẻ dữ liệu

Thực tế những phần mềm phát hiện đạo văn trên thế giới đã được nghiên cứu và áp dụng từ hơn 20 năm nay, tuy nhiên ở Việt Nam, việc phát triển hệ thống này lại khá khó khăn và có rất ít nhóm thực hiện được. Điểm mấu chốt nhất của phần mềm kiểm tra đạo văn không chỉ là công nghệ xử lý dữ liệu lớn mà chính là cơ sở dữ liệu (CSDL) để hệ thống có thể so sánh. Với những phiên bản đầu tiên, dữ liệu để nhóm nghiên cứu của ĐH Công nghệ kiểm tra đến từ những kho tài liệu phổ biến tại Việt Nam như Wikipedia, tailieu.vn hay 123doc.

Đồng thời, nhóm cũng xây dựng một hệ thống riêng để có thể tự động phát hiện và thu thập nguồn dữ liệu mới, “khi hệ thống của mình không kiểm tra được một câu văn trùng lặp với bất kỳ câu văn nào trên CSDL thì sẽ thực hiện kiểm tra câu ấy trên Google, khi có nguồn mới rồi thì hệ thống sẽ tự động crawl (thu thập về), và bổ sung vào nguồn dữ liệu chính của mình”, Nguyễn Ngọc Sơn giải thích.

Kết quả kiểm tra trùng lặp của một tài liệu trong hệ thống DoIT.

Tuy nhiên, dù đang có khoảng hơn 300 triệu dữ liệu tiếng Anh và 50 triệu dữ liệu tiếng Việt, thì nguồn dữ liệu quan trọng nhất và cũng là dữ liệu mà nhóm thực sự muốn làm giàu cho CSDL, chính là dữ liệu nội sinh, các khóa luận, luận văn, luận án,… từ các trường đại học.

“Dữ liệu nội sinh sẽ có giá trị cao hơn rất nhiều dữ liệu trôi nổi trên internet, bởi dữ liệu trên internet có những giới hạn: ví dụ như người dùng tải lên thì mình mới lấy được và nhiều trang web cũng không chia sẻ miễn phí đầy đủ nội dung các tài liệu”, nhóm nghiên cứu cho biết. Nếu không có bộ CSDL đủ lớn, phần mềm phát hiện đạo văn dù có tối tân đến đâu cũng không thể phát huy hết hiệu quả.

Thực tế này cũng có thể thấy ngay cả với việc Việt Nam áp dụng Turnitin – phần mềm có cơ sở dữ liệu học thuật trên thế giới rất đồ sộ với tổng cộng khoảng 45 tỷ trang web, hơn 337 triệu bài làm của sinh viên và hơn 130 triệu bài viết từ các cuốn sách và các ấn bản học thuật, thì cũng gặp phải hạn chế do không thể cập nhật cơ sở dữ liệu của tất cả các trường đại học, cơ sở nghiên cứu trong nước bởi vẫn có quá ít các đơn vị sử dụng, TS. Nguyễn Lưu Bảo Đoan, Khoa Kinh tế, ĐH Kinh tế TP Hồ Chí Minh cho biết vào năm 2018. Theo ông, phần mềm chỉ có thể giám sát hiệu quả nếu ngày càng có nhiều trường đại học số hóa dữ liệu tốt.

Đây cũng chính là mục tiêu mà nhóm nghiên cứu trường ĐH Công Nghệ hướng đến: xây dựng được một cộng đồng liên kết và chia sẻ dữ liệu giữa các đơn vị đào tạo. “Khi có cơ sở dữ liệu như vậy, việc phát hiện sự trùng lặp sẽ chính xác hơn rất nhiều”, Nguyễn Ngọc Sơn khẳng định. Dù truy cập mở, tài nguyên giáo dục mở đang là xu hướng ở nhiều quốc gia trên thế giới, tuy nhiên tại Việt Nam, việc thuyết phục các đơn vị tham gia vẫn khá khó khăn do nhiều đơn vị lo ngại vấn đề bảo mật, mất mát dữ liệu. Hiện ngoài các trường trong Đại học Quốc gia Hà Nội, nhóm đang có thêm ba trường đại học khác hợp tác chia sẻ dữ liệu nội sinh.

Đối mặt với không ít thách thức như vậy nhưng nhóm nghiên cứu vẫn đang liên tục cải tiến phần mềm như nghiên cứu để loại trừ các câu văn phổ thông (ví dụ lời cảm ơn, phụ lục) trong trùng lặp văn bản, đồng thời tiếp tục phát triển thêm các phần mềm liên quan đến dữ liệu, tri thức và giáo dục như Simidoc, EasyCheck, VOJS. Hiện tại, nhóm cũng đang đẩy mạnh chuyển giao công nghệ và thương mại hóa sản phẩm. Yếu tố lớn nhất giữ cho họ vẫn miệt mài hoàn thiện phần mềm này sau 7 năm thay vì dừng lại ở một đề tài nghiên cứu trong trường không chỉ là tiềm năng ứng dụng mà còn là những giá trị mà nhóm thấy được từ việc có một cơ sở dữ liệu và hệ thống hiệu quả để kiểm tra đạo văn trong nước. “Nếu không có công cụ hỗ trợ, giáo viên dù thấy bài làm quen quen nhưng cũng sẽ khó tìm được tài liệu để đối chứng. Chúng tôi hi vọng phần mềm sẽ góp phần vào việc nâng cao chất lượng giáo dục và thúc đẩy sự nghiêm túc, chuyên nghiệp và cả sáng tạo trong học tập và nghiên cứu của sinh viên, học viên”, nhóm nghiên cứu kỳ vọng.

Hệ thống nâng cao chất lượng văn bản – DoIT đã đạt giải Nhì Nhân tài Đất Việt 2017. Bên cạnh đó, quy trình kiểm tra trùng lặp trong nhóm văn bản cũng đã được Cục Sở hữu Trí tuệ (Bộ KH&CN) cấp bằng độc quyền sáng chế số 1-0026606, công bố ngày 25/12/2020.

Hiện nay, hệ thống nâng cao chất lượng tài liệu DoIT đã được sử dụng ở khoảng 15 trường như ĐH Quốc Gia Hà Nội, ĐH Luật, ĐH Vinh,… và được người dùng cá nhân từ 60 trường trải nghiệm. Mỗi ngày, vào thời điểm cao điểm như mùa nộp khóa luận, hệ thống DoIT xử lý từ 700 đến hàng nghìn tài liệu với tốc độ xử lý trung bình cho khoảng 50 trang là 1 phút. “Người dùng không có cảm giác phải chờ đợi nhiều và hệ thống có thể đáp ứng tốt với lượng truy cập và sử dụng như hiện tại”, nhóm nghiên cứu cho biết.


Mỹ Hạnh / khoahocphattrien