Phụ Lục A

Thắc Mắc Thường Gặp Khi Gõ Hán Nôm

 

Ngô Đình Học

Email: hoc96@yahoo.com

Web: http://winvnkey.sf.net

 

Ngày 24 tháng 10 năm 2009

 

 

Mục Lục

A1. Khó khăn khi nhập chữ Nôm

A2. Cách nhập nhanh cụm chữ Hán Nôm bằng viết tắt

A3. Các kho dữ liệu Hán Nôm nằm ở đâu?

A4. Làm sao biết được số lượng chữ đơn hoặc phức trong mỗi kho dữ liệu?

A5. Thủ tục tái tạo kho dữ liệu

 

A1.      Khó khăn khi nhập chữ Nôm

 

Một số vấn đề nảy sinh ra khi nhập chữ Nôm vì lý do không có một font nào có chứa đầy đủ các chữ Nôm cả.   Một số chữ Nôm nằm trong font Arial Unicode MS, một số nằm trong font “HAN NOM A”, một số khác nằm trong “HAN NOM B”.  Do đó, khi gặp chữ Nôm hiện ra như ô vuông, bạn phải đổi thử sang font khác.

 

Sau đây là thí dụ gõ chữ “trong/” (nhớ đừng gõ ngoặc kép):

 

1.     Chọn kho dữ liệu Nôm như Hình A1 để có thể nhập chữ Nôm.

2.     Từ Notepad, gõ chữ trong/  như Hình A2(b).

3.     Quan sát hộp QLHN sẽ thấy có 14 chữ Nôm hiện ra với màu sắc khác nhau như Hình A2(a).

4.     Từ nút Chọn lựa, chọn menu “Đổi phông và màu chữ Hán Nôm” để thấy hộp thoại như Hình A2(c).

5.     Màu sắc trong Hình A2(c) cho thấy:

·       chữ màu xanh: phải dùng font HAN NOM B.

·       còn các chữ màu đen, tím, đỏ: phải dùng font HAN NOM A.

 

Nếu bạn cứ đổi font cho từng chữ Nôm thì việc nhập chữ Nôm sẽ rất chậm.  Do đó, WinVNKey sẽ tự động đổi ngầm cho bạn nếu bạn gõ vào MS Office như MS Word, ngoại trừ khi bạn bật hộp kiểm ở Hình A2(c) để bảo WinVNKey đừng đổi.

 

Nếu bạn không thích các màu sắc và font mà WinVNKey đã chọn sẵn cho một chữ Nôm nào đó, bạn có thể đè chuột phải lên chữ Nôm đó (trong hộp QLHN), rồi chọn menu thích hợp để đổi font, hoặc đổi màu.

 

 

 

Hình A1.  Chọn kho dữ liệu chữ Nôm để nhập chữ Nôm mà thôi

 

 

Hình A2.  Gõ “trong/” ở Notepad (Hình b) sẽ thấy 14 chữ Nôm có màu khác nhau hiện ra ở hộp QLHN (Hình a).

Hình (c) cho biết chữ Hán màu xanh phải dùng font HAN NOM B, còn các màu khác phải dùng font HAN NOM A.

 

 

Ngoài ra, bạn có thể đè chuột phải lên từng chữ Hán/Nôm, hoặc đè lên chữ Việt đánh số 0, ở hộp QLHN để thấy bảng menu như Hình A3.  Bốn dòng cuối cùng của bảng menu là các chức năng liên quan đến việc đổi phông và đổi màu.

 

 

 

Hình A3. Đè chuột phải lên từng chữ Hán/Nôm để biết thêm các chi tiết về chữ đó.

 

 

A1.      Cách nhập nhanh cụm chữ Hán Nôm bằng viết tắt

 

Muốn nhập nhanh cụm chữ Hán Nôm, bạn có thể tiết kiệm thao tác gõ bằng cách chỉ gõ một vài mẫu tự của chữ thứ nhì rồi gõ dấu * hoặc dấu = để tượng trưng cho tất cả các ký tự mà bạn không muốn gõ tiếp:

 

 

Chẳng hạn, gõ “cank*/” như trong Hình A4.  Cụm chữ đã gõ rồi là “cank”.  Dấu chưa gõ là dấu đi với cụm chữ đã gõ rồi, tức dấu đi với “can”.  Mẫu tự còn lại chưa gõ là những mẫu tự đi sau chữ k. Hình A4 liệt kê ra tất cả chữ Hán có âm đọc trong tiếng Việt gồm hai từ mà phần bắt đầu có chứa cụmcan k”.  Muốn chọn cụm chữ nào thì bạn gõ số thứ tự của cụm chữ đó sau dấu gạch chéo hoặc là dùng chuột nhấp lên cụm chữ đó trong hộp QLHN.

 

Tương tự, gõ “tânkh*/  sẽ hiện ra các cụm chữ Hán sau đây (xem Hình A5):

 

1. 賓客    tân khách (dấu * tượng trưng cho các mẫu tự chưa gõ: á c h)

2. 新科    tân khoa (dấu * tượng trưng cho o a)

3. 辛苦    tân khổ (dấu * tượng trưng cho )

4. 訊考    tấn khảo  (ký tự còn chưa gõ: dấu sắc trong chữ tấn, các mẫu tự ả o)

 

Nếu gõ “tânkh=/” (nghĩa là dùng dấu = thay cho dấu *) thì dấu bằng tượng trưng cho các mẫu tự còn lại nằm bên phải của chữ tânkh, còn phần đầu thì bắt buộc phải giống hệt như tânkh.  Do đó, Hình A6 liệt kê ra tất cả chữ Hán có âm đọc trong tiếng Việt gồm hai từ mà phần bắt đầu phải giống hệt như  cụmtân kh”.

 

1. 賓客    tân khách

2. 新科    tân khoa

3. 辛苦    tân khổ

 

So sánh danh sách chữ Hán trong Hình A5 và A6, ta thấy cụm chữ “tấn khảo” bị loại bỏ khi dùng cách gõ tắt “tânkh=” vì lý do 5 mẫu tự đầu của “tấn khảo” là “tấn kh”, không phải “tân kh”.

 

 

 

Hình A4.  Gõ tắt từ phức với dấu * tượng trưng cho các mẫu tự và dấu chưa gõ hết.

 

 

  

 

Hình A5.  Dấu * còn tượng trưng cho dấu chưa gõ của cụm chữ tânkh, tức dấu sắc trong chữ tấn.

 

 

   

 

Hình A6.  Dùng dấu =  để gõ tắt từ phức khi muốn phần đầu phải giống hệt nhau.

 

 

A2.      Các kho dữ liệu Hán Nôm nằm ở đâu?

Muốn xem các kho dữ liệu Hán Nôm, bạn hãy nhấn:

 

            Hộp thoại QLHN | Chọn lựa | Mở thư mục

 

Bạn sẽ thấy danh sách thư mục tương tự như Hình A7.  Có tất cả 9 files chứa dữ liệu dạng binary (nghĩa là không thể edit bằng tay được vì sẽ làm hư files):

 

1.     Han-Viet.dat   -  dùng để gõ chữ Hán bằng âm Việt

2.     Nom-Viet.dat  -  dùng để gõ chữ Nôm bằng âm Việt

3.     HanPhonThe-Viet.dat  -  dùng để gõ chữ Hán Phồn thể bằng âm Việt

4.     Cantonese-Viet.dat  -  dùng để gõ chữ Hán Quảng Đông bằng âm Việt

5.     Han-4Corner.4ci  -  dùng để gõ chữ Hán bằng phương pháp Tứ Giác Hiệu Mã

6.     Han-Pinyin.py  -   dùng để gõ chữ Hán bằng Bính âm (Pinyin)

7.     HanGianThe-Pinyin.py  -   dùng để gõ chữ Hán Phồn thể bằng Bính âm

8.     HanPhonThe-Pinyin.py  -  dùng để gõ chữ Hán Phồn thể bằng Bính âm

9.     Han-Cangjie.dat  -  dùng để gõ chữ Hán bằng phương pháp Thương Hiệt

 

Mỗi kho dữ liệu lại có một thư mục tương ứng để chứa các files nguồn ở dạng văn bản trơn (plain text) mà bạn có thể mở ra xem bằng Notepad và edit được.  Tên của thư mục được đặt từ tên của tệp kho dữ liệu sau khi bỏ đi phần đuôi.

 

Thí dụ:  File Han-Viet.dat tương ứng với thư mục Han-Viet, còn file Nom-Viet.dat tương ứng với thư mục Nom-Viet.  Như vậy, bạn có thể nhấn lên thư mục Han-Viet để thấy các files nguồn của kho dữ liệu Han-Viet như Hình A8.  Nếu muốn xem dữ liệu Nôm Việt, bạn phải nhấn lên tiểu thư mục Nom-Viet.

 

Chú ý:  Các gói WinVNKey thường chỉ chứa các files Hán Nôm nguồn (dạng *.txt) mà không có chứa các files Hán Nôm dạng binary (Han-Viet.dat, Nom-Viet.dat, v.v.).  Khi bạn chạy lần đầu, WinVNKey sẽ tự động tái tạo lại các kho binary từ files nguồn.

 

 

 

Hình A7. Mở thư mục Hán Nôm sẽ thấy các files dữ liệu Hán Nôm (dạng *.dat, *.py, *.4ci) cùng các tiểu thư mục (subfolders) chứa files dữ liệu nguồn

 

 

Hình A8.  Mở thư mục Han-Viet sẽ thấy các files dữ liệu nguồn ở dạng *.txt file cùng thư mục backup chứa các files nguyên thủy.

 

Bạn có thể nhấn lặp lên một tệp văn bản nguồn (hoặc dùng Notepad để mở) để xem nội dung.  Chẳng hạn, hình A9 cho thấy nội dung của file chữ đơn Hán Việt tên là Data-HanViet-LST.txt, A10 là file ghi cụm từ phức Hán Việt tên là Tuphuc-HanQNgu-LST.txt. Nói chung, văn bản nguồn gồm có 2 cột:

 

Nếu cột 1 là chữ Hán và cột 2 là chữ Việt thì tên file phải nêu rõ thứ tự đó:  HanViet hoặc HanQNgu.  Còn nếu cột 1 là chữ Việt và cột 2 là chữ Hán thì tên file phải nêu rõ VietHan (thí dụ file Buddist-VietHan.txt trong Hình A8).

 

 

 

Hình A9. Nội dung file ghi chữ Hán Việt. Cột 1 có thể ghi chữ Hán trực tiếp hoặc mã Unicode của chữ Hán, cột 2 ghi âm đọc tiếng Việt bằng chữ Quốc ngữ.

 

 

 

 

Hình A10. File ghi cụm chữ phức Hán Việt

 

A3.      Làm sao biết được số lượng chữ đơn hoặc phức trong mỗi kho dữ liệu?

 

Mỗi kho dữ liệu được xây dựng từ tất cả các văn bản nguồn ở dạng trơn (*.txt) nằm trong một thư mục riêng dành cho kho dữ liệu đó.  Bạn có thể mở từng file ra để đếm số lượng chữ.  Nhưng việc này không cần thiết vì WinVNKey đã tóm tắt tin tức về các kho dữ liệu cho bạn.  Bạn hãy nhấn nút:

 

Hộp QLHN | Chọn lựa | Thông tin

 

Chẳng hạn, kho dữ liệu Hán Việt (tức nhập chữ Hán bằng cách gõ âm Việt bằng chữ Quốc ngữ) có thông tin như miêu tả trong Hình A11.

 

 

 

Hình A11.  Thông tin về kho dữ liệu chữ Hán Việt

 

Hình A11 cho thấy thông tin sau đây:

 

1.     Buddhist-VietHan.txt (27364 chữ-âm/entries):

File này chứa các chữ Hán về Đạo Phật, cột 1 là âm chữ Việt, cột 2 là chữ Hán.  Đó là lý do tên file có chứa cụm chữ VietHan.

2.     Data-HanViet-LST.txt (30986 chữ-âm/entries)

File này có chứa 30986 chữ Hán đơn, cột 1 là chữ Hán, cột 2 là âm chữ Việt, tác giả sưu tầm là Lê Sơn Thanh.  Bạn có thể dùng Notepad để mở file này ra hầu biết thêm chi tiết về tác giả và nội dung của file.

3.     TuPhuc-HanQNgu-LST.txt (19996 chữ-âm/entries)

File này có chứa 19996 cụm từ phức, cột 1 là chữ Hán, cột 2 là âm chữ Quốc ngữ, tác giả sưu tầm là Lê Sơn Thanh.

4.     TuPhuc-HanViet-DTK.txt (8981 chữ-âm/entries)

File này có chứa 8981 cụm từ phức, cột 1 là chữ Hán, cột 2 là âm chữ Việt, tác giả sưu tầm là Đặng Thế Kiệt.

 

Cần chú ý rằng khi bạn gõ âm Việt bằng chữ Quốc ngữ rồi gõ tiếp phím mệnh lệnh “/” thì WinVNkey sẽ đọc trực tiếp kho dữ liệu Han-Viet.dat để lấy danh sách các chữ Hán.  Nói một cách khác, WinVNKey không dùng các files nguồn một cách trực tiếp.  Nếu bạn chỉ sửa chữa các lỗi Hán Nôm ở files nguồn thì hoàn toàn không thay đổi được cơ sở dữ liệu Han-Viet.dat. Nhưng Han-Viet.dat là một file không thể sửa chữa (edit) được bằng Notepad.  Muốn thay đổi Han-Viet.dat, bạn phải sửa chữa files nguồn, rồi phải chạy một công cụ khác của WinVNKey để tái tạo lại file Han-Viet.dat.  Đó là chức năng “Cập nhật kho dữ liệu Hán Nôm” được mô tả trong tiết mục tiếp theo.

 

 

A4.      Thủ tục tái tạo kho dữ liệu

Nếu bạn rành Hán Nôm và thấy kho dữ liệu nào còn thiếu chữ hoặc có chữ sai, bạn có thể tự động thêm các chữ mới vào hoặc sửa chữa các chữ sai.  Sau khi làm xong, bạn phải tái tạo lại các kho dữ liệu binary vì WinVNKey chỉ đọc các kho này khi bạn nhập chữ Hán Nôm. 

 

Nói chung, bạn phải tái tạo lại kho dữ liệu trong các tình huống sau đây:

Thủ tục để tái tạo lại kho dữ liệu đã được mô tả ở hộp “Thông tin” ở Hình A11, tiết mục C.  Thủ tục này có thể được tóm tắt như sau (xem Hình A12):

 

  1. Hộp QLHN  | Chọn lựa | Cập nhật kho dữ liệu Hán Nôm
  2. Chọn kho dữ liệu cần cập nhật (thí dụ: Han-Viet)
  3. Mở file để sửa.  Có 2 cách sau đây:

·       Hoặc nhấn chuột trái lên nút “Biên soạn” rồi chọn file cần sửa (Hình A13).

·       Nhấn nút có hình mở thư mục (open folder icon) để mở thư mục Han-Viet.

Double click lên text file mà bạn cần thêm bớt hoặc sửa chữa.

  1. Thông thường Windows sẽ dùng Notepad để mở file ra.  Bạn nên chọn font là Arial Unicode MS” để có thể thấy được chữ Hán Nôm.  Nếu vẫn thấy ô vuông, bạn hãy chọn thử font khác, chẳng hạn “HAN NOM A” hoặc “HAN NOM B”.
  2. Sau khi thêm bớt sửa chữa xong, save file và đóng Notepad lại.
  3. Nhấn nút "Xây dựng".

Quá trình tái tạo thường diễn ra rất nhanh, nhưng có thể lâu đến 1 phút đối với những kho dữ liệu quá lớn.  WinVNKey sẽ hiện ra một hộp thoại liệt kê diễn tiến cập nhật như Hình A14.

  1. Sau khi tái tạo xong, hãy tắt WinVNKey rồi khởi động lại như lời chỉ dẫn ở mục (C) trong hình A14.

 

 

 

Hình A12. Nhấn nút Chọn lựa | Cập nhật kho dữ liệu Hán Nôm

để hiện ra hộp thoại dùng để tái tạo các kho dữ liệu Hán Nôm.

 

 

 

 

Hình A13. Chọn file cần sửa bằng cách nhấn nút Biên soạn

 

 

 

Hình A14. Diễn tiến cập nhật sau khi nhấn nút “Xây dựng” ở Hình A13.