Kho tháng 2/2008

Thứ bảy, 23 Tháng hai năm 2008 14:29:49 ICT

Hết giảm cân: nhiệm vụ bất khả thi

Đã hết sức cố gắng để giảm cân, loại ra những ngram có số lớn kinh dị, như <s> </s> hay <opaque>. Nhưng cũng chỉ có thể đến F5. F6 xuất hiện cỡ 30k "zero probability".

Phiên bản cũ ít bị lỗi này (chỉ ở những thế hệ chót) do khi chuyển từ wngram sang idngram đã cắt bớt các ngram có số quá lớn.

Cần phải nghĩ lại về softcount. Không chừng nên tham khảo lại giza. Có lẽ nên công bố vspell 0.1 với dữ liệu F5. Cần phân tích xem lỗi này chỉ xảy ra do chênh lệch tần số (sau nhiều lần huấn luyện) hay do khối lượng số đếm. Nếu là lí do đầu thì vẫn còn hi vọng nuốt hết vspell-data.


Cập nhật 2 lần. Lần cuối: Tue Aug 08 11:22:15+0011 2017

Tác giả: pclouds | Liên kết tĩnh | vspell

Thứ bảy, 16 Tháng hai năm 2008 15:38:16 ICT

Đời ta là.. hai tấm hình

Vậy là anh đã vượt qua được căn bệnh procrastination mãn tính để viết thêm mấy dòng ruby, vẽ nên đời anh (đúng ra là khoảng thời gian anh sử dụng máy tính ở nhà). Đời anh tóm gọn trong hai tấm hình:

:http://flickr.com/photos/pclouds/2267938583/

Tấm hình tròn này, mỗi một vòng tương ứng với 24 giờ của anh. Vòng nhỏ nhất là ngày cách đây lâu nhất, vòng lớn nhất là ... hôm nay. Cái đĩa vàng này cho thấy anh "mần ăn" chủ yếu khi trời chạng vạng tối... thui. Dĩ nhiên mạn đông nam của cái dĩa trống phóc do giờ đó anh đang đi cày.

:http://flickr.com/photos/pclouds/2267558165/

Tấm thứ hai chi tiết hơn, ít tính minh hoạ hơn. Nó cho thấy mấy ngày Tết, anh chuyển từ làm việc ban đêm sang mần ban sáng. Tới lúc bà con dậy thì anh đi khò (sinh vật sống về đêm tiêu biểu). Nó còn cho thấy tuần sau Tết anh lười hơn. È... lẽ ra không nên vẽ cái này thì sẽ không cắn rứt chuyện lười. É.


Cập nhật 2 lần. Lần cuối: Tue Aug 08 11:22:15+0011 2017

Tác giả: pclouds | Liên kết tĩnh | Hâm

Thứ năm, 14 Tháng hai năm 2008 03:51:00 ICT

vspell dựa trên TBL??

Có một điểm đáng chú ý trong cách tách từ tiếng Việt là dường như các cách tách từ đúng thiên về hướng ít số lượng từ trong câu. Nếu điều này là đúng (chưa kiểm tra) thì đây sẽ là thuật giải baseline rất tốt cho những thuật toán sửa lỗi như kiểu TBL(Transformation-based learning).

Dĩ nhiên không thể khơi khơi bê nguyên cục TBL gắn vào. TBL là supervised learning, điều tối kị với tiếng Việt (hay ít nhất với tui) bởi thiếu một lượng ngữ liệu tốt, đã được tách từ đúng, và có lẽ cần đánh dấu từ loại luôn.

Hơ, vậy là sau bao nhiêu năm đeo đuổi statistical-based spell checking, giờ mình lại ve vãn rule-based :D Hâm quá.


Cập nhật 2 lần. Lần cuối: Tue Aug 08 11:22:15+0011 2017

Tác giả: pclouds | Liên kết tĩnh | vspell, Hâm

Thứ bảy, 09 Tháng hai năm 2008 23:34:04 ICT

Tình hình kiểm lỗi chính tả trong FLOSS

Thiệt là ngạc nhiên chẳng có một trình bắt lỗi chính tả nào (dĩ nhiên chỉ nói FLOSS) hỗ trợ CJK(Chinese Japanese Koreanese) cả. Khu vực bán đảo Đông Dương cũng vắng hoe. Tiếng Mianma được hỗ trợ bởi aspell còn Khmer được hỗ trợ bởi hunspell. Khá là ngạc nhiên vì aspell nêu lí do không hỗ trợ tiếng Khmer cũng vì không nhận được ranh giới từ. Mianma có lẽ khá hơn, gần với tình trạng của tiếng Hàn (một chữ cho một -từ- âm tiết, nếu nhớ không sai).

Lẽ ra cũng phải tính hỗ trợ tiếng Việt trong aspell của bác Hồ Ngọc Đức, tuy nhiên bắt lỗi âm tiết thì khá hạn chế. Cấu trúc âm tiết tiếng Việt rõ ràng và ít ngoại lệ nên cũng chẳng cần kiến thức ngôn ngữ cũng có thể phân biết đâu là viết "đúng".

Điểm lại tình hình chung, có vẻ các trình bắt lỗi vẫn dựa trên ngầm định bắt theo từ, và có thể tách từ dễ dàng. Điều này được phản ánh trong API của trình bắt lỗi chính tả, như Enchant.

Dông dài như thế để kết luận khả năng "gắn" vspell một cách nhẹ nhàng, có hệ thống, coi như bị loại. Hoặc vspell sẽ phải hoạt động độc lập. Hoặc các chương trình cần phải được điều chỉnh (từng cái một) để hỗ trợ vspell.


Cập nhật 3 lần. Lần cuối: Tue Aug 08 11:22:15+0011 2017

Tác giả: pclouds | Liên kết tĩnh | OSS, vspell

Thứ tư, 06 Tháng hai năm 2008 22:17:19 ICT

Cuối năm..

Thiệt tình cũng hơi nhảm nhí khi mất đến một năm chỉ để thêm một chữ L để vượt qua lỗi 614800 câu. Mà nhảm nhí hơn nữa, lỗi nằm trong đoạn mã... thông báo lỗi! Nhưng mà nhìn tươi sáng hơn là cũng chỉ mất có một năm, mém xíu tiêu luôn hai năm rồi.

Tình hình cuối năm rất là tình hình. Do đã vượt qua được lỗi, có thể tiếp tục huấn luyện vspell. Phát hiện ra một điểm ẩu hồi trước (<opaque> bị loại khỏi LM do không có trong danh mục từ vựng vne2.vocab). Có lẽ đây là khởi đầu dẫn đến sự huỷ hoại của LM qua các thế hệ. Lần huấn luyện mới, các số liệu cho thấy tiến trình huấn luyện ổn định hơn. Số unigram và bigram của LM không đổi qua các thế hệ. Tương tự, số dòng trong kết quả của sc-train và wngram cũng không đổi từ F1 trở đi. Chỉ có tổng số count của wngram là tăng dần (từ 431 tỉ ở F0, tăng lên 544 tỉ, 581 tỉ, 598 tỉ ở F1-F3). Có lẽ phải tính perplexity hay cái gì đó đại loại để xác định LM tốt lên hay xấu đi qua mỗi thế hệ. Với 598 tỉ ở F3 cho dữ liệu VnExpress, có lẽ sẽ có thể nuốt toàn bộ kho vspell-text do giới hạn của long long int là 18 tỉ tỉ.

Các con số cho thấy việc xử lí chẳng nhẹ nhàng tí nào. Cần phải sắp xếp khoảng 110 triệu dòng, tạo ra gần 5 triệu bigram. Không biết khi dùng hết vspell-text thì sẽ tăng lên bao nhiêu đây.

Những ngày qua grandpa đã phải gồng gánh công việc trâu bò là huấn luyện vspell. Lẽ ra laptop có thể làm được (và nhanh gấp đôi). Tuy nhiên không gian toả nhiệt của laptop lại không bằng grandpa. Năm heo mà grandpa cày như trâu, trên khoảng ruộng 14GB dành riêng cho vspell. Quyết định cho grandpa chạy... sang năm luôn. Năm mới chúc grandpa chạy mạnh giỏi!

Theo dõi máy grandpa với gkrellm2/gkrellmd khá tiện, đỡ tốn băng thông hơn so với dùng X từ xa.

Cuối cùng là cái hình. Trông chẳng có gì đặc biệt, thậm chí kết quả có vẻ còn tệ hơn. Nhưng dù sao cũng có được cái hình!

:http://flickr.com/photos/pclouds/2246350330/

Chưa tới năm con chuột mà mục tiêu chính của chiến dịch "giảm cân" hình như xong mất rồi. Tết này mình mần gì đây :(


Cập nhật 2 lần. Lần cuối: Tue Aug 08 11:22:15+0011 2017

Tác giả: pclouds | Liên kết tĩnh | vspell

Chủ nhật, 03 Tháng hai năm 2008 23:08:50 ICT

pppd

Bao nhiêu là kỉ niệm tràn về khi nghe lại cái âm thanh 'te te te tít tít' của cái PTSN modem. Hồi xưa xài chung mạng Phương Nam với thằng bạn, tới tháng hai đứa cưa tiền cước. Nhảm dễ sợ.

Nói chung bây giờ cũng trùm rồi, nên cái sự kết nối cũng khác hồi xưa lắm lắm. Hồi xưa mất cả mấy ngày vật vã đọc pppd man page, chat, tìm thông tin trên mạng... Giờ chỉ cần cài cho được gói hsfmodem, xong chạy hsfconfig, vọc sơ sơ pppd là nó tít tít tít te te ngay

pppd /dev/modem 19200 modem nodefaultroute usepeerdns user vnn1268 debug nodetach connect '/usr/sbin/chat -v -f /tmp/test'
cat /tmp/test
ABORT "NO CARRIER"
ABORT "NO DIALTONE"
ABORT "ERROR"
ABORT "NO ANSWER"
ABORT "BUSY"
"" "at"
OK "at&d0&c1"
OK "atdt1268"
CONNECT "" 

Mạng VNN1268 vẫn chạy. Ngạc nhiên chưa!

Cái script /tmp/test chôm trên mạng. Hồi đó mình biết một lệnh AT để tắt luôn cái tít tít te te (nửa đêm vô mạng mà tít tít, chắc bị bóp cổ chết). Dò trên mạng, có lẽ đó là lệnh ATM0.

Ôi ngày xưa huy hoàng.

Ngày nay định nối hai cái máy qua modem (bởi vì không còn cổng hay dây để nối qua cái ADSL modem). Ai dè cái external modem hồi xưa bác Trịnh Minh Thanh gửi tiền cho mua, giờ mất tiêu rồi :(


Cập nhật 2 lần. Lần cuối: Tue Aug 08 11:22:15+0011 2017

Tác giả: pclouds | Liên kết tĩnh | Linux