剛才辦公室最近在討論「分詞」
就研究了一下 PHP 下有沒有人寫好現成的工具,找到了「phpanalysis2.0」
詳細說明網站:http://www.phpbone.com/phpanalysis/
試用了一下覺得還不錯
就寫了一個簡單的練習站台
http://3wa.tw/demo/php/word/same_words.php?id=1
主要的程式大概如下:
[shadow@3wa phpanalysis2.0]$ ls
demo.php # 範例檔
dict_build.php # 重建字詞用的
readme # 說明文件
re.php # 我改過的重建字詞
dict # 字詞庫
phpanalysis.class.php #主程式
readme.php # 我的筆記
[shadow@3wa phpanalysis2.0]$
由於剛抓下來的dict 是簡體中文
所以使用簡→繁函式把 dict/not-build/base_dic_full.txt 改寫成 繁體 的 base_dic_full_t.txt
在php下可以用:
http://www.blueshop.com.tw/board/FUM20041006152627A9N/BRD20111105114702N29.html
已有人整理好簡、繁互轉的工具,很容易處理
之後再重作字庫:base_dic_full.dic
即可以使用,範例如下:
$pa = new PhpAnalysis();
$pa->SetSource('需要进行分词的字符串');
//设置分词属性
$pa->resultType = 2;
$pa->differMax = true;
$pa->StartAnalysis();
//获取你想要的结果
$pa->GetFinallyIndex();