英國國家廣播公司BBC即時新聞自動擷取系統
程式語言:Java
資料庫:MS SQL
前言:這是大學時與台南一家網路公司Keyciti合作的案子,主要是做爬蟲程式,將英國BBC即時新聞擷取下來,存到Keyciti公司的資料庫中,再由他們公司的首頁呈現出來。Keyciti這家公司阿誌有去過幾次,裡面感覺非常舒服,很有規模,當時電子商務非常熱門,很多網路公司紛紛出現,Keyciti是其中一家,後來泡沫化後,也一家一家的消失了,聽說Keyciti後來也倒了,只能說燒錢燒太快。
系統介紹:
以Java結合Unix平台與Microsoft NT上的MS SQL資料庫,開發一自動擷取編輯系統,可週期性地將英國國家廣播電台(BBC)之新聞擷取下來,去除HTML文件的Tag,且將其內容抽取出來,存至MS SQL資料庫,而且端則使用ASP將其資料讀取呈現出來,後面的圖為BBC之網頁,前面資料擷取後以ASP讀取呈現之結果。
系統畫面:
註:因為爬蟲程式沒畫面,上圖是爬蟲程式抓取後在前端呈現的結果。