|
| 盒子资源分类 |
![]() |
|
|
|
|
| 从指定网页格式分离单词的小程序 |
![]() |
| 关键字:ParserEn TPerlRegEx 多线下载 正则表达式 分离单词 任务同步 |
| 来 自:原创 |
| 平 台:Win2k/XP/NT,Win2003 |
下载所需:0 火柴 |
| 深浅度:中级 |
完成时间:2005/5/3 |
| 发布者:piao40993470 |
发布时间:2006/2/10 |
| 编辑器:DELPHI7 |
语 种:简体中文 |
| 分 类:网络 |
下载浏览:4481/11000 |
|
|
|
|
|
ParserEn说明
这是一个从指定网页格式分离单词的小程序,自动从http://www.fane.cn/article_list.asp?c_id=1&s_id=1链接抓取分析其它可用链接,然后对所有链接进行分析找到可用页面然后分离中英文单词,并进行分类。
使用了多线程处理,遇到了很有趣的多个不同功能的许多线程相互协调工作的问题,由于采用主线程进行消息处理安排线和工作流程所以会产生主程序窗口被堵死情况,特别是在开的线程很多的时候。
优化方案: 1.应再写个控制线程,让一个单独的线程去管理其它工作线程协调问题,防止主程无响应,主程通过定时刷新共享区数据获取运行状况。
2.多线程情况下效率问题没有做过多考虑,特别是ADO产生多线程锁冲突时使程序效率更低下,应考虑先将抓取的数据先放到缓冲区中,开适当的线程数来将数据插入数据库中。
3.没有测试其它正则表达式控件的效率问题(对正则表达式的算法没有做过仔细研究)
使用TPerlRegEx正则表达式控件分离.htm中所需要数据
该程序没有经过严格测试难免有很多bug,主要精力用于提高抓取速度、精度和解决主程无响应问题上,希望这些简陋的代码能给正在学习使用多线程的朋友们一定的参考。 Piao40993470 2005-05-3(去年面试的时候写的) |
| 本站原创作品,未经作者许可,严禁任何方式转载;转载作品,如果侵犯了您的权益,请联系我们! |
| 相关文章 |
|
![]() |
|
|
| 相关评论 |
![]() |
|
共有评论3条
当前显示最后3条评论
|
| jmwl77 |
2006/2/12 11:17:07 |
| 功底颇为深厚,当然不只是程序上 |
| webfly |
2006/2/12 20:49:18 |
| 非常感谢,很有参考价值,谢谢作者的无私 |
| myf315 |
2006/2/21 20:34:25 |
| 很经典!谢谢分享! |
| 我要发表评论 |
查看全部评论 |
|
|
|