捐赠 | 广告 | 注册 | 发布 | 上传 | 关于我们    
  粤ICP备10103342号-1 DELPHI盒子 | 盒子文章 | 盒子问答悬赏 | 最新更新 | 盒子检索 | 下载中心 | 高级搜索    
  精品专区 | 繁體中文 | 奖励公告栏 | 直通车账号登陆 | 关闭GOOGLE广告 | 临时留言    
盒子资源分类
全部展开 - 全部合拢
从指定网页格式分离单词的小程序
关键字:ParserEn TPerlRegEx 多线下载 正则表达式 分离单词 任务同步
来 自:原创
平 台:Win2k/XP/NT,Win2003 下载所需:0 火柴
深浅度:中级 完成时间:2005/5/3
发布者:piao40993470 发布时间:2006/2/10
编辑器:DELPHI7 语  种:简体中文
分 类:网络 下载浏览:4481/10934
加入到我的收藏
下载错误报错
登陆以后才能下载
 用户名:
 密 码:
自动登陆(30天有效)
图片如果打不开,说明流量不够了,请稍候下载……
ParserEn说明

这是一个从指定网页格式分离单词的小程序,自动从http://www.fane.cn/article_list.asp?c_id=1&s_id=1链接抓取分析其它可用链接,然后对所有链接进行分析找到可用页面然后分离中英文单词,并进行分类。

使用了多线程处理,遇到了很有趣的多个不同功能的许多线程相互协调工作的问题,由于采用主线程进行消息处理安排线和工作流程所以会产生主程序窗口被堵死情况,特别是在开的线程很多的时候。

优化方案:
1.应再写个控制线程,让一个单独的线程去管理其它工作线程协调问题,防止主程无响应,主程通过定时刷新共享区数据获取运行状况。

2.多线程情况下效率问题没有做过多考虑,特别是ADO产生多线程锁冲突时使程序效率更低下,应考虑先将抓取的数据先放到缓冲区中,开适当的线程数来将数据插入数据库中。

3.没有测试其它正则表达式控件的效率问题(对正则表达式的算法没有做过仔细研究)

使用TPerlRegEx正则表达式控件分离.htm中所需要数据

该程序没有经过严格测试难免有很多bug,主要精力用于提高抓取速度、精度和解决主程无响应问题上,希望这些简陋的代码能给正在学习使用多线程的朋友们一定的参考。
   
Piao40993470 2005-05-3(去年面试的时候写的)
Google
 
本站原创作品,未经作者许可,严禁任何方式转载;转载作品,如果侵犯了您的权益,请联系我们
龙脉加密锁 15元起 Grid++Report 报表 申请支付@网
 相关文章
没有相关文章
相关评论
共有评论3条 当前显示最后3条评论
jmwl77 2006/2/12 11:17:07
功底颇为深厚,当然不只是程序上
webfly 2006/2/12 20:49:18
非常感谢,很有参考价值,谢谢作者的无私
myf315 2006/2/21 20:34:25
很经典!谢谢分享!
我要发表评论 查看全部评论
 
  DELPHI盒子版权所有 技术支持:深圳市麟瑞科技有限公司 1999-2024 V4.01 粤ICP备10103342号-1 更新RSS列表