如何进行采集? 在网站后台--采集管理--规则管理中,如果有多个采集规则的话,就逐个规则点击采集,上一个采集完毕再采集下一个。如果规则或文章多的话,尽量别批量采集,因为很容易造成浏览器假死,而出现打不开网站的假象。其实换个浏览器你的网站是可以打开的。 一次采集多少合适? 一般一次采集不要超过2000篇文章,因为一次采集的文章过多,在入库的时候就会耗时很长,同时入库的时候网站是无法访问的。 为什么有时采集到一半我的网站打不开,或浏览器卡住、假死了? 因为采集时需要频繁的刷新浏览器页面来切换采集的页面,有的浏览器在频繁多次重复刷新页面之后就会假死或崩溃,建议大家使用火狐浏览器来采集,效果比一般的浏览器好一些。但最主要的是一次不要采集太多,分批采集,分批入库,是最好的。 为什么采集时随机出现浏览器白屏? 因为浏览器假死了,原因同上一条,请更换火狐浏览器。但不一定能够保证火狐不出问题。或请在夜间上网人少时采集。这与程序和目标网站无关,是浏览器频繁刷新导致的。 采集之后文章在哪里? 采集之后文章没有立即发布到网站中,而是存储在采集数据库中,这样的优点简单说就是分库操作采集时不影响网站的访问,采集后还可以自主选择发布到网站的文章。即使采集错误也不会影响网站。请到网站后台--采集管理--数据入库中,里面都是采集到的文章,可以在页面底部,选择“入库所选内容”或“入库全部内容”。也可以删除内容 为何采集之后在前台看不到文章? 原因有2种。1是采集之后为在后台--采集管理--数据入库中把采集到的文章发布到网站中。2是数据已经入库你的网站开启了静态模式,开启静态模式时,每次采集后都需要在后台--文章管理--整站静态、手机静态中生成首页、列表页、内容页的静态。(注:若您的网站没开启静态模式,就请不要特地去开启) 网站后台自带的采集规则、或从官网应用中心安装的采集规则,采集前需要注意什么? 采集前请先建立好自己网站的栏目,确定好栏目之后再到后台--采集管理--规则管理--编辑--所属分类中选择对应的栏目。 另外还要注意,如果你的网站空间比较小,例如100M或200M,请采集的时候不要保存图片到空间中,因为图片多了空间很容易不够用。方法:网站后台-采集管理--规则管理--编辑--新闻设置--保存图片(不勾选) 采集时可以关掉浏览器窗口么? 不可以,采集是需要依赖你的浏览器的,不要关闭采集的页面 采集要多久能采集完成? 需要看你所采集的目标网站的文章数,文章多花费的时间就多,一般一篇文章按照0.5秒初略的估算。如果保存图片的话,采集时间会变长。 采集的内容会不会重复? 一般不会重复,因为采集过的网址会存储在“历史记录”中,所以历史记录中的记录请不要删除。 |
上一篇:SQL Server2008详细设置开启远程连接的整套方法
下一篇:如何定时重启服务器