相信对于从事网站领域的站长朋友来说都知道,一个网站想要保持活力,引入流量,则每日的内容更新是最基础的操作。
二、【系统设置】
打开 主菜单-系统-基本设置 ,进行各种系统设置,见图示
1、设置工作参数;
根据您的需要设置工作参数,见图示
①、开机自动运行ET:启动电脑进入系统后,自动运行ET程序;
②、ET启动后自动工作:ET启动运行后,自动执行上一次使用ET时勾选的工作方案,只有启用本项,才会自动保存当前勾选的工作方案;
③、启动后最小化:ET启动后,隐藏主窗口,只显示托盘图标;
④、忽略规则首尾空白:启用本项后,采集配置中的各个规则将自动去除首尾的空格、回车、换行等空白字符,以避免用户多输入空格或换行导致规则分析失败;如果用户需要利⑤、用空格或换行来确定规则的首尾边界,则请取消勾选;
⑥、方案执行间隔时间:在进行自动工作、选择多个方案时,一个方案的当前列表采集完后,间隔多久更换采集下一个方案;
⑦、访问网络超时时间:设定在访问网络时超过多久无响应则强制断开;
⑧、访问网络重试次数:设定在访问网络时遇到失败的自动重试次数,例如采集网页、下载文件、FTP上传等;
⑨、访问网页失败后自动重启ET:设定在访问网页失败一定次数后自动重启ET,以解决一些可能出现网络阻塞导致无法继续正常工作的问题;本功能仅在自动工作时生效,停止自动工作将重置失败计数,重试访问不计数;
2、设置代理
如果您通过代理上网,请设置访问网页的代理参数,见图示
仅用于采集:勾选本项,将会使代理设置仅在采集网页时生效,发布时不使用代理,这是2.3.8版中新增功能
3、设置劫持特征代码
很多地区的电信宽带用户在上网时,会被强行在访问信息中,用一些代码替换访问信息,让用户只能通过代码中的框架查看原本要访问的网页,这通常用来显示电信的广告或进行其他隐秘的动作,这种行为被称为劫持浏览器;当出现这种情况时,ET所采集的源码也只能得到这些劫持代码,而不是要采集的网页源码。通过设置这些劫持代码的特征字符串,ET会尝试突破劫持访问真实的网页源码,最多可以重试5次访问该网址
4、设置UserAgent
网站通过userAgent来判断当前用户使用的是什么浏览器,并根据这个浏览器能够支持的情况提供相应的功能。浏览器在访问一个网页时通常会传送一个识别字串告诉网站它是什么浏览器软件,我们访问的部分网站会对UserAgent进行限制,我们可以在基本设置中修改UserAgent,也可以点击'获取本机UserAgent'按钮获得本机的IE默认UserAgent
5、设置支持语言
采集某些网页时,网站可能会检查支持的语言,用户可以在此调整。
6、锁定设置
打开 主菜单-系统-锁定设置 ,见图示:
此功能用于设置打开各个配置窗口时的密码,当设置了锁定密码后,使用 菜单-锁定 功能,即可在用户离开电脑后,防止他人访问操作各项配置
三、【前台使用操作】
1、【选择工作方案】
工作方案包含了从来源获取原始信息、信息加工处理、最终发布到目标网站一系列工作的全部设定指令,是ET进行自动采集工作的指挥官,当制定好我们需要的方案后(方案制订见 用户手册 - 设置篇),即可在主窗口选择工作方案,开始采集工作。
①、认识方案区;
主窗口左侧上方的树形目录区即为方案区,点击鼠标右键,弹出操作菜单
②、勾选方案;
点击方案名前的选择框,选中将要执行的方案,可以多选,
如果所选方案缺少关键性配置,将显示提示,并将取消选中
ET工作时,将首先从当前的焦点方案开始执行,即蓝色反亮显示的方案,见图示4中的‘网站-discuz 6.0(带回复)’
选中的多个方案,将循环执行。
在主窗口右侧上方的文章列表区,将显示勾选的焦点方案的待处理文章。
在方案名称上点右键,弹出菜单见图示
点编辑方案,会进入该方案编辑窗口
双击方案名称,也可以直接进入该方案编辑窗口。
2、自动工作
选择好将要执行的工作方案后,点击主窗口左侧下方的‘自动’按钮,即可开始全自动工作,用户从此时起可以扔掉鼠标键盘、抛开繁累的网站更新,与朋友结伴出游,网站内容自有ET为您默默收集更新,要停止自动工作,请点击‘停止’按钮;
ET支持命令行启动,参数 /auto 可启动自动工作,命令行使用示例:d:\editortools.exe /auto
3、手动工作
在进行方案调试时,通常会使用手动方式进行采集操作。
①、采集目录;
点击主窗口左侧下方的‘采集目录’按钮,ET将对当前选中的焦点方案执行目录采集动作,若无焦点方案则按顺序执行
采集到的目录信息则显示在主窗口右侧上方的文章列表区,
注意:当方案的采集规则有修改时,会自动清空未发布文章,包括发送失败的文章,以避免用户继续使用错误的文章条目来采集
②、处理文章;
当文章列表区中有待处理文章时,点击主窗口左侧下方的‘处理文章’按钮,将按顺序对文章列表区的第一项待处理文章执行采集动作
文章处理过程中,在主窗口右侧下方的信息区,将显示工作记录,
处理结束后,文章列表区的对应条目将显示处理的状态
③、另一种手动处理文章方式
在文章列表区,双击某项文章条目,将对该篇文章执行采集动作,无论这篇文章是否已经被处理。
4、认识文章列表区
主窗口右侧上方的表格区域,即是文章列表区,这里显示所执行方案的待处理文章,
①、文章列表区各列说明;
文章采集标题:这是通过采集规则-列表分析规则获取的文章标题,如果该采集规则未再设置标题数据项的分析规则,那么ET将使用此处的文章采集标题作为发布标题,文章采集标题可更改,点击标题后的省略号按钮 可进入编辑状态
状态-发送:当该项值为YES时,表示该篇文章已成功发布
状态-敏感:当该项值为YES时,表示该篇文章正文包含敏感关键词
状态-错误:0表示无错误,其他错误代码含义请参考相关主题
状态-处理:打勾的文章条目表示已经执行过,您可以通过点击取消勾选,使它被再次执行
②、转换显示编码
在文章列表区上点右键,将弹出编码菜单
③、双击执行文章采集;
在上一部分已经讲过,可以在文章列表区,双击某篇文章条目,以执行对它的采集;
④、浏览按钮
点击文章条目的浏览按钮,可以访问该篇文章网址,用于确认网址是否正确、查看网页源代码等
5、认识信息栏
信息栏用于跟踪执行过程、反馈各种信息,是了解ET工作情况、解决采集所遇问题的重要工具,
①、工作记录:
该栏记录ET的每一步工作过程及状态,包括目录采集和文章处理两大部分,我们通过工作记录可以了解该次采集执行是否正确完成,或是出现了什么问题;当出现问题时,可以根据提示、结合信息栏的其他反馈内容,用户可以迅速准确地找到故障原因并予解决。
②、采集源码:
此栏显示执行过程中所采集的文章列表页、文章页面、文章分页等的网页源代码,利用此栏源代码,可以方便的进行规则测试、提供规则定制依据。
注意,某些网站会根据不同来访浏览器而显示不同的源代码,所以,ET的采集规则定制时,应以此栏的源代码为准,例如采集规则范例中的‘SMF 1.1.5’,其网站通过IE访问和ET采集获取到的源码就有区别。
③、分析数据:
此栏显示文章处理过程中的各个数据项信息,从分析到的原始代码,到整理后的代码,再到经过URL修正后的代码,用户通过查看此栏,可以了解设置的数据项分析规则是否准确、整理组规则是否完善、最终的信息是否符合自己的要求。
例如:当工作记录栏提示错误‘正文字数大于或小于发布设置’时,我们可以查看本栏的‘正文’数据项,了解具体是大于还是小于发布设置,原因是正常还是因为整理组设置不当,从而调整各个设置。
④、发送代码
此栏显示ET向发布网站发送的数据,包括文章检查部分和文章发布部分;
用户可以通过此栏信息了解通过一系列分析、整理操作,最终向发布网站提交的数据,用以检查自己的采集规则数据项、发布规则的参数设置等是否正确、完整。
⑤、返回信息
此栏显示ET向发布网站发送数据后发布网站的反馈,包括文章检查反馈和文章发布反馈;
通过查看此栏,我们可以清晰的了解当采集过程出现问题时的大部分原因。
一些接口在返回错误信息时,信息可能是HTML代码,不熟悉HTML代码的用户阅读比较吃力,点击WEB浏览按钮,可以在操作系统默认浏览器中方便的查看它们