BoardReader crawler BoardReader crawler

蜘蛛/爬虫名称
BoardReader crawler
开发商
Effyis, Inc.
官网
boardreader.com
当前状态
活动
  • BoardReader Favicon Fetcher /1.0
  • BoardReader Blog Indexer
用户代理字符串
BoardReader Favicon Fetcher /1.0 info@boardreader.com
类型
工具
首次出现
2016-01-20 10:25:00
最后出现
2021-05-02 09:47:48
遵循robots.txt
IP地址
16
来源
IP地址 服务器名称 所属国家
199.16.185.50 spider17.boardreader.com US
208.64.38.178 208.64.38.178 US
204.11.34.42 spider12.boardreader.com US
199.16.186.106 spider20.boardreader.com US
208.92.221.106 spider16.boardreader.com US
199.16.185.58 spider18.boardreader.com US
208.64.39.178 spider7.boardreader.com US
199.16.189.154 spider36.boardreader.com US
208.92.218.134 spider39.boardreader.com US
208.92.221.98 spider15.boardreader.com US
用户代理字符串
BoardReader Blog Indexer(http://boardreader.com)
类型
首次出现
2017-11-25 14:52:13
最后出现
2017-11-25 14:52:13
遵循robots.txt
IP地址
1
来源
IP地址 服务器名称 所属国家
208.64.38.178 208.64.38.178 US

BoardReader crawler抓取BoardReader网络服务所收集的社交媒体数据。BoardReader是一个应用程序,它从互联网上的多个社交媒体来源聚集数据。

为了运行BoardReader crawler,你需要一个BoardReader API密钥。联系BoardReader以获得该密钥。

创建爬虫:BoardReader screen是你输入该爬虫配置参数的地方。

爬虫属性

Crawler name:爬虫的名称。允许使用字母数字字符、连字符、下划线和空格。

Crawler description:对爬虫的描述。

Advanced options:

  • 检索请求之间的等待时间:该时间以毫秒表示。
  • 活动爬虫线程的最大数量
  • 最大的文档大小:以千字节表示的最大尺寸。最大值为131,071千字节。
  • 爬虫会话开始时:指定要抓取哪些内容。

数据源属性

BoardReader许可证密钥:BoardReader许可证密钥,用于调用BoardReader API。

抓取持续时间:选择抓取持续时间。

开始日期:抓取的持续时间开始日期。

结束日期:要抓取的持续时间结束日期。

持续时间类型:选择抓取的持续时间类型。该选项仅在指定期限的当前时间被选为抓取期限时显示。

持续时间段:抓取持续时间段的数量。该选项仅在指定期限的当前时间被选为 “抓取期限 “时显示。

域条件:要抓取的社会媒体的域列表。

查询条件:BoardReader用来限制抓取内容的数量的查询。爬虫应用布尔OR逻辑来组合多个查询。

BoardReader API参数:BoardReader的API参数。例如,filter_language=ja&filter_country=jp将抓取的内容限制在源自日本的日语文档。

默认时区:默认时区,用于将日期字符串值解析为纪元时间。

时区列表:指定的时区,用于解析从相应域名抓取的日期字符串值。例如,*fr.yahoo.com=WET。

代理服务器主机名称:代理服务器的主机名。

代理服务器端口:代理服务器的端口。

代理服务器的用户ID:访问代理服务器的用户名。

代理服务器的密码:访问代理服务器的用户的密码。

爬虫空间属性

您可以为一个BoardReader crawler找到并添加多个爬虫空间。有关说明,请参阅在BoardReader爬虫中查找和添加爬虫空间

爬虫插件

数据源爬虫插件是Java™应用程序,可以改变爬行文档的内容或元数据。你可以为所有非网络爬虫类型配置一个数据源爬虫插件。欲了解更多信息,请参阅爬虫插件

  • 启用爬虫插件:当您使用爬虫插件时,请启用此选项。
  • 插件类别名称:爬虫插件的类名。
  • 插件类的路径:爬虫插件的JAR文件位置。包含JAR文件的文件夹必须被挂载,以便它可以使用。欲了解更多信息,请参阅从Watson Explorer oneWEX提供对本地文件系统的访问

常见问题

FAQs
查看更多 >