TextRazor crawler

TextRazor crawler蜘蛛/爬虫属于工具类型,由TextRazor Ltd.开发运行。您可以继续阅读下方信息,以深入了解TextRazor crawler基本信息,用户代理和访问控制等。

基本信息

TextRazor crawler的基本信息如下表。但部分不是很规范的蜘蛛和爬虫,可能存在信息不明的情况。
蜘蛛/爬虫名称
TextRazor crawler
类型
工具
开发商
TextRazor Ltd.
当前状态
活动

用户代理

关于TextRazor crawler蜘蛛或者爬虫的用户代理字符串,IP地址和服务器,所在地等信息如下表格所示:
TextRazor Downloader
用户代理字符串
TextRazor Downloader (https://www.textrazor.com)
首次出现
2019-04-24 07:41:27
最后出现
2025-01-08 17:26:52
遵循robots.txt
来源
IP地址(767) 服务器名称 所属国家
174.138.60.61 nyc3.squid.digitalocean.19 ?
165.227.76.204 nyc3.squid.digitalocean.19 US
159.203.77.41 nyc3.squid.digitalocean.109 US
157.245.15.63 nyc3.squid.digitalocean.89 US
167.172.236.188 nyc3.squid.digitalocean.58 US
142.93.65.162 nyc3.squid.digitalocean.20 US
167.71.190.170 ? US
165.227.184.10 ? US
165.227.126.192 ? US
134.209.35.223 nyc3.squid.digitalocean.58 US
104.36.18.71 host-71-18-36-104.cloudsigma.net US
104.36.18.40 host-40-18-36-104.cloudsigma.net US
162.213.36.95 host-95-36.213.162.cloudsigma.net US
162.213.37.84 host-84-37.213.162.cloudsigma.net US
104.36.18.11 host-11-18-36-104.cloudsigma.net US
162.213.36.43 host-43-36.213.162.cloudsigma.net US
162.213.37.80 host-80-37.213.162.cloudsigma.net US
104.36.18.208 host-208-18-36-104.cloudsigma.net US
162.213.36.189 host-189-36.213.162.cloudsigma.net US
161.35.184.224 ? US
162.213.37.98 host-98-37.213.162.cloudsigma.net US
162.213.36.63 host-63-36.213.162.cloudsigma.net US
162.213.37.102 three.emailserver8.com US
162.213.37.17 www.thegoodkitchen.com US
162.213.37.62 host-62-37.213.162.cloudsigma.net US
104.36.18.99 host-99-18-36-104.cloudsigma.net US
162.213.36.168 host-168-36.213.162.cloudsigma.net US
104.36.18.152 host-152-18-36-104.cloudsigma.net US
162.213.36.76 host-76-36.213.162.cloudsigma.net US
162.213.37.36 host-36-37.213.162.cloudsigma.net US
104.36.18.151 host-151-18-36-104.cloudsigma.net US
162.213.37.180 host-180-37.213.162.cloudsigma.net ?
104.36.18.243 host-243-18-36-104.cloudsigma.net US
162.213.37.168 host-168-37.213.162.cloudsigma.net US
104.36.18.173 host-173-18-36-104.cloudsigma.net US
162.213.36.61 host-61-36.213.162.cloudsigma.net US
162.213.36.72 host-72-36.213.162.cloudsigma.net US
162.213.37.241 host-241-37.213.162.cloudsigma.net US
162.213.36.51 host-51-36.213.162.cloudsigma.net US
162.213.36.77 host-77-36.213.162.cloudsigma.net US
104.36.18.246 host-246-18-36-104.cloudsigma.net US
162.213.37.147 host-147-37.213.162.cloudsigma.net US
162.213.37.137 zmail.kvadro-impex.ru US
162.213.37.208 mail.projmgmntprofcourse.biz US
104.36.18.163 host-163-18-36-104.cloudsigma.net US
162.213.36.84 host-84-36.213.162.cloudsigma.net US
162.213.36.220 host-220-36.213.162.cloudsigma.net US
104.36.18.232 host-232-18-36-104.cloudsigma.net US
162.213.36.137 host-137-36.213.162.cloudsigma.net US
162.213.36.238 host-238-36.213.162.cloudsigma.net US
162.213.36.54 host-54-36.213.162.cloudsigma.net US
162.213.37.31 host-31-37.213.162.cloudsigma.net US
162.213.37.71 host-71-37.213.162.cloudsigma.net US
162.213.37.34 host-34-37.213.162.cloudsigma.net US
162.213.36.136 mail.gadgetamazin.com US
162.213.37.100 mail.deadseamail.com US
162.213.37.165 host-165-37.213.162.cloudsigma.net US
162.213.36.88 host-88-36.213.162.cloudsigma.net US
162.213.36.126 host-126-36.213.162.cloudsigma.net US
104.36.18.137 host-137-18-36-104.cloudsigma.net US
162.213.37.247 mail.cs-247-365.com US
162.213.36.23 host-23-36.213.162.cloudsigma.net US
162.213.37.212 host-212-37.213.162.cloudsigma.net US
162.213.37.73 host-73-37.213.162.cloudsigma.net US
162.213.37.103 host-103-37.213.162.cloudsigma.net US
162.213.37.93 host-93-37.213.162.cloudsigma.net US
162.213.37.60 arundel01.ldvtech.net US
162.213.37.173 host-173-37.213.162.cloudsigma.net US
162.213.36.129 host-129-36.213.162.cloudsigma.net US
162.213.36.159 host-159-36.213.162.cloudsigma.net US
162.213.37.252 three.emailserver8.com US
162.213.37.51 host-51-37.213.162.cloudsigma.net US
162.213.36.230 host-230-36.213.162.cloudsigma.net US
162.213.37.94 smtp.cti-grp.com US
162.213.36.165 mail.collagenta.com US
162.213.36.102 host-102-36.213.162.cloudsigma.net US
162.213.36.208 host-208-36.213.162.cloudsigma.net US
162.213.36.211 host-211-36.213.162.cloudsigma.net US
162.213.36.30 host-30-36.213.162.cloudsigma.net US
162.213.36.92 host-92-36.213.162.cloudsigma.net US
162.213.36.192 host-192-36.213.162.cloudsigma.net US
162.213.36.70 host-70-36.213.162.cloudsigma.net US
104.36.18.157 host-157-18-36-104.cloudsigma.net US
104.36.18.46 host-46-18-36-104.cloudsigma.net US
104.36.18.73 host-73-18-36-104.cloudsigma.net US
104.36.18.221 host-221-18-36-104.cloudsigma.net ?
162.213.37.38 host-38-37.213.162.cloudsigma.net US
162.213.37.175 host-175-37.213.162.cloudsigma.net US
162.213.37.105 uranus.redcell.ca ?
162.213.37.45 mail.revoluxe.com US
162.213.36.96 host-96-36.213.162.cloudsigma.net US
162.213.37.24 host-24-37.213.162.cloudsigma.net US
162.213.36.161 mail.deadseakit.com US
162.213.36.193 host-193-36.213.162.cloudsigma.net US
162.213.36.55 hosted-by.gshost.co US
162.213.36.107 host-107-36.213.162.cloudsigma.net US
162.213.37.154 host-154-37.213.162.cloudsigma.net US
162.213.37.186 host-186-37.213.162.cloudsigma.net US
162.213.37.188 host-188-37.213.162.cloudsigma.net US
162.213.36.46 host-46-36.213.162.cloudsigma.net US
162.213.36.149 mail.promgetprofcourse.biz US
162.213.36.182 host-182-36.213.162.cloudsigma.net US
162.213.37.81 host-81-37.213.162.cloudsigma.net US
162.213.37.107 host-107-37.213.162.cloudsigma.net US
104.36.18.138 host-138-18-36-104.cloudsigma.net US
162.213.37.37 host-37-37.213.162.cloudsigma.net US
162.213.36.113 host-113-36.213.162.cloudsigma.net US
162.213.36.154 host-154-36.213.162.cloudsigma.net US
104.36.18.159 host-159-18-36-104.cloudsigma.net US
104.36.18.204 mail.perlelux.com US
104.36.18.210 host-210-18-36-104.cloudsigma.net US
162.213.37.54 host-54-37.213.162.cloudsigma.net ?
162.213.36.213 ns5.egaima.net US
162.213.36.130 host-130-36.213.162.cloudsigma.net US
162.213.36.152 mail.lefinissage.com US
162.213.36.235 host-235-36.213.162.cloudsigma.net US
162.213.37.32 host-32-37.213.162.cloudsigma.net US
162.213.36.116 host-116-36.213.162.cloudsigma.net US
104.36.18.141 host-141-18-36-104.cloudsigma.net US
162.213.37.75 host-75-37.213.162.cloudsigma.net US
104.36.18.217 panel01.gbs2u.com US
162.213.37.97 host-97-37.213.162.cloudsigma.net US
162.213.37.33 host-33-37.213.162.cloudsigma.net US
162.213.36.19 host-19-36.213.162.cloudsigma.net US
162.213.37.193 host-193-37.213.162.cloudsigma.net US
104.36.18.161 host-161-18-36-104.cloudsigma.net US
162.213.36.123 host-123-36.213.162.cloudsigma.net US
162.213.37.192 host-192-37.213.162.cloudsigma.net US
162.213.37.50 host-50-37.213.162.cloudsigma.net US
162.213.37.115 host-115-37.213.162.cloudsigma.net US
104.36.18.164 host-164-18-36-104.cloudsigma.net US
104.36.18.185 host-185-18-36-104.cloudsigma.net ?
162.213.37.199 host-199-37.213.162.cloudsigma.net US
162.213.37.239 host-239-37.213.162.cloudsigma.net US
162.213.37.101 host-101-37.213.162.cloudsigma.net US
162.213.37.109 host-109-37.213.162.cloudsigma.net US
104.36.18.206 mail.retinolmd.com US
162.213.36.39 host-39-36.213.162.cloudsigma.net US
162.213.36.144 host-144-36.213.162.cloudsigma.net US
162.213.37.114 host-114-37.213.162.cloudsigma.net US
104.36.18.59 host-59-18-36-104.cloudsigma.net US
162.213.36.176 host-176-36.213.162.cloudsigma.net US
104.36.18.202 mail.shopsophea.com US
162.213.37.234 host-234-37.213.162.cloudsigma.net US
162.213.37.30 host-30-37.213.162.cloudsigma.net US
162.213.37.135 web9.carthostcloud.com US
162.213.36.59 host-59-36.213.162.cloudsigma.net US
162.213.37.65 host-65-37.213.162.cloudsigma.net US
162.213.37.178 host-178-37.213.162.cloudsigma.net ?
162.213.36.187 elara.jtan.com US
162.213.37.43 host-43-37.213.162.cloudsigma.net US
162.213.36.245 host-245-36.213.162.cloudsigma.net US
162.213.36.248 host-248-36.213.162.cloudsigma.net US
104.36.18.226 host-226-18-36-104.cloudsigma.net US
162.213.36.157 host-157-36.213.162.cloudsigma.net US
104.36.18.75 host-75-18-36-104.cloudsigma.net US
162.213.37.172 host-172-37.213.162.cloudsigma.net US
162.213.37.88 mail.mint-e.com US
162.213.37.69 ns1.robomir.net US
104.36.18.56 host-56-18-36-104.cloudsigma.net US
162.213.37.20 host-20-37.213.162.cloudsigma.net US
162.213.36.120 host-120-36.213.162.cloudsigma.net US
162.213.37.35 apex1.apexinformationsolutions.com US
162.213.37.149 uniquelyyourshosting.biz US
104.36.18.13 host-13-18-36-104.cloudsigma.net US
162.213.36.146 ptr.myhostgatepanel.com ?
104.36.18.37 host-37-18-36-104.cloudsigma.net US
162.213.36.194 segaaas.swordfish09.com US
162.213.37.104 host-104-37.213.162.cloudsigma.net US
104.36.18.228 host-228-18-36-104.cloudsigma.net US
162.213.37.40 host-40-37.213.162.cloudsigma.net US
162.213.37.46 host-46-37.213.162.cloudsigma.net US
162.213.37.70 host-70-37.213.162.cloudsigma.net US
162.213.36.26 host-26-36.213.162.cloudsigma.net US
162.213.37.140 host-140-37.213.162.cloudsigma.net US
162.213.36.224 host-224-36.213.162.cloudsigma.net US
162.213.37.91 host-91-37.213.162.cloudsigma.net US
162.213.37.128 host-128-37.213.162.cloudsigma.net US
162.213.37.63 host-63-37.213.162.cloudsigma.net US
104.36.18.42 web.qie.com US
104.36.18.162 host-162-18-36-104.cloudsigma.net US
162.213.36.34 host-34-36.213.162.cloudsigma.net US
162.213.36.41 host-41-36.213.162.cloudsigma.net US
104.36.18.227 host-227-18-36-104.cloudsigma.net US
162.213.36.179 host-179-36.213.162.cloudsigma.net US
162.213.37.141 host-141-37.213.162.cloudsigma.net US
104.36.18.220 host-220-18-36-104.cloudsigma.net US
104.36.18.178 host-178-18-36-104.cloudsigma.net US
162.213.36.45 host-45-36.213.162.cloudsigma.net US
104.36.18.236 host-236-18-36-104.cloudsigma.net US
104.36.18.54 healthybirthing.org US

访问控制

了解如何控制TextRazor crawler访问权限,避免TextRazor crawler抓取行为不当。

是否拦截TextRazor crawler?

可能不需要。工具类型爬虫通常为网站所有者使用此类工具对网站进行相关服务请求才会出现。当然,实际情况需站长判断后再作决定。

通过Robots.txt拦截

您可以通过在网站的 robots.txt 中设置用户代理访问规则来屏蔽 TextRazor crawler 或限制其访问权限。我们建议安装 Spider Analyser 插件,以检查它是否真正遵循这些规则。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
# robots.txt
# 下列代码一般情况可以拦截该代理
User-agent: TextRazor crawler Disallow: /
# robots.txt # 下列代码一般情况可以拦截该代理 User-agent: TextRazor crawler Disallow: /
# robots.txt
	    # 下列代码一般情况可以拦截该代理
	    User-agent: TextRazor crawler        Disallow: /

您无需手动执行此操作,可通过我们的 Wordpress 插件 Spider Analyser 来拦截不必要的蜘蛛或者爬虫。

更多信息

TextRazor总部位于英国伦敦,是一家提供软件的初创公司,帮助开发人员迅速将文本分析纳入其应用程序。他们的工具提供最先进的开箱即用的性能,同时提供定制选项,以帮助优化任何用例。

TextRazor的API正在快速增长,目前每天处理来自一系列垂直领域的数百个应用程序的数百万个请求。主要用例包括社交媒体监测、企业搜索、推荐系统和广告定位。

该公司成立于2011年,自2013年以来,在没有机构投资的情况下,一直在盈利运营。

TextRazor的高性能机器学习堆栈从头开始设计,在不同的写作风格中实现了准确性、速度和稳健性。

在几分钟内整合

TextRazor的API可以很容易地与任何可以发送HTTP请求和解析JSON响应的语言集成,只需几行代码就可以进行强大的文本分析。TextRazor允许你在一个请求中提取任何和所有你需要的信息,将提取的语义元数据连接起来,使识别复杂模式变得容易。

不折不扣的延迟、吞吐量和大可扩展性

只有当你的软件能够跟上它的步伐时,大数据才是有用的。TextRazor从一开始就为性能而设计。TextRazor是用高度优化的C++编写的,每个核心每秒能够处理数千字。我们的分布式后端每天为数以百计的客户处理数千万的文件。

TextRazor的弹性基础设施是建立在亚马逊网络服务云和物理硬件上。TextRazor是为高可用性和性能一致性而设计的,用于分析每天数千、数百万或数十亿的文档。

每日更新

语言总是在变化–我们的模型每天都有新的实体更新,所以你永远不会错过任何重要的东西。我们每个月还会从头开始完全重建我们的模型,以适应语言使用方面的较大变化。

无限的定制

TextRazor允许你添加产品名称、人物、公司、自定义分类规则和高级语言学模式。我们的集成Prolog引擎让你迅速将TextRazor的结果与强大的自定义领域特定逻辑相结合。

你可以在这里阅读更多关于TextRazor的规则引擎。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
% Match two companies in a 'buy' relation.
acquisition_rumor(CompanyA, CompanyB, EntailedWord) :-
entity_type(CompanyA, 'Company'),
entity_type(CompanyB, 'Company'),
relation_overlap(BuyRelation, 'SUBJECT', CompanyA, 'OBJECT', CompanyB),
entailment_overlap(_, BuyRelation, EntailedWord),
member(EntailedWord, ['buy', 'sell', 'acquire']).
% Match two companies in a 'buy' relation. acquisition_rumor(CompanyA, CompanyB, EntailedWord) :- entity_type(CompanyA, 'Company'), entity_type(CompanyB, 'Company'), relation_overlap(BuyRelation, 'SUBJECT', CompanyA, 'OBJECT', CompanyB), entailment_overlap(_, BuyRelation, EntailedWord), member(EntailedWord, ['buy', 'sell', 'acquire']).
% Match two companies in a 'buy' relation.
acquisition_rumor(CompanyA, CompanyB, EntailedWord) :-
    entity_type(CompanyA, 'Company'),
    entity_type(CompanyB, 'Company'),
    relation_overlap(BuyRelation, 'SUBJECT', CompanyA, 'OBJECT', CompanyB),
    entailment_overlap(_, BuyRelation, EntailedWord),
    member(EntailedWord, ['buy', 'sell', 'acquire']).

常见蜘蛛/爬虫

Common Spiders
GoodBarber
GoodBarber蜘蛛/爬虫属于工具类型,由GoodBarber SAS开发运行。您可以继续阅读下方信息,以深入了解GoodBarber基本信息,用户代理和访问控制等。
PWABuilder
PWABuilder蜘蛛/爬虫属于工具类型,由Microsoft Corporation.开发运行。您可以继续阅读下方信息,以深入了解PWABuilder基本信息,用户代理和访问控制等。
webzio
webzio蜘蛛/爬虫属于工具类型,由Webz.io Ltd.开发运行。您可以继续阅读下方信息,以深入了解webzio基本信息,用户代理和访问控制等。
globalping bot
globalping bot蜘蛛/爬虫属于工具类型,由globalping.io开发运行。您可以继续阅读下方信息,以深入了解globalping bot基本信息,用户代理和访问控制等。
Googlebot
GoogleBot蜘蛛/爬虫属于搜索引擎类型,由Google Inc.开发运行。您可以继续阅读下方信息,以深入了解GoogleBot基本信息,用户代理和访问控制等。
Online Domain Tools
Online Domain Tools蜘蛛/爬虫属于监控类型,由AITIS s.r.o.开发运行。您可以继续阅读下方信息,以深入了解Online Domain Tools基本信息,用户代理和访问控制等。
cron-job.org
cron-job.org蜘蛛/爬虫属于工具类型,由B1G Software开发运行。您可以继续阅读下方信息,以深入了解cron-job.org基本信息,用户代理和访问控制等。
WGETbot
WGETbot蜘蛛/爬虫属于工具类型,由Alan Reed开发运行。您可以继续阅读下方信息,以深入了解WGETbot基本信息,用户代理和访问控制等。

相关文章

Related Articles