您的位置 首页 golang

精简Golang Selenium启动Chrome,Cookie到本地,爬取链接

 package main

import (
"encoding/json"
"github.com/antchfx/htmlquery"
"github.com/tebeka/selenium"
"io/ioutil"
"log"
"strings"
"time"
)

func main() {
//设置日志输出格式
log.SetFlags(log.LstdFlags | log.Lshortfile)
//初始化1个chrome服务,端口使用4444
service, err := selenium.NewChromeDriverService("chromedriver.exe", 4444)
if err != nil {
log.Println(err)
return
}
defer service.Stop()
//启动本地chrome浏览器
caps := selenium.Capabilities{}
wd, err := selenium.NewRemote(caps, "#34;)
if err != nil {
log.Println(err)
return
}
defer wd.Quit()
//打开页面
err = wd.Get("#34;)
if err != nil {
log.Println(err)
return
}
for true {
//获取所有的handler
handles, err := wd.WindowHandles()
if err != nil {
log.Println(err)
return
}
//每次都跳转到最后一个handler
err = wd.SwitchWindow(handles[len(handles)-1])
if err != nil {
log.Println(err)
return
}
//获取当前的url地址
currentURL, err := wd.CurrentURL()
if err != nil {
log.Println(err)
return
}
log.Println(currentURL)
//获取cookies
cookies, err := wd.GetCookies()
if err != nil {
log.Println(err)
return
}
//尝试输出看看cookies的信息
for i, cookie := range cookies {
log.Println(i, cookie)
}
//通过json将cookies编码
marshalIndent, err := json.MarshalIndent(cookies, "", "\t")
if err != nil {
log.Println(err)
return
}
log.Println(marshalIndent)
//将cookies编码后的json写入到本地文件
err = ioutil.WriteFile(
"cks.dat",
marshalIndent,
0777,
)
if err != nil {
log.Println(err)
return
}
//通过xpath获取当前页面的a链接
pageSource, err := wd.PageSource()
if err != nil {
log.Println(err)
return
}
newReader := strings.NewReader(pageSource)
parse, err := htmlquery.Parse(newReader)
if err != nil {
log.Println(err)
return
}
nodes := htmlquery.Find(parse, "//a[@href]")
for i, node := range nodes {
log.Println(i, htmlquery.InnerText(node), htmlquery.SelectAttr(node, "href"))
}
time.Sleep(time.Second * 1)
break
}
}
  

文章来源:智云一二三科技

文章标题:精简Golang Selenium启动Chrome,Cookie到本地,爬取链接

文章地址:https://www.zhihuclub.com/87030.shtml

关于作者: 智云科技

热门文章

网站地图