我稍微改了一下能正确的爬出来了,确实他们的网站进行了一些改版,我把整个网页当成了string就可以爬到了
时间是2020年2月6日有效
func main() {
resp, err := http.Get("http://www.zhenai.com/zhenghun")
if err!=nil{
panic(err)
}
defer resp.Body.Close()
//e:=determinEncoding(resp.Body)
//utf8reader:=transform.NewReader(resp.Body,e.NewDecoder())
if resp.StatusCode!=http.StatusOK{
fmt.Println("err")
return
}
all,err:=ioutil.ReadAll(resp.Body)
if err!=nil{
panic(err)
}
getmatch(string(all))
//fmt.Printf("%s\n",all)
}
func getmatch(contents string){
re:=regexp.MustCompile(`<a href="(http://www.zhenai.com/zhenghun/[a-z0-9]*)"[^>]*>([^<]*)</a>`)
matches:=re.FindAllStringSubmatch(contents,-1)
for _,match:= range matches{
fmt.Println(match[1],match[2])
}
fmt.Println(len(matches))}