golang单任务爬虫 - 获取珍爱网城市 url 列表
点赞
1

golang 爬虫

main.go

package main

import (
    "fmt"
    "io/ioutil"
    "net/http"
    "golang.org/x/text/transform"
    "io"
    "golang.org/x/text/encoding"
    "golang.org/x/net/html/charset"
    "bufio"
    "regexp"
)

func main() {
    resp, err := http.Get(
        "http://www.zhenai.com/zhenghun")

    //Todo 异常处理
    if err != nil {
        panic(err)
    }

    defer resp.Body.Close()

    if resp.StatusCode != http.StatusOK {
        fmt.Printf("Error: status code",
            resp.StatusCode)
        return
    }

    //Todo  编码处理
    e := determineEncoding(resp.Body)

    utf8Reader := transform.NewReader(resp.Body, e.NewDecoder())

    all, err := ioutil.ReadAll(utf8Reader)

    if err != nil {
        panic(err)
    }

    printCityList(all)
}

func determineEncoding(r io.Reader) encoding.Encoding {

    bytes, err := bufio.NewReader(r).Peek(1024)

    if err != nil {
        panic(err)
    }

    e, _, _ := charset.DetermineEncoding(bytes , "")

    return e
}

/**
     正则匹配所有 url
 */
func printCityList(contents []byte) {
    re := regexp.MustCompile(`<a href="(http://www.zhenai.com/zhenghun/[0-9a-z]+)"[^>]*>([^<]+)</a>`)
    matches := re.FindAllSubmatch(contents,-1)

    for _,m := range matches {
        fmt.Printf("City: %s Url : %s\n",
            m[2],m[1])
    }

    fmt.Printf("Matches found: %d\n",
        len(matches))
}

file

评论数量: 0

游客 游客

1
点赞
1562
浏览
0
评论

贡献 198
JeffreyBool
程序员是一条不归路,当我走上这条路我并不后悔,因为我认识了许多帮助我的朋友。热爱生活,热爱code!