Gox语言做网络爬虫之简单的歌词文件提取-GX47.1

Gox语言提供丰富的网络访问库和函数，可以非常方便地进行网页抓取和内容分析提取。下面是一个实际应用中的例子代码，作用是获取几个常见歌词网站上的LRC格式歌词的纯文本内容。

在执行本例子代码之前，需要搜索并获取到包含LRC歌词的网页地址。

本例的代码有两种执行方式，一是标准的Gox脚本的执行方式，并带上参数，例如：

gox lrc.gox -url=http://www.website1.com/lrc0001.html

注意，其中的歌词网址在实际应用中请替换成实际的网址，为避免问题，我们将其修改了。

另一种方式是不带任何参数执行，该代码将在7409端口启动一个web服务器，用任何浏览器访问该地址（http://127.0.0.1:7409），可以看到一个默认网页，在其中的文本框中粘贴歌词网址并点击按钮即可进行歌词内容提取。

下面的就是完整的源代码：

// 测试用的歌词网址
testURL = `https://www.example.com/lrc00003.html`

// 主要函数，用于根据网址采取不同的获取方式来获取其中的有效歌词内容
// 主要是结合正则表达式搜索字符串替换操作来找出歌词并进行清理
// 为避免问题，实际网址都略去，本代码主要是为了示例
func getLrc(urlT) {
    if tk.Contains(urlT, "website1.com") {
        rs = tk.DownloadPageUTF8(urlT, nil, "", 15)
        if isErrStr(rs) {
            return tk.Spr("failed to get url content: %v", getErrStr(rs))
        }

        match = tk.RegFindFirst(rs, `(?sm)<div\s*id="lrc">(.*?)</div>`, 1)

        if isErrStr(match) {
            match = tk.RegFindFirst(rs, `(?sm)<pre\s*id="lrc">(.*?)</pre>`, 1)
    
            match = tk.RegReplace(trim(match), `<br[^>]*?/>`, "")
    
            return match
        }

        return match
    } elif tk.Contains(urlT, "website2") {
        rs = tk.DownloadPageUTF8(urlT, nil, "", 15)
        if isErrStr(rs) {
            return tk.Spr("failed to get url content: %v", getErrStr(rs))
        }

        match = tk.RegFindFirst(rs, `(?sm)<div\s*id="lyricsContainer">(.*?)</div>`, 1)

        match = tk.RegReplace(trim(match), `<br[^>]*?/>`, "")

        return match
    } elif tk.Contains(urlT, "website3.cn") {
        rs = tk.DownloadPageUTF8(urlT, nil, "", 15)
        if isErrStr(rs) {
            return tk.Spr("failed to get url content: %v", getErrStr(rs))
        }

        match = tk.RegFindFirst(rs, `(?sm)<p\s*id="lrc">(.*?)</p>`, 1)

        match = tk.RegReplace(trim(match), `<br[^>]*?/>`, "")

        return match
    } elif tk.Contains(urlT, "website4") {
        rs = tk.DownloadPageUTF8(urlT, nil, "", 15)
        if isErrStr(rs) {
            return tk.Spr("failed to get url content: %v", getErrStr(rs))
        }

        match = tk.RegFindFirst(rs, `(?sm)<div\s*class="displayNone">(.*?)</div>`, 1)

        match = tk.RegReplace(trim(match), `<br[^>]*?/>`, "")

        return match
    } elif tk.Contains(urlT, "website5.com") {
        // 本网站是GB2312编码的网站，不是utf-8的，所以要用tk.DownloadPage函数
        rs = tk.DownloadPage(urlT, "GBK", nil, "", 15)
        if isErrStr(rs) {
            return tk.Spr("failed to get url content: %v", getErrStr(rs))
        }

        match = tk.RegFindFirst(rs, `(?sm)<div\s*class="songEditR">.*?<li>(\[ti:.*?)</li>\s*</ul>\s*</div>`, 1)

        match = tk.RegReplace(trim(match), `<br[^>]*?>`, "\n")

        return match
    }

    return ""
}

// 如果脚本执行时带有-url=website1.com这样的参数，则分析该网址并退出
urlT = getSwitch(argsG, "-url=", "")

if urlT != "" {

    if urlT == "default" {
        urlT = testURL
    }

    pl("%v", getLrc(urlT))

    exit()
}

// 否则启动一个Web服务器，在7409端口监听
// 例如：访问http://127.0.0.1:7409即可进入一个默认网页
// 在其中的文本框中粘贴歌词网址并点击按钮即可进行歌词内容提取
mux = net_http.NewServeMux()

// 默认网页的html代码，使用POST form进行互动
htmlT = `
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<meta http-equiv="content-type" content="text/html; charset=UTF-8" />
<meta name='viewport' content='width=device-width; initial-scale=1.0; maximum-scale=4.0; user-scalable=1;' />
<title></title>
<script type="text/javascript" src="/js/jquery.min.js"></script>
<script>
    $().ready(function() {
    });
</script>
</head>
<body>
<div id="div1">
<form action="/go" method="POST">
<input id="urlID" name="url" value="" />
<input type="submit" name="button" value="go" />
</form>
</div>
</body>
</html>
`

// 在/go网址进行POST form的处理
mux.HandleFunc("/go", fn(w, req) {
    req.ParseForm()

    urlT = tk.GetFormValueWithDefaultValue(req, "url", "")

    if urlT == "" {
        fprintf(w, "empty url")
        return
    }


    fprintf(w, "%v", getLrc(urlT))
})

// 访问web服务器的根路径，则显示默认网页
mux.HandleFunc("/", fn(w, req) {
    fprintf(w, "%v", htmlT)
})

// 在7409端口进行监听
err = net_http.ListenAndServe(":7409", mux)
if err != nil {
    fprintln(os.Stderr, err)
}

注意：

Gox语言是脱胎于Go语言（Golang）的开源脚本语言，解释执行，但相比Go语言更贴近高级语言，语法硬性限制也少一些；是一门偏向快速应用的语言，也可以说是一个集成工具；
Gox语言主要优势有三点：
- 第一，Gox语言本身只有一个可执行文件，绿色免配置，下载即可使用，无需安装Go语言环境，无需编译，非常适合快速制作原型以及云服务器上的远程开发；
- 第二，Gox中可以直接使用绝大多数Go语言标准库中的对象和方法函数，也内置了很多常用、优秀的第三方库，充分发挥Go语言多年积累的资源优势；
- 第三，与很多其他主流语言不同，Gox语言着力解决了GUI图形界面编程的问题，内置了基于Giu（imgui）、LCL、Sciter的三套图形界面编程库，直接可以进行快捷高效的图形界面开发（LCL、Sciter只需分别下载一个动态链接库文件，执行和分发时附带上即可），特别适合编写演示原型系统。

作为脚本语言，Gox语言性能肯定不如Go语言这样的编译型语言快，但由于Gox语言与Go语言的紧密联系，Gox语言编写的脚本可以很容易的改写成Go语言代码，编译执行后就可以发挥Go语言的速度优势了。因此，Gox语言也比较适合做初期的Go语言调试，还有一个更直接的方式是使用Gotx（在Gox官网上也有下载），这是使用完全和Go语言一样语法的解释器，可以理解成集成了Go语言标准库和不少第三方库的解释执行的Go语言，一样也不需要搭建Go语言环境。Gotx与Gox的区别在于，Gotx仍然遵循Go语言的文法，代码相对复杂一些，限制也多一些，但改写回Go语言准备编译执行时，基本上没有成本。

Gox的官网在这里，也可以在浏览器搜索引擎中直接搜索“gox语言”，Github页面在这里，在这里可以看到很多Gox语言的学习指南和实际应用实例。