Gox语言做网络爬虫之简单的歌词文件提取-GX47.1

Gox语言提供丰富的网络访问库和函数,可以非常方便地进行网页抓取和内容分析提取。下面是一个实际应用中的例子代码,作用是获取几个常见歌词网站上的LRC格式歌词的纯文本内容。

在执行本例子代码之前,需要搜索并获取到包含LRC歌词的网页地址。

本例的代码有两种执行方式,一是标准的Gox脚本的执行方式,并带上参数,例如:

gox lrc.gox -url=http://www.website1.com/lrc0001.html

注意,其中的歌词网址在实际应用中请替换成实际的网址,为避免问题,我们将其修改了。

另一种方式是不带任何参数执行,该代码将在7409端口启动一个web服务器,用任何浏览器访问该地址(http://127.0.0.1:7409),可以看到一个默认网页,在其中的文本框中粘贴歌词网址并点击按钮即可进行歌词内容提取。

下面的就是完整的源代码:

// 测试用的歌词网址
testURL = `https://www.example.com/lrc00003.html`

// 主要函数,用于根据网址采取不同的获取方式来获取其中的有效歌词内容
// 主要是结合正则表达式搜索字符串替换操作来找出歌词并进行清理
// 为避免问题,实际网址都略去,本代码主要是为了示例
func getLrc(urlT) {
    if tk.Contains(urlT, "website1.com") {
        rs = tk.DownloadPageUTF8(urlT, nil, "", 15)
        if isErrStr(rs) {
            return tk.Spr("failed to get url content: %v", getErrStr(rs))
        }

        match = tk.RegFindFirst(rs, `(?sm)<div\s*id="lrc">(.*?)</div>`, 1)

        if isErrStr(match) {
            match = tk.RegFindFirst(rs, `(?sm)<pre\s*id="lrc">(.*?)</pre>`, 1)
    
            match = tk.RegReplace(trim(match), `<br[^>]*?/>`, "")
    
            return match
        }

        return match
    } elif tk.Contains(urlT, "website2") {
        rs = tk.DownloadPageUTF8(urlT, nil, "", 15)
        if isErrStr(rs) {
            return tk.Spr("failed to get url content: %v", getErrStr(rs))
        }

        match = tk.RegFindFirst(rs, `(?sm)<div\s*id="lyricsContainer">(.*?)</div>`, 1)

        match = tk.RegReplace(trim(match), `<br[^>]*?/>`, "")

        return match
    } elif tk.Contains(urlT, "website3.cn") {
        rs = tk.DownloadPageUTF8(urlT, nil, "", 15)
        if isErrStr(rs) {
            return tk.Spr("failed to get url content: %v", getErrStr(rs))
        }

        match = tk.RegFindFirst(rs, `(?sm)<p\s*id="lrc">(.*?)</p>`, 1)

        match = tk.RegReplace(trim(match), `<br[^>]*?/>`, "")

        return match
    } elif tk.Contains(urlT, "website4") {
        rs = tk.DownloadPageUTF8(urlT, nil, "", 15)
        if isErrStr(rs) {
            return tk.Spr("failed to get url content: %v", getErrStr(rs))
        }

        match = tk.RegFindFirst(rs, `(?sm)<div\s*class="displayNone">(.*?)</div>`, 1)

        match = tk.RegReplace(trim(match), `<br[^>]*?/>`, "")

        return match
    } elif tk.Contains(urlT, "website5.com") {
        // 本网站是GB2312编码的网站,不是utf-8的,所以要用tk.DownloadPage函数
        rs = tk.DownloadPage(urlT, "GBK", nil, "", 15)
        if isErrStr(rs) {
            return tk.Spr("failed to get url content: %v", getErrStr(rs))
        }

        match = tk.RegFindFirst(rs, `(?sm)<div\s*class="songEditR">.*?<li>(\[ti:.*?)</li>\s*</ul>\s*</div>`, 1)

        match = tk.RegReplace(trim(match), `<br[^>]*?>`, "\n")

        return match
    }

    return ""
}

// 如果脚本执行时带有-url=website1.com这样的参数,则分析该网址并退出
urlT = getSwitch(argsG, "-url=", "")

if urlT != "" {

    if urlT == "default" {
        urlT = testURL
    }

    pl("%v", getLrc(urlT))

    exit()
}

// 否则启动一个Web服务器,在7409端口监听
// 例如:访问http://127.0.0.1:7409即可进入一个默认网页
// 在其中的文本框中粘贴歌词网址并点击按钮即可进行歌词内容提取
mux = net_http.NewServeMux()

// 默认网页的html代码,使用POST form进行互动
htmlT = `
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<meta http-equiv="content-type" content="text/html; charset=UTF-8" />
<meta name='viewport' content='width=device-width; initial-scale=1.0; maximum-scale=4.0; user-scalable=1;' />
<title></title>
<script type="text/javascript" src="/js/jquery.min.js"></script>
<script>
    $().ready(function() {
    });
</script>
</head>
<body>
<div id="div1">
<form action="/go" method="POST">
<input id="urlID" name="url" value="" />
<input type="submit" name="button" value="go" />
</form>
</div>
</body>
</html>
`

// 在/go网址进行POST form的处理
mux.HandleFunc("/go", fn(w, req) {
    req.ParseForm()

    urlT = tk.GetFormValueWithDefaultValue(req, "url", "")

    if urlT == "" {
        fprintf(w, "empty url")
        return
    }


    fprintf(w, "%v", getLrc(urlT))
})

// 访问web服务器的根路径,则显示默认网页
mux.HandleFunc("/", fn(w, req) {
    fprintf(w, "%v", htmlT)
})

// 在7409端口进行监听
err = net_http.ListenAndServe(":7409", mux)
if err != nil {
    fprintln(os.Stderr, err)
}

注意:

  • Gox语言是脱胎于Go语言(Golang)的开源脚本语言,解释执行,但相比Go语言更贴近高级语言,语法硬性限制也少一些;是一门偏向快速应用的语言,也可以说是一个集成工具;

  • Gox语言主要优势有三点:

    • 第一,Gox语言本身只有一个可执行文件,绿色免配置,下载即可使用,无需安装Go语言环境,无需编译,非常适合快速制作原型以及云服务器上的远程开发;
    • 第二,Gox中可以直接使用绝大多数Go语言标准库中的对象和方法函数,也内置了很多常用、优秀的第三方库,充分发挥Go语言多年积累的资源优势;
    • 第三,与很多其他主流语言不同,Gox语言着力解决了GUI图形界面编程的问题,内置了基于Giu(imgui)、LCL、Sciter的三套图形界面编程库,直接可以进行快捷高效的图形界面开发(LCL、Sciter只需分别下载一个动态链接库文件,执行和分发时附带上即可),特别适合编写演示原型系统。

作为脚本语言,Gox语言性能肯定不如Go语言这样的编译型语言快,但由于Gox语言与Go语言的紧密联系,Gox语言编写的脚本可以很容易的改写成Go语言代码,编译执行后就可以发挥Go语言的速度优势了。因此,Gox语言也比较适合做初期的Go语言调试,还有一个更直接的方式是使用Gotx(在Gox官网上也有下载),这是使用完全和Go语言一样语法的解释器,可以理解成集成了Go语言标准库和不少第三方库的解释执行的Go语言,一样也不需要搭建Go语言环境。Gotx与Gox的区别在于,Gotx仍然遵循Go语言的文法,代码相对复杂一些,限制也多一些,但改写回Go语言准备编译执行时,基本上没有成本。

Gox的官网在这里,也可以在浏览器搜索引擎中直接搜索“gox语言”,Github页面在这里,在这里可以看到很多Gox语言的学习指南和实际应用实例。