Gox语言做网络爬虫之简单的歌词文件提取-GX47.1

Gox语言提供丰富的网络访问库和函数,可以非常方便地进行网页抓取和内容分析提取。下面是一个实际应用中的例子代码,作用是获取几个常见歌词网站上的LRC格式歌词的纯文本内容。

在执行本例子代码之前,需要搜索并获取到包含LRC歌词的网页地址。

本例的代码有两种执行方式,一是标准的Gox脚本的执行方式,并带上参数,例如:

gox lrc.gox -url=http://www.website1.com/lrc0001.html

注意,其中的歌词网址在实际应用中请替换成实际的网址,为避免问题,我们将其修改了。

另一种方式是不带任何参数执行,该代码将在7409端口启动一个web服务器,用任何浏览器访问该地址(http://127.0.0.1:7409),可以看到一个默认网页,在其中的文本框中粘贴歌词网址并点击按钮即可进行歌词内容提取。

下面的就是完整的源代码:

// 测试用的歌词网址
testURL = `https://www.example.com/lrc00003.html`

// 主要函数,用于根据网址采取不同的获取方式来获取其中的有效歌词内容
// 主要是结合正则表达式搜索字符串替换操作来找出歌词并进行清理
// 为避免问题,实际网址都略去,本代码主要是为了示例
func getLrc(urlT) {
    if tk.Contains(urlT, "website1.com") {
        rs = tk.DownloadPageUTF8(urlT, nil, "", 15)
        if isErrStr(rs) {
            return tk.Spr("failed to get url content: %v", getErrStr(rs))
        }

        match = tk.RegFindFirst(rs, `(?sm)<div\s*id="lrc">(.*?)</div>`, 1)

        if isErrStr(match) {
            match = tk.RegFindFirst(rs, `(?sm)<pre\s*id="lrc">(.*?)</pre>`, 1)
    
            match = tk.RegReplace(trim(match), `<br[^>]*?/>`, "")
    
            return match
        }

        return match
    } elif tk.Contains(urlT, "website2") {
        rs = tk.DownloadPageUTF8(urlT, nil, "", 15)
        if isErrStr(rs) {
            return tk.Spr("failed to get url content: %v", getErrStr(rs))
        }

        match = tk.RegFindFirst(rs, `(?sm)<div\s*id="lyricsContainer">(.*?)</div>`, 1)

        match = tk.RegReplace(trim(match), `<br[^>]*?/>`, "")

        return match
    } elif tk.Contains(urlT, "website3.cn") {
        rs = tk.DownloadPageUTF8(urlT, nil, "", 15)
        if isErrStr(rs) {
            return tk.Spr("failed to get url content: %v", getErrStr(rs))
        }

        match = tk.RegFindFirst(rs, `(?sm)<p\s*id="lrc">(.*?)</p>`, 1)

        match = tk.RegReplace(trim(match), `<br[^>]*?/>`, "")

        return match
    } elif tk.Contains(urlT, "website4") {
        rs = tk.DownloadPageUTF8(urlT, nil, "", 15)
        if isErrStr(rs) {
            return tk.Spr("failed to get url content: %v", getErrStr(rs))
        }

        match = tk.RegFindFirst(rs, `(?sm)<div\s*class="displayNone">(.*?)</div>`, 1)

        match = tk.RegReplace(trim(match), `<br[^>]*?/>`, "")

        return match
    } elif tk.Contains(urlT, "website5.com") {
        // 本网站是GB2312编码的网站,不是utf-8的,所以要用tk.DownloadPage函数
        rs = tk.DownloadPage(urlT, "GBK", nil, "", 15)
        if isErrStr(rs) {
            return tk.Spr("failed to get url content: %v", getErrStr(rs))
        }

        match = tk.RegFindFirst(rs, `(?sm)<div\s*class="songEditR">.*?<li>(\[ti:.*?)</li>\s*</ul>\s*</div>`, 1)

        match = tk.RegReplace(trim(match), `<br[^>]*?>`, "\n")

        return match
    }

    return ""
}

// 如果脚本执行时带有-url=website1.com这样的参数,则分析该网址并退出
urlT = getSwitch(argsG, "-url=", "")

if urlT != "" {

    if urlT == "default" {
        urlT = testURL
    }

    pl("%v", getLrc(urlT))

    exit()
}

// 否则启动一个Web服务器,在7409端口监听
// 例如:访问http://127.0.0.1:7409即可进入一个默认网页
// 在其中的文本框中粘贴歌词网址并点击按钮即可进行歌词内容提取
mux = net_http.NewServeMux()

// 默认网页的html代码,使用POST form进行互动
htmlT = `
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<meta http-equiv="content-type" content="text/html; charset=UTF-8" />
<meta name='viewport' content='width=device-width; initial-scale=1.0; maximum-scale=4.0; user-scalable=1;' />
<title></title>
<script type="text/javascript" src="/js/jquery.min.js"></script>
<script>
    $().ready(function() {
    });
</script>
</head>
<body>
<div id="div1">
<form action="/go" method="POST">
<input id="urlID" name="url" value="" />
<input type="submit" name="button" value="go" />
</form>
</div>
</body>
</html>
`

// 在/go网址进行POST form的处理
mux.HandleFunc("/go", fn(w, req) {
    req.ParseForm()

    urlT = tk.GetFormValueWithDefaultValue(req, "url", "")

    if urlT == "" {
        fprintf(w, "empty url")
        return
    }


    fprintf(w, "%v", getLrc(urlT))
})

// 访问web服务器的根路径,则显示默认网页
mux.HandleFunc("/", fn(w, req) {
    fprintf(w, "%v", htmlT)
})

// 在7409端口进行监听
err = net_http.ListenAndServe(":7409", mux)
if err != nil {
    fprintln(os.Stderr, err)
}

注意:

  • Gox语言是脱胎于Go语言(Golang)的开源脚本语言,解释执行,但相比Go语言更贴近高级语言,语法硬性限制也少一些;是一门偏向快速应用的语言,也可以说是一个集成工具;

  • Gox语言主要优势有三点:

    • 第一,Gox语言本身只有一个可执行文件,绿色免配置,下载即可使用,无需安装Go语言环境,无需编译,非常适合快速制作原型以及云服务器上的远程开发;
    • 第二,Gox中可以直接使用绝大多数Go语言标准库中的对象和方法函数,也内置了很多常用、优秀的第三方库,充分发挥Go语言多年积累的资源优势;
    • 第三,与很多其他主流语言不同,Gox语言着力解决了GUI图形界面编程的问题,内置了基于Giu(imgui)、LCL、Sciter的三套图形界面编程库,直接可以进行快捷高效的图形界面开发(LCL、Sciter只需分别下载一个动态链接库文件,执行和分发时附带上即可),特别适合编写演示原型系统。

作为脚本语言,Gox语言性能肯定不如Go语言这样的编译型语言快,但由于Gox语言与Go语言的紧密联系,Gox语言编写的脚本可以很容易的改写成Go语言代码,编译执行后就可以发挥Go语言的速度优势了。因此,Gox语言也比较适合做初期的Go语言调试,还有一个更直接的方式是使用Gotx(在Gox官网上也有下载),这是使用完全和Go语言一样语法的解释器,可以理解成集成了Go语言标准库和不少第三方库的解释执行的Go语言,一样也不需要搭建Go语言环境。Gotx与Gox的区别在于,Gotx仍然遵循Go语言的文法,代码相对复杂一些,限制也多一些,但改写回Go语言准备编译执行时,基本上没有成本。

Gox的官网在这里,也可以在浏览器搜索引擎中直接搜索“gox语言”,Github页面在这里,在这里可以看到很多Gox语言的学习指南和实际应用实例。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268