用R提取PDF文本并创建整洁的数据

title: [Extracting PDF Text with R and Creating Tidy Data]
author: 富士山下裸奔
date: 2018.4.10.

江苏·太湖

前言:

在当今的数字时代,数据有多种形式。许多常见的文件类型,如CSV、XLSX和纯文本(TXT)都很容易访问和管理。然而,有时候,我们需要的数据被锁定在文件格式中,这种格式不太容易访问,比如PDF。如果你发现自己处于这种困境,不要担心——pdftools包帮你解决难题。

pdf数据

在这篇文章中,您将学习如何:使用pdftools从PDF中提取文本,使用stringr包来操作字符串的文本,并创建一个整洁的数据集。数据来源来自加州大学男子篮球队的统计数据

最后,我将会创建一个显示赛季统计数据的tibble,包括每个球员的上场时间、投篮命中率、总得分和平均每场得分。

step 1

是加载所需的R包。stringr 包是R包的tidyverse集合中的一个成员中的一个,其中的软件包旨在使数据科学变得容易。我强烈推荐Hadley WickhamGarrett Grolemund编写的R for Data Science。对于初学者来说,这是一本很棒的书,对于更高级的程序员来说,这也是一个口袋参考。

library(pdftools)
library(tidyverse)

step 2

下一步将使用pdf_text命令来读取文件的文本,创建新对象UC_text, read_lines()函数读取文件的行。

UC_text <- pdf_text("./data/UC_stats.pdf") %>% 
    readr::read_lines()
head(UC_text)

把重点放在球员的赛季统计上,这是我们文件的第6行到第24行。第6行包含我们生成的数据的列名,将数据框命名为season_stats

season_stats <- UC_text[6:24]
head(season_stats)

step 3

在接下来的一系列步骤中,将使用 stringr·包中的函数来将文本行转换成一个理想的形式。处理的第一个问题是每一行文本中不同元素之间的空白。str_squish()函数的作用是:减少每个字符串之间的重复空格。还需要删除每个玩家的名字和名字之间的逗号。将使用str_replace_all()来删除逗号。

str_squish()str_trim().用法如下:

str_trim() removes whitespace from start and end of string
str_squish() also reduces repeated whitespace inside a string

str_trim("  String\t")  #String 
str_squish("\n\nString     with\n\n") #String with

在删除了空格和逗号之后,我可以把重点放在分离每个元素上。我将使用strsplt()将每个字符串的元素拆分为子字符串。

all_stats_lines <- season_stats[1:16] %>% 
    str_squish() %>% 
    str_replace_all(",", "") %>% 
    strsplit(split = " ")
head(all_stats_lines)

all_stats_lines对象的结构是一个列表。现在关注第一个元素,它将是数据框的列名。这里有两个问题:1.有三个元素被命名为“avg”2.)只有一个元素被命名为Player,但是每个玩家的名字都被分成两列(我稍后会修正)。现在,我将重点讨论更改列名。我将使用unlist()将第一个元素和转换列表设置为一个字符向量。一旦我将它们转换回字符向量,可以很容易地将新值赋给我们的列名。

var_lines <- all_stats_lines[1] %>% 
    unlist()
var_lines

var_lines的第5个、第15个和第23个元素都被命名为avg。根据矢量(和一些篮球技术)的前面元素,我们可以推断出这些元素分别代表平均上场时间、平均篮板数和平均得分。我将重命名这些元素,' avg_min ', ' avg_min ', ' avg_pts '

var_lines[c(5, 15, 23)] <- c("avg_min", "avg_reb", "avg_pts")
str(var_lines)
var_lines

step 4

下一个主要障碍是将球员统计数据转换成一个数据框。我将在plyr 包中使用ldply()函数,该函数将一个函数应用于列表中的每个元素,并将结果合并到一个数据框中。

stats_lines <- all_stats_lines[2:16]
head(stats_lines)

现在是时候回到玩家名字的问题上来了。请记住,列名称的数量与篮球统计数据的列不一致,因为在stats_df对象中每个参与者的名称都是由两个列(“V1”和“V2”)分隔的。

为了将这些列与每个参与者的名字和名字组合起来,将使用unite()函数

Unite multiple columns into one.

`Description`

Convenience function to paste together multiple columns into one.

Usage

unite(data, col, ..., sep = "_", remove = TRUE)
stats_df <- plyr::ldply(stats_lines) %>% 
    unite(v2v2, V2, V3, sep = ",")
head(stats_df)
colnames(stats_df) <- var_lines
head(stats_df)

现在我们的列终于对齐了,我终于可以组装最终的数据框架了。第一步是使用colnames()附加列名。我想把我最后的数据帧转换成一个小块。有很多理由可以让你的生活成为一个数据科学家的生活。其中之一就是tibbles容易处理non-syntactic 变量。为了引用non-syntactic变量,它们必须在backticks中被包围。

Find_DF <- as.tibble(stats_df) %>% 
    select("##", Player, min,"fg%", pts, avg_pts)
head(Find_DF)
results.png

现在有了一个干净整洁的最终数据集,可以进行分析、可视化或导出。
参考文献:
https://www.r-bloggers.com/extracting-pdf-text-with-r-and-creating-tidy-data/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,585评论 4 365
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,923评论 1 301
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 110,314评论 0 248
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,346评论 0 214
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,718评论 3 291
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,828评论 1 223
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,020评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,758评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,486评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,722评论 2 251
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,196评论 1 262
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,546评论 3 258
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,211评论 3 240
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,132评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,916评论 0 200
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,904评论 2 283
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,758评论 2 274

推荐阅读更多精彩内容