POSIX多线程初步

写在前面
本文内容 本文是我学习 POSIX 多线程编程的一些学习笔记和心得。
所需知识 如果有网友对这篇笔记有兴趣,您需要具备一些操作系统的知识,尤其是处理机调度、进程与线程方面。
阅读时间 大约需要10分钟


进程与线程基本概念简介

进程是程序运行时的一个实例,同一个程序可以有多个实例即多个进程。进程是操作系统进行资源分配(CPU时间片、内存空间等等)的基本单位,进程拥有各自独立的逻辑地址空间。

线程是进程的一个执行流,是操作系统进行处理机调度的基本单位。

凡创建一个进程,其自身就隐含一个“主”线程,额外创建线程时,操作系统调用 clone() 操作克隆出一个与当前进程完全相同的环境,各线程间相互之间共享逻辑地址空间和各类数据、资源,但线程拥有自己独立的栈和局部变量。

这些线程都运行在进程的地址空间中,这意味着如果进程崩溃,该进程下的所有线程都会终止,同样的,线程崩溃同样会造成进程终止。

可以看出,多进程更加安全,一个进程崩溃不会影响其他进程,多线程相对不是那么健壮。但进程间切换时资源耗费比较大,效率相较于多线程会低一些。所以对于一些高并发、高共享的操作,多线程更优。

Pthread 即指 POSIX 多线程,是 UNIX 世界给出的一套操作多线程的系统接口,都在头文件pthread.h中声明。


Pthreads API

Pthreads API 中大致有100个函数调用,可分为一下四类:

  • 线程管理,如:线程创建、线程终止、线程回收等
  • 互斥对象(mutex):包括锁的创建、初始化、锁定、解锁、摧毁等
  • 条件变量:创建、摧毁、等待、通知、设置与查询属性等操作
  • 使用了读写锁的线程间的同步管理

线程管理函数

函数概览(省略参数):
pthread_create() 创建一个新的线程
pthread_exit() 线程自身退出
pthread_join() 阻塞当前线程,知道被等待的线程运行结束并返回
重要的数据类型:
pthread_t 定义 线程句柄,相当于线程ID

注:线程句柄,可以理解为“线程id”,其类型 pthread_t 定义在 pthread.h 中。

线程的创建与终止

线程使用pthread_create()函数创建,其函数原型是:

int pthread_create(pthread_t* tidp, constpthread_attr_t* attr, (void*)(*start_rtn)(void*), void* arg);

系统对最大线程数有限制,所以 pthread_create()可能不成功。若线程创建成功,则返回0。若线程创建失败,则返回出错编号。第一个参数是线程句柄,用于唯一标识一个线程,必须使用已经声明为pthead_t型的变量;第二个参数是线程属性,线程是可以拥有属性的,如果没有属性则使用NULL;第三个参数是线程执行函数,一个线程在执行时必须执行一个函数,就像一个进程必须有一个main()函数一样。这里将需要执行的函数的函数名传递进去就可以了。第四个参数是传给线程的参数,如果线程执行函数是有参数的,则在这里进行传递。

这里需要特别注意两点:

一、线程函数

线程函数包含了线程执行时的所有代码,在定义时应当像下面这样定义:

void *func_thread(void * args) {
    // 这里对 (void *) args 进行强制类型转换
    /* code */
    // 有返回值使用:pthread_exit((void *) returns);
    // 无返回值使用:pthread_exit(NULL);
}
  1. 函数无论有没有参数,都必须接受一个无类型指针。如果确实需要参数,则在函数内部进行参数强制类型转换,将无类型转换成需要的类型。

  2. 函数执行完毕必须使用pthread_exit()进行返回。它的作用是,终止调用它的线程并返回一个指向某个对象的指针。如果有返回值,则使用 pthread_exit((void *) returns) 在返回时将返回值转换成无类型指针型再返回;如果没有返回值,则使用pthread_exit(NULL) 返回空指针。

二、线程函数传参

传给线程的参数必须先转换成void *类型。任何类型的对象都可以赋值给void *,但将void *转换成其他类型则需要进行强制类型转换。其隐含的意思是无类型可以包容有类型,而有类型不能直接包容无类型,因为可能出现不安全的情况,所以需要程序员自己掌控。pthread_create()函数无法得知线程函数需要什么类型的参数,所以使用无类型指针,表示可以传进任何类型的参数。void *指针指向参数的地址,之后在线程函数内部对参数类型进行强制类型转换。

线程合并

进程有父进程,子进程的层次关系,而线程无论是创建者还是被创建者都不具有层次关系,线程之间的地位是平等的。造成的结果之一就是对于进程而言,子进程必须由父进程合并,而线程可以由其他任意线程合并。

线程合并使用pthread_join(tid) 函数。其函数原型为:

int pthread_join(pthread_t thread, void **retval);

该函数的作用是等待由pthread_t thread所指定的线程终止后,回收其所有资源,如果线程有返回值,则存储在void **retval中。

线程操作综合示例

#include <stdio.h>
#include <stdlib.h>
#include <pthread.h>
#include <unistd.h>
#include <string.h>
 
void printids(const char *s)
{
    pid_t pid;         //声明进程句柄
    pthread_t tid;     //声明线程句柄
    pid = getpid();    //该函数获得当前进程句柄
    tid = pthread_self();    //该函数获得当前线程句柄
    printf("%s pid %u tid %u (0x%x)\n", s, (unsigned int) pid,
            (unsigned int) tid, (unsigned int) tid);
}
 
void *thr_fn(void *arg)    //线程函数,无类型参数,无类型返回值
{
    printids("new thread: ");
    pthread_exit(NULL);    //线程终止,无返回值
}
 
int main(void)
{
    int err;
    pthread_t ntid;    // 声明线程句柄
    err = pthread_create(&ntid, NULL, thr_fn, NULL);    // 四个参数:线程句柄,线程属性(无),线程函数,线程参数(无)
    if (err)   //如果pthread_create返回值不为0,即创建线程失败
        printf("can't create thread: %s\n", strerror(err));
    printids("main thread:");
    pthread_join(ntid,NULL);    // 回收 ntid 线程
    return 0;
}

POSIX 多线程编译时需要使用-lpthread参数,用以链接 POSIX 多线程库,作者在自己电脑上编译运行结果如下:

$ gcc -lpthread pthread_test.c 
$ ./a.out 
main thread: pid 9331 tid 4218988288 (0xfb78a700)
new thread:  pid 9331 tid 4210870016 (0xfafcc700)

互斥对象

同一进程下的所有线程都是共享进程的地址空间和其他共享资源的,当多个线程共同操作一个数据时,就可能会存在数据一致性问题。别担心,POSIX 多线程库为我们提供了互斥对象用于线程之间互斥地访问互斥资源。

pthread_mutex_t mymutex 用于声明一个互斥对象,互斥对象用于提供给程序一种互斥地访问共享数据的机制,保证数据一致性。当一个线程要访问一个共享资源时,必须先使用pthread_mutex_lock()对其上锁,访问结束后,必须使用pthread_mutex_unlock()释放锁。被上锁的数据其他线程将无法访问,如果发现资源已经上锁则线程会被阻塞。

  • 上锁函数原型:int pthread_mutex_lock(pthread_mutex_t * mutex)
  • 解锁函数原型:int pthread_mutex_unlock(pthread_mutex_t * mutex)
  • 两个函数成功返回0,失败返回错误代码

锁定某个互斥对象时,也可以使用pthread_mutex_trylock(pthread_mutexattr_t * mutex)。上锁之前该函数先检测互斥对象,如果没有被锁定,则对其上锁,如果已经被锁定,则返回一个非0EBUSY错误值,但线程并不会阻塞,可以做其他事。

互斥对象声明后要对其进行初始化,分为静态初始化和动态初始化:

  • 静态初始化:在对互斥对象进行声明时直接赋值:
pthread_mutex_t mymutex = PTHREAD_MUTEX_INITIALIZER

PTHREAD_MUTEX_INITIALIZER是在pthread.h中定义的一个常量。

  • 动态初始化:当代码使用malloc()来分配一个新的互斥对象时,静态初始化方法将不可用,需要使用pthread_mutex_init()来动态初始化。该函数的原型是:
int pthread_mutex_init(pthread_mutex_t * mymutex, const pthread_mutexattr_t * attr)

初始化成功返回0,第二个参数是用来设置互斥对象的属性的。这里需要说明,互斥对象是有属性的,但一般情况下并不需要,所以很多时候*attr都为NULL

使用pnthread_mutex_init()来初始化一个互斥对象,则最后必须用pthread_mutex_destory()来销毁它,释放互斥对象所占用的资源。这类似于 C++ 里面,我们用new创建一个对象后,最后需要用delete来销毁它。其原型为:

int pthread_mutex_destory(pthread_mutex_t * mymutex)

销毁mymutex所指向的互斥对象,成功返回0


互斥对象数量的设置要合理:如果过多,将会导致并发性变差,甚至运行速度比串行还低;如果过少,则有可能保证数据一致性。

要达到互斥对象数量的合理,则应遵循原则为:

  1. 互斥对象用来互斥访问“共享数据”,不要对非共享数据使用互斥对象。
  2. 如果程序逻辑上能够确保任何时候都只有一个线程能存取特定数据结构,那么也不要使用互斥对象。
  3. 访问共享数据时,无论是读或写,都应使用互斥对象。
  4. 学会从线程的角度审视代码,并确保程序中每一个线程对内存的观点都是一致和合适的。

版权声明 自由转载 - 保持署名 - 不可商用 - 不可演绎 (CC3.0 创意共享3.0许可证

推荐阅读更多精彩内容

  • 一、线程的创建和调度 1.线程是程序执行的某一条指令流的映像。 为了进一步减少处理机制的空转时间,支持多处理器及减...
    穹蓝奥义阅读 943评论 2 5
  • 引用自多线程编程指南应用程序里面多个线程的存在引发了多个执行线程安全访问资源的潜在问题。两个线程同时修改同一资源有...
    Mitchell阅读 1,510评论 1 7
  • 简介 线程创建 线程属性设置 线程参数传递 线程优先级 线程的数据处理 线程的分离状态 互斥锁 信号量 一 线程创...
    壹号T馆阅读 5,069评论 1 6
  • 1'今天第一次使用简书,吴老师教我使用方法,王老师帮我下载,陈老师还问我简书下载好了没有,这么多人关心我,温馨!2...
    苗杉阅读 79评论 0 0
  • 这个月看的两本书《启示录》和《淘宝十年产品事》,会有一点巧妙的联系。两本书的作者(译者)都有同样的一个人,苏杰。倒...
    小岛穿洋阅读 305评论 0 2