• Open-Hours:10 am to 7pm
  • info@themeansar.com

分类: java

java多线程的深入理解以及原理解读

一. 为什么需要多线程

这个问题是给基础不扎实的人提的;
原因一首先提一下QPS计算公式(并发数/响应时间(s)),使用多线程就是提升并发数,换句话说就是为了提升QPS;那么多线程越多是不是QPS就越高性能就越好呢?当然不是,分子虽然提高了,但是分母也增大了;多线程的使用会在CPU上开辟一个时间片,会增加上下文切换的耗时;因此多线程也不是越多越好
原因二大部分项目当中如果使用单线程,那么从一个请求进来到响应,只有协议解析和响应后数据处理占用了CPU(先不考虑计算型服务),那么请求发送到服务后,CPU一直处于闲置状态,等待IO/磁盘处理结束;引入多线程后,当程序处理IO时可以要CPU处理其他的事情,等到当前线程需要CPU时再切换回来处理;因此多线程能充分利用CPU来提升性能;这里细心的朋友应该还发现了多线程的一个特点,多线程并不是真正的并发一起执行,而是不同时间片来回切换来执行不同任务,只是cpu处理的效率很快,给人的感觉是同时在执行

二. 如果使用线程池,线程池的线程数怎么设置

关于线程池线程数的设置应该很多地方都有介绍,我相信大家只是看了个结果,不知道原理;我这里就详细介绍一下.
首先提几个关键词,cpu核数、IO密集型服务、计算型密集型服务、阻塞系数=阻塞时间/(阻塞时间+计算时间);

阻塞这里是针对IO来说的,所以阻塞时间就是IO耗时;计算时间级CPU耗时;
然后我再举一个例子,假如一个服务中,阻塞时间50毫秒,计算时间10毫秒,即cpu有50毫秒的时间处于闲置;是不是在这期间cpu可以处理5个这样的请求;再加上第一个请求总共就是处理6个请求。

那么我再提出公式
线程数= ncpu/(1-阻塞系数)
然后把上面的50、10带入进去计算,如果是单核是不是就是6,那么四核就可以设置大概24个线程
上面公式也可以等效成:线程数=ncpu*(1+阻塞时间/计算时间);

看到这里大家应该看懂了怎么计算线程数,可能会提出疑问,为什么网上看到的计算型密集服务的线程数公式=ncpu+1(大家先忽略公式)比IO型服务的设置的线程数要偏少很多呢;那是因为之所以叫计算型服务是因为服务本身大部分都是在计算,而计算是影响CPU的时间,所以一个服务进来几乎都是计算(CPU)耗时,那么大家根据这个特性把上面的阻塞时间改成0,计算时间改成50,带入第一个公式,求出来的话1核就是一个线程数,ncpu+1又是什么道理呢?为什么要+1?带入现实情况中考虑,计算型的服务不可能全部是计算,总会有一部分IO耗时,这个是毋庸置疑的,然后把参数在改一下,IO耗时10,计算耗时50,那么这就对应的上了;所以线程数= ncpu/(1-阻塞系数)这个公式是通用的;同时也得出另一个结论,阻塞系数越大,线程数设置的可以越多,反则设置越少

三. CPU的利用率是怎么计算的,怎么防止CPU过高导致程序奔溃

CPU的使用率=CPU计算时间/CPU计算时间+CPU闲置时间;因此如果CPU计算时间100毫米,闲置时间900毫米,那么利用率就是10%,如果计算时间500毫米,闲置时间0毫米,那么利用率就是100%(系统是统计单位时间内的值);所以随着CPU的不断计算,CPU率也是不断变化的。
CPU过高的话,首先要定位是什么导致的,盲目开辟新的线程,还是程序计算过于复杂,还是不巧当的循环或者死循环;盲目开线程可以用线程池解决,后面这两种就是优化程序了,如果无法优化了,可以使用sleep(0)、sleep(1)这种来解决;可能有人会问sleep(0)这有什么意义,他能优化CPU?当然可以,他虽然是让cpu休眠0毫秒,但是还有一个作用就是会触发cpu时间片的竞争(重新选举),所以就不会出现一个时间片独占整个cpu,导致cpu瞬间飙高;
既然说到这了我就再提一个问题,sleep() 和yield()有什么区别?

  1. 执行sleep()后触发所有时间片一起选举,每个时间片都可能拿到下一次运行权,yield()指挥把执行权交给优先级相同或者更高的
  2. 线程执行 sleep() 进入阻塞状态,执行yield() 方法进入就绪状态
  3. sleep() 声明抛出 InterruptedException;yield() 方法没有声明抛出异常
  4. sleep() 有时间阻塞时间参数;yield() 无参数(直接让出 CPU 的执行权时间由 JVM 控制)

一个个字手敲的,麻烦大家给个赞支持下,谢谢!如有不同意见欢迎评论;

转载请注明出处,原创不易!原文地址

数据分析相似性以及原理解读(cos相似度)

为什么写这篇文章

最近几个月一直在做内容咨询平台,然后有人提议用cos公式计算用户偏好度,我就感觉有点疑惑,这个公式不是计算相似度的吗?拿这个公式怎么能突出用户的偏好?最多反应A、B两个用户都看这篇文章,但不能体现谁更加喜欢看,然后自己就写了一个计算COS相似度的程序,顺便整理一下其中的原理写成博客分享给大家。

$$ \frac{\sum_{i=1}^{n} (x_i \times y_i)}{\sqrt{\sum_{i=1}^{n}{(x_i)^{2}}}\times \sqrt{\sum_{i=1}^{n}{(y_i)^2}}}$$

COS相似度公式推理

基础理论

任何看似很复杂的公式,其实都是从最基础的理论推出来的,首先先来看下直角三角形余弦公式:

$$
cos_ß= \frac{a}{c}
$$


任意三角形余弦公式

有了这个基本公式后,能不能求出任意三角形的余弦呢?假设任意三角形三边分别位a、b、c,从上往下作一条高为h,如下图可以分为两个直角三角形;设未知数x,则有\(cos_ß=\frac{x}{a}\), 推理如下:

通过直角三角行边长定理:两直角边的平方和=斜边的平方
得出结论:

 \(a^{2}-x^{2}=b^{2}-(c-x)^{2}\)

 \(=> a^{2}-x^{2}=b^{2}-(c^2-2xc+x^2)\)

 \(=> a^{2}-x^{2}=b^{2}-c^2+2xc-x^2\)

 \(=> 2xc= a^2+c^2-b^2\)

 \(=> x= \frac {a^2+c^2-b^2}{2c}\)

所以 $$cos_ß=\frac {a^2+c^2-b^2}{2ac}$$

任意两个坐标的余弦公式

回归正题,我们最终目的是为了求两组数据的相似度,那能不能把每组数据当作一个坐标呢?也可以说当作两个向量

设两个坐标A(x1,y1),B(x2,y2)和原点形成的角ß,结合前面的结论,是不是只需要求出A到原点距离、B到原点的距离、以及A到B的距离就能知道角ß的余弦值了;仔细看上图的虚线,得出以下几个公式:

\(A到原点的距离=\sqrt{x_1^2+y1^2}\)

\(B到原点的距离=\sqrt{x_2^2+y_2^2}\)

\(A到B的距离=\sqrt{(y_1-y_2)^2+(x_2-x_1)^2}\)


通过上述得出的任意三角形余弦公式得出表达式

\(cosß=\frac{x_1^2+y_1^2+x_2^2+y_2^2-((y_1-y_2)^2+(x_2-x_1)^2)}{2\times\sqrt{x_1^2+y1^2}\times\sqrt{x_2^2+y_2^2}}\)

\(=>   \frac{x_1^2+y_1^2+x_2^2+y_2^2-(y_1^2-2y_1y_2+y_2^2+x_2^2-2x_1x_2+x_1^2)}{2\times\sqrt{x_1^2+y1^2}\times\sqrt{x_2^2+y_2^2}}\)

\(=>  \frac{2y_1y_2+2x_1x_2}{2\times\sqrt{x_1^2+y1^2}\times\sqrt{x_2^2+y_2^2}}\)

\(=>  \frac{y_1y_2+x_1x_2}{\sqrt{x_1^2+y1^2}\times\sqrt{x_2^2+y_2^2}}\)

至此终于得到任意两个向量的余弦公式了,但怎么感觉和开头提出的公式有点不一样?
其实大家转变下思路,如果是任意两个坐标(x1,x2),(y1,y2);那么公式就是对的上了:
$$
\frac{x_1y_1+x_2y_2}{\sqrt{x_1^2+x_1^2}\times\sqrt{y_2^2+y_2^2}}
$$
继续扩展,如果坐标是(x1,x2,x3,…,xi),(y1,y2,y3,…,yi),那么公式:
$$ \frac{\sum_{i=1}^{n} (x_i \times y_i)}{\sqrt{\sum_{i=1}^{n}{(x_i)^{2}}}\times \sqrt{\sum_{i=1}^{n}{(y_i)^2}}}$$

COS相似度原理ßß


首先提出一个问题,如果两条直线重合,那么他们是不是就是一样的?答案是肯定的;那么两个向量也是一个道理,如果两个向量方向是一样的,那么他们的夹角就是0度,那么余弦为1,表示完全一样,如果他们的方向刚好成90度,那么余弦为0,表示完全不一样;因此可以通过余弦判断相似度;那么怎么把这种算法应用到数据分析和推荐上面呢?请继续看下面的例子。

题目1:请判断下面两句话的相似度.
A: 拥有技术很容易,拥有技术解决方案才是财富
B: 技术很容易拥有,但拥有技术解决方案很难

  1. 首先我们对两个语句分别进行分词
    A: [拥有,技术,很,容易,拥有,技术,解决,方案,才是,财富]
    B: [技术,很,容易,拥有,但,拥有,技术,解决,方案,很,难]
  2. 取并集
    [拥有,技术,很,容易,解决,方案,才是,财富,但,难]
  3. 判断A、B两个句子每个分词出现的频率(拿并集和自己比较)
    A:[2,2,1,1,1,1,1,1,0,0]
    B:[2,2,2,1,1,1,0,0,1,1]
  4. 大家想下如果两个句子分词一样,出现的频率也一样是不是相似度就几乎一样了;而且通过频率得出来的两个数组,是不是可以看作两个多维坐标?如果两条数据越相似那么得出来的这两个坐标的向量的方向就会越靠近甚至一样;那么这样是不是就把数据和算法结合起来了,通过这两个坐标带入到上面的公式就得出了他们的相似度。
  5. 这里给出一个接口大家可以测试下https://alanpoi.com/compare/t/p

    上面的74.6%是没有过滤分词后的停用词计算的,目前接口已经过滤了停用此,计算出得结果会更符合实际场景;你们通过上面的公式计算的结果也会是这个值

为什么要过滤停用词?

比如“我有女朋友”和”我有苹果“,这两句话完全不是一个意思,如果把”我有“也算进去,那算出它的相似度会超出想象;但是如果只匹配词语就可以不过滤,比如判断一篇文章所有的标签和用户的标签相似度,那么就可以直接计算

深入扩展

上面的场景可能可以解决大部分相似度判断的场景,但是还有一部分不能满足,那就是语义词,比如“我有一台笔记本”和“我有一台电脑”,通过上面的公式计算可能就相似度几乎为0了,那么怎么解决呢?
解决思路
第一步 先提前准备好一个语义词库,把相同语义的词放一组,如果考虑数据很大,可以打上标签或者分类
第二部 进行分词
第三部 数据替换(还是笔记本和电脑的例子,笔记本去匹配语义库,匹配到了把这一组全部放到分词中,电脑也去匹配,最终两个句子的分词就分别为[笔记本,电脑],[笔记本,电脑])
第四部 带入公式计算

个人建议:如果针对很长的文本,根据语句或者段落分开计算,这样子会更准确。

源码调用

<dependency>
  <groupId>com.alanpoi</groupId>
  <artifactId>alanpoi-common</artifactId>
  <version>1.3.3</version>
</dependency>
  1. 如果自己已经分好词了调用
SimilarUtil.calculate(List<String> val1, List<String> val2)
  1. 如果是两个文本字符
// 不强制要求,建议在项目启动的时候初始化
//如果不启动初始化,第一次调用分词由于初始化数据会导致很慢,之后就会很快了
WordSegInitConfig.init();
SimilarUtil.calculate(String text1, String text2)

最近太忙,都没有什么精力搞自己的事情,写的和画的图都比较仓促,希望能给大家带来帮助!

原创不易,转载请注明原文地址