感觉人机交互孩子和机械学习犇们眼中的人肉总括依然比较糟糕异样的,由于那个检验和辨认模块具备高度的正确性和鲁棒性

看杂文看出鸡皮疙瘩是一件很丢脸的工作,但那个令人率先次看感到感动欢乐的切磋,每一天面前遇到几个月现在,稳步麻痹又令人觉着心痛。一初叶只是想把温馨的笔记和那份高兴以更加好的格式保存一下,但写完后给各个亲友同学看,开掘我们看完都感兴趣索然。
每一篇杂文都遵照比很多先行者的干活,每一篇论文皆有各自的萌点(contribution)。若是大意那个萌点,就能够开采那篇文章和前面包车型客车做事并从未分别。出现在那边的稿子,里面包车型客车萌点都曾经击中过自个儿。
如果没相关背景知识和读论文的打算,还是不要浪费时间了。

图片 1

早晨晃今日头条看到大神写的《人肉总括》,感到人机交互孩子和机具学习犇们眼中的人肉总括仍然相当差异的,于是决定在睡觉之前写完那篇小说。

本文为美利哥加州戴维斯分校大学(作者:大卫J. Wu)的结束学业散文,共60页。

微型Computer要减轻的难题归计算机,人脑要化解的主题材料归人脑。

不移至理图像中全端到端的文本识别是目前计算机视觉和机器学习世界面前遭遇关切的多个颇具挑衅性的难点。该领域的理念系统信赖于专心设计的模子,这个模型结合了精心设计的表征或大气的先验知识。在那篇散文中,描述了一种将重型多层神经网络的表现力与无监督特征学习的新式发展相结合的代替方式。这种非常的秘籍使大家能够磨练中度可信赖的文书检查实验和字符识别模块。由于这一个检查实验和辨认模块具有莫斯科大学的准确性和鲁棒性,由此得以仅使用简便的现存手艺将它们集成到完全的端到端、词典驱动的场地文本识别系统中。基于上述专门的学业,我们演示了在切分单词识别和全端到端文本识别中正式规格测量检验上的最新质量。

其一是早已的human computing的定义,例如最知名的
reCAPTCHA。不过随着supervised
learning的隆起,今后脑子有了额外的职责: 怎么着指引Computer化解难点。

Full end-to-end text recognition in naturalimages is a challenging
problem that has recently received much attention incomputer vision and
machine learning. Traditional systems in this area haverelied on
elaborate models that incorporate carefully hand-engineered featuresor
large amounts of prior knowledge. In this thesis, I describe an
alternativeapproach that combines the representational power of large,
multilayer neural networkswith recent developments in unsupervised
feature learning. This particularapproach enables us to train highly
accurate text detection and characterrecognition modules. Because of the
high degree of accuracy and robustness ofthese detection and recognition
modules, it becomes possible to integrate theminto a full end-to-end,
lexicon-driven, scene text recognition system usingonly simple
off-the-shelf techniques. In doing so, we demonstratestate-of-theart
performance on standard benchmarks in both cropped-wordrecognition as
well as full end-to-end text recognition.

Supervised learning is the machine learning task of inferring a
function from labeled training data.

1引言

《人肉总结》
中探究的,由人肉(crowd)标明出多少让机器来读书,是最广大的获取labeled
training data的情势。

2种类背景与相关专业

而关于crowd的概念,作者最喜欢 Jeffrey P.
Bigham

的版本。

2.1场景文本识别

the crowd is a dynamic pool of possibly anonymous workers of varying
reliability that can be recruited on-demand.

2.2无监察和控制的特色学习

因此怎么样让不可靠的人来做可相信的活,不充足信任crowd,又要依赖crowd,最终用廉价的数码来堆出质量。钱花得有个别,人有多不可信赖,活有多难,品质有多高,感到是人肉总结各类游戏的方法最布满的判定规范。

2.3卷积神经网络

《人肉总结》里关系了Microsoft
COCO
和 Feifei Li的
ImageNet
因为和ImageNet的多少个小编共事,也听她们讲过因为贵的难点而不能够无界定地增加下去。Computer视觉的标号四个档案的次序,classification,
detection,
localization,价钱同样比同等贵,操作同样比同样难。同一时间为了保障不可信赖的人能表明出可相信的结果,所以标记里面有众多再一次,要几人的标号结果统一才会被接受。另一方面近年更加的火的吃水学习对于注解数据的供给也进一步大,申明单价低价却架不住多少多。

3商量措施

相对来讲于如此大面积的数量注解,和HCI相关的项目规模小非常多却更加有意思。大概几百块到几千块钱的budget,被大咖们变着法儿玩出各个草样。

3.1检验与识别模块

Active learning: 怎么用机器学习挑出大锅粥里面包车型客车老鼠屎?

图片 2

beat_the_machine_2011.png

Beat the Machine: Challenging Workers to Find the Unknown
Unknowns
,
那是 aaai 二零一二年的一篇短文,商量的是什么样用人肉计算协助“hate speech
detection”。第叁重播那篇散文的时候,看得自己泪如雨下(你当我是浮夸吧,
夸张只因我很怕
)。小编文笔也好,杂谈写得和诗同样。

We don’t know what we don’t know.

机械并不知道他怎么着时候会识别错误。识别错误并不永恒产生在边界处,非常多时候预测confidence
score相当高,但依然错了。

回到那篇杂谈,里面优雅地汇报了在大锅粥里挑老鼠屎 (网络之中筛选出“hate
speech detection”)
的传说。大锅粥里也有老鼠屎,以至独有一颗。假设不去挑,这么几个人吃总是会有人中奖,所以只可以挑。

A supervised learning algorithm analyzes the training data and
produces an inferred function, which can be used for mapping new
examples.

机器要见过丰裕多的老鼠屎和饭粒,本领明白老鼠屎和饭粒长得不太一样以及哪儿长得不均等。米粒易得但老鼠屎难求。假诺至少要看过100颗老鼠屎工夫练习出十足代表老鼠屎那么些群人体模型型,那样古板的办法得煮100锅有老鼠屎思疑的粥才具攒够老鼠屎。

那篇杂文就建议了多个新的办法。他们先锻炼出三个模型放在互连网上,然后让crowd主动找数据来调戏。相比较机器,大家连连有各类方法找到种种老鼠屎的,就好像怎么也忘不了某1024网址的地点。大家初阶会积极提交一些长相非常显明的老鼠屎和饭粒,如若现成的模型能自在识别,participant就拿不到钱。实验鼓励大家找一些含蓄点的事例:
假如现成的模型识别错误了,participant就获得钱。如若现成的模子特别自信地辨别错了(unknown
unknown),participant就能够得到多几倍的钱。经过那样几轮过后,搜聚起来的老鼠屎就更为完美。

除此以外一方面,找错误案例的人在品尝得经过中,也会开掘现成模型的局限性,就如当年大家开采绿坝其实便是靠识别灰白来甄别色情图片。当participant不停地积极提交这个瞄准 局限性
错误的例证,模型也会日趋学习那几个准则,慢慢弥补了那么些局限性。那也是
active learning 的老梗,全球译点读机,何地不会点何地。

3.2文本行质量评定

Game-like framework: You can you up, no can no bb.

Find It If You Can: A Game for Modeling Different Types of Web Search
Success Using Interaction
Data.

是sigir 2013年的best paper。 探究的是二个特意接地气的标题:
为啥某个人搜索引擎用的好,什么都能找到?那片小说开掘只要在探寻进度中式点心错链接掉进坑里,恐怕就再也出不来了。(又是本身极其爱的稿子,为何本身就写不出这么理想到令人感动的舆论。)

那篇作品也布置了二个特意特出的实验

给插足者贰个标题和贰个初步query,让参加者尽大概快得经过搜索引擎找到答案。找得越快越标准,获得的奖励也更加的多。

尝试的标题实际上都并简单,不过因为有比赛的含义,还是很轻松分出高低游戏发烧友。

1. 新ipad上有几个dead pixel就可以去apple store无条件更换?
2. 从a地去b地需要转车若干次,每个车运营时间不一样,最晚需要几点前出发?
3. 美国历史上最严重的干旱是哪一次?
........

在这些实验里,收罗了多量的网页跳转音讯和用户搜索query的成形历程,以及最后找到结果的正确度和花费的岁月。

图片 3

State transition probabilities estimated for users with HIGH and LOW
search success ratings. The transition probabilities are indicated by
the line weight; transitions with probabilities of less than 0.1 are not
shown.

很明朗发现,有个别链接就和毛子任同样,指点我们前行进。也可能有个别猪队友链接,就..呵..了。

不是特地喜欢game-like
study,总认为有剥削crowd的疑虑。有二次跑类似的study,刚好是饭点,约了人赶着去吃饭。二个童鞋因为找不到答案怎么也不肯丢弃,饿了自家半钟头,才找到答案
-_-。

小编不是为着胜负,笔者正是认真。

3.3端到端集成

Realtime Crowdsourcing: 人力siri

记念siri刚出去的时候,美利坚联邦合众国就有媒体开玩笑,其实你们不理解,apple在印度有三个call
center,特意handle你们那几个人无聊的”who are you?”。当时就想,你认为call
center那么好建么?你们感受过天朝114数码百事通么?先播音乐,再播人工广告,折腾7,8秒钟,然后…….然后您就挂机了。

建这么多个call
center比开拓要难多了,受人尊敬的人机交互地历史学家们究竟有未有色金属商量所究过那么些难点?一搜google……bravo
hci research! Realtime Crowdsourcing.

crowd sourcing本人并不常兴,web2.0不经常差十分少每家都沾点那些,Yelp,
点评,天涯论坛等等等等的都能算上。不过把crowd sourcing做到real
time就须要想像力了。想像一下果壳网上提个难题,3秒内就有11个一千字的真诚回答(丢出骨头给大狼狗的即视感,收不到专栏邀请,黑泥不犹豫)。起始提到的
Jeffrey P.
Bigham

就是此道大牌,因为real
time没戳中作者的萌点,感兴趣的能够团结去英特网搜。戳中本人萌点的是大牌在缓慢解决完real
time将来踏上的一段新安旅团程。

Chorus: Letting the Crowd Speak with One
Voice

倘诺真的有如此三个call
center存在,若是有丰盛的人,来来往往,延迟也不会是难点。可是一旦对话进度中,因为我们都离谱赖。在此以前的人撩挑子,怎么样把职业交接给下二个同校?顺利接力的同不经常候,还不让调戏siri的人备感其实你的前戏已经都浪费了。

合计大神都早就走得如此远了,感觉还是挺激动的,那搞尼玛人工智能,最牛b的“人工”智能已经有了….所以尽管把犯人都发配call
center, 赐予披甲人为奴,
世世代代。。。不公道,没人权。默默收起了这几个主见,仍然让代码来做奴隶吧。

直到……
前日看到
BeMyEyes,不要钱也能把这事给喜欢及时地做了。。。

看得见的人经过手提式有线电话机录制头协理看不见的人。最简便易行一个例子就是牛奶过期,盲人很难通过气味知道,盲人能够通过手提式无线电话机摄像头拍片像和好人调换,不奇怪人告诉盲人具体日子。与此相类似等等。

图片 4

BeMyEyes

42k sighted, 512 blind, 小编不会告诉你本身刷了一周才有二回机会和人说: “
不用谢,笔者叫雷锋同志

什么人说crowd
computing要花钱的?我才不要钱,作者倘诺账户里的小红花,因为小编是红领巾!

4实验

Everywhere: Mobile Lockscreen

Slide to X: unlocking the potential of smartphone
unlocking

历次解锁时,顺手标明个数据。(P.S. 乱入:
解手的时候,顺锁标注个数据。南方人的冷笑话。
)解锁时得以划1毫米,2分米,3毫米,顺手就把接纳给做了。

图片 5

The Slide to X interface. Left shows the three parts to the unlock
screen: a clock, the question with an optional image, and a slide to
unlock widget. Right shows three possible variations of the slide to
unlock widget: multiple choice answers, a Likert scale, and a rating
bar.

传言手提式有线电话机用户天天解锁手提式有线话机10-200次(想想客车里那么些不停拿入手提式有线电话机解个锁再放回兜里的子女,认为依然可信赖的),然后那么些世界上每一日有130亿次解锁动作,假诺每一遍解锁手势移动三厘米,手指一天活动390,000
km , 地球到明月。每一日……香飘飘….

Twitch Crowdsourcing: Crowd Contributions in Short Bursts of
Time

本条略带近乎,把耗费时间特意短的评释专门的职业分离出来,用大家的光阴碎片来成功。

4.1文件检查测量检验

什么人说标明数据只可以标明结果?

终极一章献给偶像。

Flock:Hybrid Crowd-Machine Learning
Classifiers

CSCW 二零一四,那是近年观望最有想像力的人肉总结职业了。一向知道大神 Michael
S. Bernstein

很神,但因为方向不一致,蝼蚁傲娇地保证着骨气。上午读完那篇小说,间接把作者划入偶像行列,俘获蝼蚁心。

文章最卓绝的点在于不是令人去标记结果,而是去标明特征。想标记什么标号什么,想要什么特色选什么特色。给了crowd自由去挑选特征,提取特征。而在这前边采取特征和提取特征因为做事的重复性,向来被感到独有经过编程手艺兑现。其实只要人多,人肉提取也是卓有功用的,有种
人列Computer
的即视感。

比如杂文中涉嫌的二个事例,让人识别摄像中的人是还是不是在撒谎?大家纷纭早首发挥从
《Lie To
Me》里面看到的小知识,撒谎的人眼睛眨得快,撒谎的人规避眼神接触,撒谎的人脸上会抖动,….
看到这一个feature
proposal的时候,感觉那是要逼疯工程师的点子。识别个脸的角度还应该有望,那尼玛怎么分辨撒谎的人规避眼神接触。那篇文章的做法就是,令人手工标明在摄像中目的的眼睛是还是不是眨的特地快,有未有规避眼神接触,脸颊有没有惊动,….
之后再用那几个 feature 和 labeled data
磨炼模型。最终发掘经过如此的获得剖断比大家间接推断特别可信,那样看似能够比直觉更加好地分明feature的权重。

实则,文中Machine learning fast
prototyping的story并从未特意感动自个儿,最感动本人的照旧 那是 我看出的率先篇
一定程度上减轻了 “democratizing machine learning”
的诗歌。未来独有物艺术学家和程序猿在玩机器学习,曾几何时能让老百姓也投入到机械学习中去,实际不是世代给您们做蝼蚁申明数据,那才是解放整个世界。

4.2字符与文字识别

总结

聊到底国际惯例,结尾正是谦虚审慎的时候。笔者是个外行,平昔没混过cscw,
只是乌烟瘴气爱看随想。

4.3全端到端文本识别

5结论

5.1总结

5.2本系统的局限性与前程钻探方向

http://page2.dfpan.com/fs/2lc8j2b21f293166c07/

越多美貌小说请关怀微功率信号:图片 6