谷歌解決我們停車(chē)難問(wèn)題
近日,谷歌在安卓設(shè)備的更新中,為谷歌地圖新增了一項(xiàng)功能——預(yù)測(cè)目的地的停車(chē)狀況。
用戶(hù)只需在谷歌地圖中查詢(xún)路線(xiàn),就可以看到一個(gè)新的圖標(biāo)。如果谷歌預(yù)測(cè)到你所去的目的地可能有停車(chē)難的風(fēng)險(xiǎn),你就會(huì)看到地圖上出現(xiàn)一個(gè)彩色的點(diǎn),且附帶字母P。停車(chē)的難易程度將分為“車(chē)位有限”、“中等”和“容易”三個(gè)等級(jí)。
如果谷歌預(yù)測(cè)到你所去的目的地可能有停車(chē)難的風(fēng)險(xiǎn),地圖上會(huì)出現(xiàn)彩色的點(diǎn),且附帶字母P。
谷歌的一篇官方博客稱(chēng),這一功能目前已經(jīng)向25個(gè)美國(guó)最大的城市地區(qū)開(kāi)放。但谷歌公司正尋求在未來(lái)將該功能推廣至更多的城市和國(guó)家,以及打破平臺(tái)限制,延伸至蘋(píng)果iPhone設(shè)備上的谷歌地圖應(yīng)用。
谷歌平臺(tái)上的另一個(gè)地圖應(yīng)用Waze也為美國(guó)許多大城市提供類(lèi)似服務(wù),但谷歌地圖采用的方式略有不同。Waze預(yù)估停車(chē)位時(shí)采用了INRIX公司整合的停車(chē)數(shù)據(jù)信息,但谷歌聲稱(chēng)其停車(chē)預(yù)測(cè)是基于用戶(hù)主動(dòng)共享地理位置歷史,從而獲得的匿名數(shù)據(jù)。
2月3日,谷歌的軟件工程師James Cook、Yechen Li和研究員Ravi Kumar聯(lián)合發(fā)布了一份研究報(bào)告,詳細(xì)論述了此項(xiàng)應(yīng)用的原理。
要提供這一停車(chē)預(yù)測(cè)功能,工程師們需要解決許多問(wèn)題——停車(chē)情況復(fù)雜多變,幾乎沒(méi)有實(shí)時(shí)的停車(chē)位信息;即使有些地區(qū)有聯(lián)網(wǎng)的停車(chē)計(jì)時(shí)器,這些數(shù)據(jù)也不包括非法停車(chē)、許可停車(chē)和提前離開(kāi)等信息;道路只能提供二維圖像,但停車(chē)場(chǎng)本身結(jié)構(gòu)更為復(fù)雜;停車(chē)位的供需即時(shí)變動(dòng),即使是最好的系統(tǒng)都很可能無(wú)法及時(shí)更新。
為了解決這些問(wèn)題,谷歌的團(tuán)隊(duì)結(jié)合了眾包和機(jī)器學(xué)習(xí)來(lái)建立能夠提供停車(chē)難度信息的系統(tǒng),甚至還能幫助用戶(hù)決策采用何種方式出行。在預(yù)發(fā)布的實(shí)驗(yàn)中,他們發(fā)現(xiàn)出行模式按鈕的點(diǎn)擊量大增,這表明用戶(hù)獲得了停車(chē)難度信息之后,會(huì)更傾向于考慮公共出行方式,以取代開(kāi)車(chē)?!揪幾ⅲ罕姲?,即crowdsourcing,指的是一個(gè)公司或機(jī)構(gòu)把過(guò)去由員工執(zhí)行的工作任務(wù),以自由自愿的形式外包給非特定的(而且通常是大型的)大眾網(wǎng)絡(luò)的做法?!?/p>
要為解決停車(chē)難的問(wèn)題設(shè)計(jì)算法,需要三方面技術(shù)——通過(guò)眾包的方法獲得地面實(shí)況數(shù)據(jù)、一個(gè)合適的機(jī)器學(xué)習(xí)模型,以及一個(gè)用以訓(xùn)練模型的強(qiáng)大特征集。
地面實(shí)況數(shù)據(jù)
在機(jī)器學(xué)習(xí)解決方案中,收集高質(zhì)量的實(shí)況數(shù)據(jù)一直是個(gè)關(guān)鍵挑戰(zhàn)。谷歌團(tuán)隊(duì)采用的方法是,問(wèn)司機(jī)是否遇到了停車(chē)難的問(wèn)題。但是,他們很快發(fā)現(xiàn),面對(duì)這樣主觀的問(wèn)題,通常會(huì)得到相互矛盾的答案:對(duì)同一時(shí)間段的同一地點(diǎn),有的人回答“容易”找到停車(chē)位,有的人的回答卻是“難”。換成“多久能找到停車(chē)位?”這樣的客觀問(wèn)題,答案的可信度就有了很大的提高,從而能眾包產(chǎn)生高質(zhì)量的、超過(guò)10萬(wàn)個(gè)回答的實(shí)況數(shù)據(jù)集。
模型特征
有了可用數(shù)據(jù),接下來(lái)就是選擇用來(lái)訓(xùn)練模型的特征。該項(xiàng)目利用的是喜歡分享定位的用戶(hù)提供的匿名聚合信息,以此作為評(píng)估實(shí)時(shí)交通狀況、高流通時(shí)間段、訪(fǎng)問(wèn)時(shí)長(zhǎng)的關(guān)鍵信息源。
谷歌研究員在報(bào)告中稱(chēng),他們很快便發(fā)現(xiàn),即便有了所需數(shù)據(jù),還是會(huì)遇到一些獨(dú)特的挑戰(zhàn)。比如,如果有人在自己門(mén)前或者私人的停車(chē)位停車(chē),系統(tǒng)不該錯(cuò)誤地認(rèn)為這里的停車(chē)位是可用的。用戶(hù)搭乘出租車(chē)到達(dá),可能會(huì)造成門(mén)前停車(chē)很多的假象,與此類(lèi)似,公共交通用戶(hù)可能會(huì)被系統(tǒng)認(rèn)為是在公交車(chē)站停車(chē)。這些錯(cuò)誤的認(rèn)知,都會(huì)誤導(dǎo)機(jī)器學(xué)習(xí)系統(tǒng)。
因此,系統(tǒng)的設(shè)計(jì)需要更強(qiáng)大的聚合特征。其中一個(gè)功能的靈感就來(lái)自谷歌所在的Mountain View地區(qū)。如果谷歌導(dǎo)航發(fā)現(xiàn)大量用戶(hù)在午餐時(shí)間開(kāi)著車(chē)在市中心繞圈,這就表明停車(chē)位很難找。
如果谷歌導(dǎo)航發(fā)現(xiàn)大量用戶(hù)在午餐時(shí)間開(kāi)著車(chē)在市中心繞圈,這就表明停車(chē)位很難找。
谷歌的研究員在思考,如何把這些關(guān)于停車(chē)難的“蛛絲馬跡”作為一個(gè)特征來(lái)進(jìn)行訓(xùn)練。研究員把用戶(hù)直接到達(dá)目的地時(shí)間與繞圈、停車(chē)、步行這樣實(shí)際到達(dá)目的地的時(shí)間進(jìn)行了對(duì)比,聚合了二者之間的不同。如果多數(shù)用戶(hù)在二者之間所用的時(shí)間存在顯著差異,就被認(rèn)為是遇到了停車(chē)難的問(wèn)題。
之后,谷歌團(tuán)隊(duì)繼續(xù)開(kāi)發(fā)了更多的特征:特定的目的地、散步的停車(chē)地點(diǎn)、停車(chē)的時(shí)間點(diǎn)與日期(例如,用戶(hù)在早晨會(huì)停得離目的地很近,在高峰時(shí)間會(huì)很遠(yuǎn),這怎么辦?)、歷史停車(chē)數(shù)據(jù)等等。最后,他們得到了大約20個(gè)不同的特征。之后,就是調(diào)整模型的表現(xiàn)了。
模型選擇和訓(xùn)練
針對(duì)上述特征,研究員使用了一個(gè)標(biāo)準(zhǔn)的回歸機(jī)器學(xué)習(xí)模型。這種選擇有幾個(gè)原因:首先,邏輯回歸的原理是大家所熟知的,并且,在訓(xùn)練數(shù)據(jù)中,它對(duì)噪音是有彈性的;第二,可以將這些模型的輸出解釋為停車(chē)難的概率,然后可以將其映射成描述性術(shù)語(yǔ),如“停車(chē)位有限”或“輕松停車(chē)”;第三,很容易理解每個(gè)特定特征的影響,這使得驗(yàn)證模型是否合理更加容易。例如,當(dāng)研究員開(kāi)始訓(xùn)練時(shí),許多人認(rèn)為上述“蛛絲馬跡”的功能將是最好的方法,可以解決所遇到的難題。但實(shí)際情況并非如此,事實(shí)上,基于車(chē)位位置分散的特征才是停車(chē)難度最強(qiáng)大的預(yù)測(cè)因素之一。
結(jié)論
使用谷歌的模型,研究員們能夠?yàn)槿魏挝恢煤蜁r(shí)間的停車(chē)難度生成一個(gè)估算值。下圖是該系統(tǒng)輸出的幾個(gè)例子,用于提供給定目的地的停車(chē)難度估計(jì)。比如,星期一早上對(duì)整個(gè)城市來(lái)說(shuō)都停車(chē)?yán)щy,尤其是最繁忙的金融和零售區(qū)。在星期六晚上,又會(huì)再次變得繁忙,但卻主要集中在餐廳和景點(diǎn)等區(qū)域。
停車(chē)難度模型在舊金山金融區(qū)和聯(lián)合廣場(chǎng)地區(qū)上的輸出。紅色表示有更高置信度的停車(chē)?yán)щy。上排:一個(gè)典型周一的上午8點(diǎn)(左)和9點(diǎn)(右)。下排:一個(gè)典型周六的相同時(shí)間。