HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運營
CASE 服務(wù)案例
NEWS 熱點資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    數(shù)據(jù)分析的實例(數(shù)據(jù)分析的實例分析)

    發(fā)布時間:2023-03-22 13:47:15     稿源: 創(chuàng)意嶺    閱讀: 79        問大家

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于數(shù)據(jù)分析的實例的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com,如需咨詢相關(guān)業(yè)務(wù)請撥打175-8598-2043,或微信:1454722008

    本文目錄:

    數(shù)據(jù)分析的實例(數(shù)據(jù)分析的實例分析)

    一、大數(shù)據(jù)時代的案例分析

    個案一

    你開心他就買你焦慮他就拋

    華爾街“德溫特資本市場”公司首席執(zhí)行官保羅·霍廷每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶的留言,進(jìn)而判斷民眾情緒,再以“1”到“50”進(jìn)行打分。根據(jù)打分結(jié)果,霍廷再決定如何處理手中數(shù)以百萬美元計的股票。

    霍廷的判斷原則很簡單:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。

    這一招收效顯著——當(dāng)年第一季度,霍廷的公司獲得了7%的收益率。

    個案二

    國際商用機(jī)器公司(IBM)估測,這些“數(shù)據(jù)”值錢的地方主要在于時效。對于片刻便能定輸贏的華爾街,這一時效至關(guān)重要。曾經(jīng),華爾街2%的企業(yè)搜集微博等平臺的“非正式”數(shù)據(jù);如今,接近半數(shù)企業(yè)采用了這種手段。

    ●“社會流動”創(chuàng)業(yè)公司在“大數(shù)據(jù)”行業(yè)生機(jī)勃勃,和微博推特是合作伙伴。它分析數(shù)據(jù),告訴廣告商什么是正確的時間,誰是正確的用戶,什么是應(yīng)該發(fā)表的正確內(nèi)容,備受廣告商熱愛。

    ●通過喬?!ふ材匪沟腛mniture(著名的網(wǎng)頁流量分析工具)公司,你可以知道有多少人訪問你的網(wǎng)站,以及他們呆了多長時間——這些數(shù)據(jù)對于任何企業(yè)來說都至關(guān)重要。詹姆斯把公司賣掉,進(jìn)賬18億美元。

    ●微軟專家吉拉德喜歡把這些“大數(shù)據(jù)”結(jié)果可視化:他把客戶請到辦公室,將包含這些公司的數(shù)據(jù)圖譜展現(xiàn)出來——有些是普通的時間軸,有些像蒲公英,有些則是鋪滿整個畫面的泡泡,泡泡中顯示這些客戶的粉絲正在談?wù)撌裁丛掝}。

    ●“臉譜”數(shù)據(jù)分析師杰弗遜的工作就是搭建數(shù)據(jù)分析模型,弄清楚用戶點擊廣告的動機(jī)和方式。

    處理和分析工具

    用于分析大數(shù)據(jù)的工具主要有開源與商用兩個生態(tài)圈。

    開源大數(shù)據(jù)生態(tài)圈:

    1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 漸次誕生,早期Hadoop生態(tài)圈逐步形成。

    2、. Hypertable是另類。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶。

    3、NoSQL,membase、MongoDb

    商用大數(shù)據(jù)生態(tài)圈:

    1、一體機(jī)數(shù)據(jù)庫/數(shù)據(jù)倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。

    2、數(shù)據(jù)倉庫:TeradataAsterData, EMC GreenPlum, HPVertica 等等。

    3、數(shù)據(jù)集市:QlikView、 Tableau 、 以及國內(nèi)的Yonghong Data Mart 。

    二、有關(guān)數(shù)據(jù)分析的7個方法論

    距離2018Tableau峰會--上海站已經(jīng)過去10天了,好記性不如爛筆頭,干貨太多很想把所有內(nèi)容都記錄下來,下面分享一篇《有關(guān)數(shù)據(jù)分析的7個方法》并結(jié)合我工作當(dāng)中的一些心得~

    當(dāng)我們拿到海量的數(shù)據(jù)時,可能會因為數(shù)據(jù)體量過大而無從下手,于是我們就變成了數(shù)據(jù)的搬運工,老板實際上要的是一瓢數(shù)據(jù),而我們給老板的是一池數(shù)據(jù)讓老板在數(shù)據(jù)的池水中翱游。好的數(shù)據(jù)分析是讓數(shù)據(jù)說話,那么我們怎樣來讓數(shù)據(jù)說話呢,上干貨~~~7個分析方法

    1. 數(shù)據(jù)隨時間變化 :某一個指標(biāo)在日期維度上的變化,找尋異常、趨勢

    tips:結(jié)合已知的事件來看待它的影響,最大值和最小值、異常值,等拐點都可以成為挖掘故事的金礦,可以將跨度時間切割為年度、季度、月度等,比較正常和不正常值的差異來探究異常。

    結(jié)合工作當(dāng)中的實例:上海一門店進(jìn)行促銷,老板一般會看截止某一時間節(jié)點的銷量,當(dāng)時我們在分析銷量的時候我們分析了按小時的銷量,發(fā)現(xiàn)門店的銷量會在早晚高峰出現(xiàn)銷量上升,但在晚高峰時突然出現(xiàn)了銷量的短時下跌,后來結(jié)合CCTV發(fā)現(xiàn)門店因為進(jìn)貨短時間人手不足等原因造成銷量下降。

    2. 數(shù)據(jù)的放大與縮小

    tips:集中關(guān)注某一特定區(qū)域或者范圍的數(shù)據(jù),將其與其余的數(shù)據(jù)做對比,可以先從整體入手并選擇感興趣的的數(shù)據(jù)區(qū)間,或者從某些有特征的數(shù)據(jù)點入手,查看數(shù)據(jù)是否存在異常

    結(jié)合工作當(dāng)中的實例:每月在做月度分析的時候,比如涉及銷量完成率等這一個指標(biāo),我們一般會先看當(dāng)月的情況,根據(jù)預(yù)算分配,我們會再考察YTD的情況。

    3. 數(shù)據(jù)的對比

    tips:展示不同區(qū)域或者不同類別為什么會呈現(xiàn)不同的現(xiàn)象,通常是將一個群組/維度/項目與另外一個做對比

    確認(rèn)對比的目的,比如證實或偽證自己的猜想,對比不一定需要產(chǎn)生于在同一層級之間,可以個體VS個體,VS整體/平均/中位數(shù)

    結(jié)合工作當(dāng)中的實例:我們在年初的時候,公司對虧損的門店進(jìn)行指標(biāo)分析和量化,我們選取了銷量-服務(wù)-效率等幾個維度進(jìn)行對比。對于具體門店到具體指標(biāo)時,我們采用門店指標(biāo)與公司中位數(shù)進(jìn)行對比。

    4. 數(shù)據(jù)的上鉆/下鉆

    tips:在具有層級結(jié)構(gòu)的數(shù)據(jù)中探索某一維度是如何影響全局的,可以有自下而上或者自上而下

    當(dāng)選擇到底是自下而上還是自上而下時,考慮你的聽眾更熟悉的背景,如果他們是只處理工作流程的某一具體環(huán)節(jié)的同事,那么選擇自下而上;如果他們是對全局有宏觀把控但是你需要他們關(guān)注某些具體細(xì)節(jié)的領(lǐng)導(dǎo),那么選擇自上而下。

    結(jié)合工作當(dāng)中的實例:每月在做月度分析的時候,我們一般都會先關(guān)注公司整體銷售數(shù)據(jù),具體銷量數(shù)字和完成預(yù)算情況,此外還會關(guān)注重點銷售區(qū)域的銷售數(shù)據(jù),對于預(yù)算完成較差的區(qū)域,我們進(jìn)一步再關(guān)注具體門店的情況。

    5.突出值/異常值

    tips:發(fā)現(xiàn)表現(xiàn)異常的時間段/個體,通過散點圖或者盒須圖進(jìn)行呈現(xiàn)。異常值越突出,故事效果越好,越容易給觀眾以深刻的印象,用不同的顏色或者注釋標(biāo)記出異常值以達(dá)到突出的效果。結(jié)合其他的敘述類型來挖掘出異常值背后的故事。

    結(jié)合工作當(dāng)中的實例:筆者所在的行業(yè)為零售行業(yè),每天的零售銷售數(shù)據(jù)很多,記得一次月度匯報,銷量Top5的門店竟然出現(xiàn)在利潤后十名的表單中,當(dāng)時細(xì)究原因是財務(wù)在賬務(wù)處理時將利潤進(jìn)行了分割。此外,對于異常數(shù)據(jù)筆者發(fā)現(xiàn)很多情況是由于底層數(shù)據(jù)未經(jīng)處理而導(dǎo)致數(shù)據(jù)不干凈。

    6. 數(shù)據(jù)的交叉點 :多條趨勢線的相互交叉,或者某一個體超越了另外一個個體的時間節(jié)點

    tips:通常代表著某種轉(zhuǎn)折或某個標(biāo)志性的時間,展示時將交叉點之前時段的數(shù)據(jù)帶入到故事當(dāng)中可以讓聽眾對交叉點產(chǎn)生時的背景有大致了解,同樣可以結(jié)合其他的故事類型一同講述。

    結(jié)合工作當(dāng)中的實例:我們在做數(shù)據(jù)分析時,我們會對比同期銷量趨勢,對于本年度銷量大于上一年度銷量的月份,我們會具體去看上漲的原因,具體是因為某一營銷政策、競爭對手等原因。

    7.剖析原因:

    tips:在關(guān)注某一指標(biāo)時,分析哪些因素會影響該指標(biāo)的表現(xiàn),分析兩個角度之間的關(guān)系。

    一個普遍應(yīng)用的結(jié)構(gòu)叫做“Goldilocks", 先展示一個并非特別相關(guān)的因素,然后再講述特別恰當(dāng)?shù)挠绊懸蜃?。如果有一個大家普遍認(rèn)為很重要的因素但事實上并沒有想象中那么重要,說明后面還有一個更恰當(dāng)?shù)囊蛩亍?/p>

    結(jié)合工作當(dāng)中的實例:我們在分析門店虧損情況的時候,通常會先找到幾個可能影響利潤的幾個指標(biāo),然后進(jìn)行參考環(huán)比數(shù)據(jù)進(jìn)行解釋,當(dāng)我們用現(xiàn)有的幾個指標(biāo)不能解釋利潤變化的時候,說明我們查看的影響因素還不夠全面或者門店周圍環(huán)境發(fā)生了重大改變。

    三、《利用Python進(jìn)行數(shù)據(jù)分析》——案例1從Bitly獲取數(shù)據(jù)

    這個案例主要目的是轉(zhuǎn)換json類型的數(shù)據(jù),利用python和pandas方法進(jìn)行計數(shù)。

    step1:獲取數(shù)據(jù)

    將json格式數(shù)據(jù)轉(zhuǎn)化成python對象

    step2純python時區(qū)計數(shù)

    1.獲取時區(qū)+計數(shù)

    2.對以上字典形式進(jìn)行計數(shù)

    3.更更簡單的方法,直接用python標(biāo)準(zhǔn)庫的collections.Counters類

    從僅獲取時區(qū)后開始

    step3 使用pandas計數(shù)

    step4 可視化 seaborn

    5.補(bǔ)充一些語句

    四、R數(shù)據(jù)分析:混合效應(yīng)模型實例

    上篇文章有寫多水平模型,這篇文章接著寫,肯定好多人沒搞懂,因為我自己也迷迷糊糊的,哈哈,很尷尬。

    傳統(tǒng)的回歸需要滿足的假設(shè)之一就是測量之間是相互獨立的,然而有一種實驗設(shè)計叫做重復(fù)測量設(shè)計,或者叫做被試內(nèi)設(shè)計 within-subjects design,這么一種設(shè)計方法中一個受試對象會被測量多次,因為很多的測量都是來自同一個人所以這些測量我們有理由相信他們之間是不獨立的。

    那么就不能使用傳統(tǒng)的回歸,而混合效應(yīng)就可以將不同水平(測量水平和個體水平)的變異都系統(tǒng)地分離開。

    什么時候使用混合效應(yīng)模型呢? ------Studies that obtain multiple measurements over time (longitudinal, time-series) or multiple trials per participant (within subjects) lend themselves well to mixed model analyses.

    寫個例子給大家一個更加直觀的感覺,比如我們想知道披薩的消費量和心情有沒有關(guān)系 (是不是有關(guān)系,關(guān)系是不是穩(wěn)定) ,我們招募一群受試者,讓他們報告他們的披薩消費量和他們的心情,報告15個時間點。

    Hypothetical sample size, n = 30

    DV : Mood rating (scale)

    IV1 : Pizza consumption

    IV2 : Time points (Weeks, 1-10)

    此例就是一個被試內(nèi)設(shè)計,一個人測了15次,可怕。

    接下來我們對這個例子進(jìn)行分析:

    Fixed effects are, essentially, your predictor variables. This is the effect you are interested in after accounting for random variability (hence, fixed).

    固定效應(yīng)就是你感興趣的預(yù)測變量, 在我舉得這個例子中就是披薩消費量和時間,因為我們感興趣

    披薩消費量對心情的影響和影響隨時間的變化情況。

    Random effects are best defined as noise in your data. These are effects that arise from uncontrollable variability within the sample. Subject level variability is often a random effect.

    隨機(jī)效應(yīng)就是噪聲,通常我們研究低水平的變量,高水平統(tǒng)統(tǒng)為噪聲, 此例中,我們研究消費量和心情,可以把這兩個變量看作是嵌套在人的水平上的,那么人與人之間的差異就是隨機(jī)效應(yīng)。

    Intercepts : The baseline relationship between IV & DV. Fixed effects are plotted as intercepts to reflect the baseline level of your DV.

    截距就是基線時自變量和因變量的關(guān)系。 此例中隨機(jī)截距就是披薩消費量基線時人與人之間不同,而固定截距就是基線時所以人的披薩消費量相同。

    Slope : The strength of the relationship between IV & DV (controlling for randomness), which represent random effects. You should expect to see differences in the slopes of your random factors.

    斜率就是自變量和因變量的關(guān)系強(qiáng)度。 此例中,隨機(jī)斜率就是人與人之間披薩消費量和心情的關(guān)系不一樣,而固定斜率就是人與人之間披薩消費量和心情的關(guān)系一樣。

    特別注意,截距和斜率有可能有相關(guān)性。就是不同基線的個體披薩消費量和心情的關(guān)系不一樣。

    通常我們在模型中建立,對于隨機(jī)效應(yīng)的表述語法如上,1代表隨機(jī)斜率,0代表固定斜率

    從上面的結(jié)構(gòu)中我們可以知道,其實隨機(jī)效應(yīng)有很多,我們到底選擇哪種隨機(jī)效應(yīng)最好呢?

    這就需要我們進(jìn)行模型比較了:

    我們可以通過模型的AIC,BIC和卡方來進(jìn)行模型的比較,上圖的結(jié)果中我們可以看到模型二相對模型三并沒有提高擬合,所以模型二就是最佳模型, (1 + pizza +time|subject)就是最佳隨機(jī)效應(yīng)結(jié)構(gòu),意思就是不同的個體他們的極限披薩消費量是不同的,而且在披薩消費量影響心情時的斜率也是不同的。

    上一部分我們找到了模型最好的隨機(jī)效應(yīng)結(jié)構(gòu),接下來我們就給模型加入固定效應(yīng):

    跑3個模型,分別加入固定效應(yīng)和固定效應(yīng)的交互之后我們開始檢驗到底哪一個模型好:

    通過p值我們發(fā)現(xiàn)模型二其實是最好的模型,所以我們可以得到結(jié)論: 控制隨機(jī)效應(yīng)后披薩的消費量越高,心情越好,但時間會減弱這種效應(yīng)。時間和披薩的消費量之間并沒有交互作用。

    如果你是一個大學(xué)本科生或研究生,如果你正在因為你的統(tǒng)計作業(yè)、數(shù)據(jù)分析、論文、報告、考試等發(fā)愁,如果你在使用SPSS,R,Python,Mplus, Excel中遇到任何問題,都可以聯(lián)系我。因為我可以給您提供最好的,最詳細(xì)和耐心的數(shù)據(jù)分析服務(wù)。

    如果你對Z檢驗,t檢驗,方差分析,多元方差分析,回歸,卡方檢驗,相關(guān),多水平模型,結(jié)構(gòu)方程模型,中介調(diào)節(jié)等等統(tǒng)計技巧有任何問題,請私信我,獲取最詳細(xì)和耐心的指導(dǎo)。

    If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.

    Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??

    Then Contact Me. I will solve your Problem...

    加油吧,打工人!

    (站外鏈接發(fā)不了,請關(guān)注后私信回復(fù)“數(shù)據(jù)鏈接”獲取本號所有使用數(shù)據(jù))

    往期內(nèi)容:

    從“我丑到我自己了”說起——混合效應(yīng)模型續(xù)

    重復(fù)測量數(shù)據(jù)分析系列:混合效應(yīng)模型基礎(chǔ)

    R數(shù)據(jù)分析:多水平模型詳細(xì)說明

    以上就是關(guān)于數(shù)據(jù)分析的實例相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    永久擦除固態(tài)硬盤數(shù)據(jù)(永久擦除固態(tài)硬盤數(shù)據(jù)會怎么樣)

    全網(wǎng)主播數(shù)據(jù)哪里查的

    微信直播數(shù)據(jù)大屏

    景觀設(shè)計大學(xué)(景觀設(shè)計大學(xué)排名)

    臨滄立體綠化景觀設(shè)計招標(biāo)(臨滄立體綠化景觀設(shè)計招標(biāo)信息)