chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

理解這些數(shù)據(jù)類型有助于對數(shù)據(jù)集進(jìn)行恰當(dāng)?shù)奶剿餍詳?shù)據(jù)分析

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-07-08 09:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:數(shù)據(jù)類型是統(tǒng)計(jì)學(xué)的重要概念。機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)開發(fā)者Niklas Donges簡要介紹了不同的數(shù)據(jù)類型,理解這些數(shù)據(jù)類型有助于對數(shù)據(jù)集進(jìn)行恰當(dāng)?shù)奶剿餍詳?shù)據(jù)分析(EDA)——機(jī)器學(xué)習(xí)項(xiàng)目最被低估的部分之一。

介紹

理解不同的數(shù)據(jù)類型,是探索性數(shù)據(jù)分析(Exploratory Data Analysis,EDA)所需的關(guān)鍵預(yù)備知識(shí),同時(shí)也有助于你選擇正確的可視化方法。你可以將數(shù)據(jù)類型看成歸類不同類型變量的方式。我們將討論主要的變量類型,以及相應(yīng)的示例。有時(shí)我們會(huì)稱其為測量尺度(measurement scale)。

類別數(shù)據(jù)

類別數(shù)據(jù)(categrorical data)表示特性,例如一個(gè)人的性別,所說的語言,等等。類別數(shù)據(jù)同樣可以使用數(shù)值(例如:1表示雌性,0表示雄性)。

名目數(shù)據(jù)

名目值(nominal value)指用于標(biāo)記變量的定性離散單元。你可以直接把它們想象成“標(biāo)簽”。注意名目數(shù)據(jù)是無序的。因此,如果你改變名目值的順序,其語義并不會(huì)改變。下面是一些名目特征的例子:

性別:雌性、雄性。

語言:英語、法語、德語、西班牙語。

上面的性別特征也被稱為“二分(dichotomous)”值,因?yàn)樗话瑑蓚€(gè)類別。

次序數(shù)據(jù)

次序值(ordinal value)指離散、有序的定性單元。除了有序之外,它幾乎和名目數(shù)據(jù)一樣。例如,教育背景可以用次序值來表示:

初中

高中

大學(xué)

研究生

注意,其實(shí)初中、高中之間的差別,和高中、大學(xué)之間的差別,是不一樣的。這是次序數(shù)據(jù)的主要限制,次序值之間的差別是未知的。因此,次序值通常用于衡量非數(shù)值特征,例如愉悅程度、客戶滿意度。

數(shù)值數(shù)據(jù)

離散數(shù)據(jù)

離散數(shù)據(jù)(discrete data)的值是不同而分散的,換句話說,只能接受一些特定值。這類數(shù)據(jù)無法測量但可以計(jì)數(shù)。它基本上用來表示可以分類的信息。例如,拋100次硬幣正面向上的次數(shù)。

你可以通過以下兩個(gè)問題檢查你處理的是否是離散數(shù)據(jù):你可以對其計(jì)數(shù)嗎?它可以被切分成越來越小的部分嗎?

相反,如果數(shù)據(jù)可以測量但無法計(jì)數(shù),那就是連續(xù)數(shù)據(jù)。

連續(xù)數(shù)據(jù)

連續(xù)數(shù)據(jù)(continuous data)表示測量。例如身高。

連續(xù)數(shù)據(jù)可以分為等距數(shù)據(jù)(interval data)和等比數(shù)據(jù)(ratio data)。

等距值指間隔相等的有序單元,也就是說,等距變量包含有序數(shù)值,并且我們知道這些數(shù)值之間的間隔。例如,用等距數(shù)據(jù)表示溫度:

-10

-5

0

+5

+10

+15

等距值的問題在于,它們沒有“真正的零”。拿上面的例子來說,0度不是絕對零度。另外,我們可以加減等距值,而不能乘除等距值或計(jì)算比率。由于沒有“真正的零”,無法應(yīng)用許多描述統(tǒng)計(jì)學(xué)或推論統(tǒng)計(jì)學(xué)的方法。

等比值具有等距值的所有特性,同時(shí)也有絕對的零。因此,不僅可以加減,還可以乘除。高度、重量、長度、絕對溫度等都屬于等比值。

數(shù)據(jù)類型為什么重要?

數(shù)據(jù)類型是一個(gè)非常重要的概念,因?yàn)榻y(tǒng)計(jì)學(xué)方法只能應(yīng)用于特定的數(shù)據(jù)類型。你需要使用不同的方式分析連續(xù)數(shù)據(jù)和類別數(shù)據(jù)。因此,理解你處理的數(shù)據(jù)的類型,讓你能夠選擇正確的分析方法。

下面我們將重新查看上面提到的每種數(shù)據(jù)類型,了解它們可以應(yīng)用什么樣的統(tǒng)計(jì)學(xué)方法。為了理解我們將討論的一些性質(zhì),你需要對描述性統(tǒng)計(jì)學(xué)有所了解。如果你對此不熟悉,可以先看下我寫的描述性統(tǒng)計(jì)學(xué)介紹。

統(tǒng)計(jì)學(xué)方法

名目數(shù)據(jù)

處理名目數(shù)據(jù)時(shí),你通過下述方式收集信息:

頻數(shù)在一段時(shí)間內(nèi)或整個(gè)數(shù)據(jù)集中出現(xiàn)的次數(shù)。

比例頻數(shù)除以所有事件的頻數(shù)之和,即可得到比例。

百分比我想這無需解釋了吧。

眾數(shù)出現(xiàn)次數(shù)最多,也就是頻數(shù)最高的數(shù)據(jù)。

可視化方法你可以使用餅圖或直方圖可視化名目數(shù)據(jù)。

左:餅圖;右:直方圖

次序數(shù)據(jù)

當(dāng)你處理次序數(shù)據(jù)時(shí),你可以使用以上用于名目數(shù)據(jù)的方法,不過,除此之外,你還可以使用一些額外的工具。也就是說,你可以使用頻數(shù)、比例、百分比、眾數(shù)概括次序數(shù)據(jù),也可以使用餅圖、直方圖可視化次序數(shù)據(jù)。除此之外,你還可以使用:

百分位數(shù)計(jì)算由小到大排列的次序數(shù)據(jù)的累計(jì)百分位,某一百分位對應(yīng)的數(shù)據(jù)值就稱為這一百分位的百分位數(shù)。百分位數(shù)可以用來描述數(shù)據(jù)的離散趨勢。

中位數(shù)即第50百分位數(shù),它將數(shù)據(jù)分為相等的上下兩部分。中位數(shù)可以用來描述數(shù)據(jù)的中間趨勢。例如,如果我們用次序數(shù)據(jù)表示星巴克咖啡的容量:中杯、大杯、特大杯。那么,其中位數(shù)為大杯(也就是說,真正的中杯是大杯)。

四分位距第75百分位數(shù)與第25百分位數(shù)之差即為四分位距。四分位距可以簡要概述數(shù)據(jù)的離散趨勢。

連續(xù)數(shù)據(jù)

大多數(shù)統(tǒng)計(jì)學(xué)方法都可以用于連續(xù)數(shù)據(jù)。你可以使用百分位數(shù)、中位數(shù)、四分位距、均值、眾數(shù)、標(biāo)準(zhǔn)差、區(qū)間。

你可以使用矩形圖或箱形圖可視化連續(xù)數(shù)據(jù)。從矩形圖上可以看到分布的中間趨勢、離散程度、形態(tài)和峰態(tài)。注意,矩形圖不體現(xiàn)離散值,因此我們有時(shí)使用箱形圖。

左:箱形圖;右:矩形圖

總結(jié)

本文討論了統(tǒng)計(jì)學(xué)中常用的不同數(shù)據(jù)類型。你了解了離散數(shù)據(jù)和連續(xù)數(shù)據(jù)的區(qū)別,以及什么是名目數(shù)據(jù)、次序數(shù)據(jù)、等距數(shù)據(jù)、等比數(shù)據(jù)。此外,你現(xiàn)在知道了每種數(shù)據(jù)類型可以應(yīng)用的統(tǒng)計(jì)學(xué)方法和可視化方法。如果你在給定數(shù)據(jù)集上進(jìn)行探索性分析,你會(huì)發(fā)現(xiàn)這些非常有用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:統(tǒng)計(jì)學(xué)常用數(shù)據(jù)類型

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    什么是探索性測試ET

    探索性測試ET(exploratory)是和ST(script based test)相比較而言的.籠統(tǒng)地說,ST就是有確定的步驟和預(yù)期目標(biāo)的測試.探索性測試可以說是一種測試思維。它沒有很多實(shí)際
    發(fā)表于 07-05 06:38

    數(shù)據(jù)探索數(shù)據(jù)預(yù)處理

    目錄1數(shù)據(jù)探索數(shù)據(jù)預(yù)處理21.1 賽題回顧21.2 數(shù)據(jù)探索性分析與異常值處理21.3 相關(guān)性
    發(fā)表于 07-12 08:37

    探索性數(shù)據(jù)分析(EDA)及其應(yīng)用

    所謂探索性數(shù)據(jù)分析(EDA),是指對已有的數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行
    發(fā)表于 01-24 10:02 ?1838次閱讀
    <b class='flag-5'>探索性</b><b class='flag-5'>數(shù)據(jù)分析</b>(EDA)及其應(yīng)用

    探索性數(shù)據(jù)分析系統(tǒng)對基因組醫(yī)學(xué)研究的幫助

    線路進(jìn)行傳輸都變得困難。而通常情況下,這些數(shù)據(jù)必須能被快速存儲(chǔ)、分析、共享和歸檔,以適應(yīng)基因研究的需要。于是他們不得不訴諸于磁盤驅(qū)動(dòng)器及運(yùn)輸公司,來轉(zhuǎn)移原始
    發(fā)表于 10-11 09:46 ?0次下載
    <b class='flag-5'>探索性</b>大<b class='flag-5'>數(shù)據(jù)分析</b>系統(tǒng)對基因組醫(yī)學(xué)研究的幫助

    介紹幾種用于機(jī)器學(xué)習(xí)探索性數(shù)據(jù)分析數(shù)據(jù)類型

    離散數(shù)據(jù)是指其取值是不連續(xù)的分離值,數(shù)據(jù)只能在一些特定點(diǎn)取值。這樣的數(shù)據(jù)不能定量測量但可以進(jìn)行統(tǒng)計(jì)計(jì)量,并可將其蘊(yùn)含的信息通過分類的方式進(jìn)行
    的頭像 發(fā)表于 04-20 16:47 ?6953次閱讀

    如何看懂R中的探索性數(shù)據(jù)分析(附R代碼)

    本文將通過介紹一個(gè)代碼模板的四個(gè)基本步驟,來幫助您完成數(shù)據(jù)分析的初期探索。
    的頭像 發(fā)表于 11-25 10:52 ?4003次閱讀
    如何看懂R中的<b class='flag-5'>探索性</b><b class='flag-5'>數(shù)據(jù)分析</b>(附R代碼)

    C語言的數(shù)據(jù)儲(chǔ)存與數(shù)據(jù)類型類型轉(zhuǎn)換的詳細(xì)資料說明

    程序說到底就是對數(shù)據(jù)的處理,所以首先要弄清楚需要處理哪些數(shù)據(jù),計(jì)算機(jī)如何存儲(chǔ)這些數(shù)據(jù)。C語言根據(jù)需要,抽象出了一些基本數(shù)據(jù)類型和衍生
    的頭像 發(fā)表于 02-24 15:39 ?4512次閱讀
    C語言的<b class='flag-5'>數(shù)據(jù)</b>儲(chǔ)存與<b class='flag-5'>數(shù)據(jù)類型</b>及<b class='flag-5'>類型</b>轉(zhuǎn)換的詳細(xì)資料說明

    細(xì)分模型探索性數(shù)據(jù)分析和預(yù)處理

    交流學(xué)習(xí)!文章較長,建議收藏~ 客戶細(xì)分模型是將整體會(huì)員劃分為不同的細(xì)分群體或類別,然后基于細(xì)分群體做管理、營銷和關(guān)懷。客戶細(xì)分模型常用于整體會(huì)員的宏觀性分析以及探索性分析,通過細(xì)分建立初步認(rèn)知,為下一步的
    的頭像 發(fā)表于 11-08 16:05 ?2310次閱讀
    細(xì)分模型<b class='flag-5'>探索性</b><b class='flag-5'>數(shù)據(jù)分析</b>和預(yù)處理

    Sweetviz讓你三行代碼實(shí)現(xiàn)探索性數(shù)據(jù)分析

    ,還能對每個(gè)欄目做眾數(shù)、最大值、最小值等橫向?qū)Ρ取?所有輸入的數(shù)值、文本信息都會(huì)被自動(dòng)檢測,并進(jìn)行數(shù)據(jù)分析、可視化和對比,最后自動(dòng)幫你進(jìn)行總結(jié),是一個(gè)探索性數(shù)據(jù)分析的好幫手。 1.準(zhǔn)備
    的頭像 發(fā)表于 10-17 10:59 ?913次閱讀
    Sweetviz讓你三行代碼實(shí)現(xiàn)<b class='flag-5'>探索性</b><b class='flag-5'>數(shù)據(jù)分析</b>

    Sweetviz: 讓你三行代碼實(shí)現(xiàn)探索性數(shù)據(jù)分析

    欄目做眾數(shù)、最大值、最小值等橫向?qū)Ρ取?所有輸入的數(shù)值、文本信息都會(huì)被自動(dòng)檢測,并進(jìn)行數(shù)據(jù)分析、可視化和對比,最后自動(dòng)幫你進(jìn)行總結(jié),是一個(gè)探索性數(shù)據(jù)分析的好幫手。 1.準(zhǔn)備 開始之前,
    的頭像 發(fā)表于 10-31 10:28 ?1592次閱讀
    Sweetviz: 讓你三行代碼實(shí)現(xiàn)<b class='flag-5'>探索性</b><b class='flag-5'>數(shù)據(jù)分析</b>

    plc數(shù)據(jù)類型怎么理解和應(yīng)用

    PLC(可編程邏輯控制器)是一種工業(yè)自動(dòng)化設(shè)備,用于控制機(jī)械和工業(yè)過程。在PLC編程中,數(shù)據(jù)類型是非常重要的概念,因?yàn)樗鼪Q定了程序中數(shù)據(jù)的存儲(chǔ)和處理方式。正確理解和應(yīng)用PLC數(shù)據(jù)類型
    的頭像 發(fā)表于 12-19 11:39 ?6413次閱讀

    為什么選擇eda進(jìn)行數(shù)據(jù)分析

    數(shù)據(jù)科學(xué)領(lǐng)域,數(shù)據(jù)分析是一個(gè)復(fù)雜且多步驟的過程,它涉及到數(shù)據(jù)的收集、清洗、探索、建模和解釋。在這些步驟中,
    的頭像 發(fā)表于 11-13 10:41 ?1121次閱讀

    如何進(jìn)行有效的eda分析

    進(jìn)行有效的EDA(Exploratory Data Analysis,探索性數(shù)據(jù)分析分析,是數(shù)據(jù)科學(xué)中的關(guān)鍵步驟,它能夠幫助
    的頭像 發(fā)表于 11-13 10:48 ?1464次閱讀

    eda與傳統(tǒng)數(shù)據(jù)分析的區(qū)別

    EDA(Exploratory Data Analysis,探索性數(shù)據(jù)分析)與傳統(tǒng)數(shù)據(jù)分析之間存在顯著的差異。以下是兩者的主要區(qū)別: 一、分析目的和方法論 EDA 目的 :EDA的主要
    的頭像 發(fā)表于 11-13 10:52 ?1245次閱讀

    eda分析中的數(shù)據(jù)清洗步驟

    數(shù)據(jù)分析的早期階段,探索性數(shù)據(jù)分析(EDA)是一種重要的方法,它幫助我們理解數(shù)據(jù)的特征和結(jié)構(gòu)。然而,原始
    的頭像 發(fā)表于 11-13 11:00 ?1531次閱讀