Kompenzácia Za Znamenie Zverokruhu
Celebrity Nahraditeľnosti C

Zistite Kompatibilitu Znamením Zverokruhu

10 nástrojov, ktoré môžu pomôcť dátovým novinárom robiť lepšiu prácu, byť efektívnejší

Bulletiny

Je ťažké byť rovnako dobrý vo všetkých úlohách, ktoré spadajú pod dátovú žurnalistiku. Aby toho nebolo málo (alebo naozaj lepšie), dátoví žurnalisti neustále objavujú a aplikujú nové metódy a nástroje.

Ako začínajúci dátový novinár si budete chcieť osvojiť zmysel pre nástroje, ktoré ostatní používajú na prácu, ktorú obdivujete. Nebudete sa môcť naučiť všetky naraz a nemali by ste to skúšať. Mali by ste si však vybudovať akési povedomie okolia o používaných nástrojoch (niečo ako poznatky, ktoré vám Facebook dáva o životoch vašich spolužiakov zo strednej školy). Uchovajte si zoznam nástrojov, ktoré si môžete vyskúšať. Pozrite si ukážky a prezrite si dokumentáciu alebo kód. Potom, keď vaše projekty vyvolajú potrebu, budete si pamätať dosť, aby ste mohli začať.

Okamžitejšie si však vyberte jeden alebo dva nástroje a urobte z nich súčasť svojej DNA. Vyberte si nástroj a vyžmýkajte z neho všetko, čo sa dá. Prečítajte si všetko, čo o nej nájdete. Naučte sa každú zvláštnosť a optimalizáciu. Kúpte si hrnček na kávu s klávesovými skratkami. Buďte pripravení vziať si nový nástroj, keď pocítite štipnutie, ktoré hovorí, že musí existovať jednoduchší spôsob. Nižšie je uvedených 10 nástrojov, ktoré sú súčasťou takmer každého dátového novinára.

1. Tabuľka

Takmer každý dátový novinár začína tabuľkou. (Zverejnenie: V tomto som výnimkou, rovnako ako niektorí iní programátori-novinári. Naučil som sa používať tabuľky na prácu s kolegami, ktorí sa na ne spoliehajú.)

Tabuľkový hárok je takmer univerzálny dátový formát, najmä ak údaje ukladáte ako súbor s oddeleným čistým textom, ako je napríklad súbor s hodnotami oddelenými čiarkami. Každý už má komerčný tabuľkový procesor alebo si môže jednoducho stiahnuť a zadarmo jeden a moderné tabuľkové aplikácie sú pozoruhodne všestranné.

Je ich viacero stránky a kurzy k dispozícii, ktoré vám pomôžu rozvíjať zručnosti v práci s tabuľkami. Začnite triedením, filtrovaním a medzisúčtami a prejdite na pokročilejšie vzorce. Keď sa naučíte používať vzorce, skúste ich občas zadať priamo, namiesto použitia sprievodcov. Tento postup vám poskytne dôvernejšie znalosti o vzorcoch, ktoré používate, a tiež vám pomôže začať vyjadrovať svoje nápady v kóde, čo sa vám bude hodiť, keď si vezmete ďalšie nástroje.

2. SQL

Po chvíli môžete začať pociťovať tieseň v dôsledku obmedzení tabuliek. Mnoho dátových žurnalistov prejde na správcu relačných databáz (napr. SQLite, MySQL, PostgreSQL, Access), keď majú viac ako dve tabuľky na spojenie alebo veľmi veľké dátové súbory na dopytovanie. SQL vám umožňuje presne opísať podmnožinu údajov, ktoré chcete extrahovať, alebo presné zmeny, ktoré chcete vykonať, a umožňuje vám vykonávať tieto dotazy v rámci súvisiacich súborov údajov. Svoje príkazy môžete uložiť aj ako skript, takže môžete zdokumentovať všetko, čo ste s údajmi urobili, a tieto kroky môžete automaticky zopakovať v budúcom súbore údajov.

Takmer každý relačný databázový program používa určitú príchuť SQL, takže keď sa naučíte základy (pár tuctov kľúčových slov a nejaké interpunkčné znamienka), môžete vyhľadávať databázy v ľubovoľnom počte systémov, bezplatných aj komerčných. Relačné databázy sa tiež často používajú na ukladanie údajov vo webových aplikáciách, takže vaše znalosti SQL môžu byť priamo užitočné pri vývoji webu.

Tu je návod aby ste mohli začať.

3. Nástroje na čistenie dát

Všetky súbory údajov sú „špinavé“. Opakujte si to trikrát vždy, keď otvoríte laptop.

Ak chcete údaje vyčistiť a dostať ich do užitočného formátu, pravdepodobne budete používať rôzne nástroje. Najradšej mám Google Refine , ktorý vyzerá trochu ako tabuľka, ale je určený na veci, ako je štandardizácia mien, aby ste mohli vytvárať spoľahlivé počty. (Možno budete chcieť, aby sa napríklad „John Smith“, „Smith, John“ a „John Q. Smith“ počítali ako jedna osoba, a nie tri). Použitím Google Refine Expression Language , budete môcť vykonávať sofistikované transformácie údajov a urobíte ďalší krok vo vyjadrovaní sa v kóde. ( Data Wrangler je nový nástroj s niektorými funkciami podobnými nástroju Refine, ktorý sa tiež oplatí vyskúšať.)

Mali by ste sa tiež oboznámiť s nástrojmi vo vašom operačnom systéme, ktoré vám môžu pomôcť spravovať súbory a údaje v nich. Ak používate OSX alebo Linux, máte ale, dobre, grep a Nájsť . (Existujú prístavov aj pre Windows.) Pomocou týchto nástrojov môžete začať skúmať a masírovať svoje údaje bez toho, aby ste sa museli obťažovať otváraním tabuľkového procesora alebo databázového programu.

A keď si prezeráte nástroje príkazového riadka, pozrite sa CSVKit , úžasný balík nástrojov – vyvinutý novinármi – ktorý vám pomôže kúzliť v tomto bežnom formáte.

4. Vizualizačné nástroje

Vizualizácia nie je dekorácia. Nie je to niečo, čo len sprevádza a ilustruje dátovú žurnalistiku; je ústredným prvkom úlohy. Dobrá vizualizácia vám umožní vidieť odľahlé hodnoty a trendy spôsobmi, ktoré môžu výrazne zmeniť vaše chápanie údajov.

Väčšina tabuľkových aplikácií má aspoň základné tabuľky a grafy (a často aj sofistikovanejšie vizualizácie dostupné prostredníctvom doplnkov). Niekoľko webových vizualizačných nástrojov sa stáva štandardnou cenou. Odhlásiť sa Google Fusion Tables a Verejná rada . Oba ponúkajú jednoduché použitie a niektoré pomerne pôsobivé výsledky.

Nakoniec možno budete chcieť niečo flexibilnejšie a výkonnejšie; odborníci sa často obracajú na niečo ako open source R štatistický balík, ktorý kombinuje výkonné analytické a vizualizačné nástroje v robustnom programovacom jazyku.

5. Mapovací softvér

Tabuľky Google Fusion a Tableau Public obsahujú rýchle a intuitívne možnosti mapovania. Keď vám žiadna z ich máp nedostane to, čo chcete, pozrite sa na bezplatnú verziu QGIS mapovací balík. (Alebo, ak má vaša redakcia náhradnú licenciu, ArcView je výkonná komerčná možnosť.) Pre úvod do QGIS zameraný na novinárov si pozrite toto tutoriál .

Existujú aj priestorové rozšírenia pre správcov databáz, ktoré môžu pomôcť pri kladení geografických otázok o vašich údajoch. Rozširujú možnosti SQL tak, aby zahŕňali otázky týkajúce sa geografie, ako je identifikácia miest v rámci hraníc (napr. okres alebo kongresový obvod). PostGIS a SpatiaLite sú bezplatné a obľúbené riešenia.

6. Skriptovací jazyk

Vyberte si jazyk, kúpte si knihu, vyriešte problém. Naučiť sa programovať rýchlo rozšíri váš dosah ako dátového žurnalistu: Vláda vám neposkytne údaje na webovej stránke? Zoškrabte to. Nedarí sa vám pomocou existujúcich nástrojov získať údaje v požadovanom formáte? Zostavte si svoj vlastný. Je opojná sila stať sa nielen používateľom softvéru, ale aj jeho tvorcom.

Nezáleží na tom, aký jazyk si vyberiete Python a Ruby sa zdajú byť súčasnými favoritmi medzi novinármi. Ak niekto, koho poznáte, už spolupracuje Perl alebo PHP a je ochotný vám pomôcť začať, možno budete chcieť začať tam. Rovnako ako v prípade prirodzených jazykov, keď sa naučíte jeden, naučiť sa ďalší je jednoduchšie a naučiť sa myslieť ako programátor je oveľa dôležitejšie ako naučiť sa určitú syntax. (Taktiež, skvelé deti môžu používať niečo úplne iné, kým sa stanete zdatnými v aktuálnom jazyku.)

Ak chcete začať s webovým zoškrabávaním, pozrite sa na Vynikajúci sprievodca škrabaním od spoločnosti ProPublica . ScraperWiki je ďalší spôsob, ako si namočiť nohy a učiť sa príkladom. Naučte sa programovať je skvelým úvodom do programovacích konceptov, ktoré náhodou používajú Ruby ako svoj cieľový jazyk.

7. Webový rámec

Či už vytvárate nástroje pre seba alebo vytvárate svetoznáme aplikácie, ak vytvárate pre web, potrebujete webový rámec: django pre Python, Koľajnice pre Ruby , symfónia pre PHP, Katalyzátor pre Perl, vyberte si.

Rámec vám znemožní nudnú, opakujúcu sa prácu, pomôže vám prijať osvedčené postupy, udrží vás organizovaný a uľahčí spoluprácu s ostatnými. Mnohé rámce sa dodávajú s inštalačným programom na jedno kliknutie, ktorý vám môže pomôcť zmierniť bolesť pri začiatkoch. Pozrite sa na Bitnami django a Ruby napríklad stohy.

V priebehu vytvárania webového nástroja získate značné množstvo HTML a CSS. Všetky znaky však poukazujú na rastúci význam JavaScriptu vo vývoji celého webu. Ak chcete, aby vaša webová aplikácia vyzerala viac ako desktopová aplikácia, zoznámte sa s niektorým JavaScriptom, najmä s knižnicami ako napr jQuery .

8. Flexibilný editor

Na písanie kódu potrebujete editor kódu. To znamená editor, ktorý do vášho textu nevkladá šikovné, nápadité znaky (pri pohľade na vás, Microsoft Word) a dúfajme, že pridá nejaké zvončeky a píšťalky, ako napríklad farbenie syntaxe špecifické pre daný jazyk, čo vám pomôže ľahko identifikovať kľúčové slová a iný jazyk. prvky pri písaní.

Neexistuje bezpečnejší spôsob, ako začať bitku s blbcami, než sa opýtať, ktorý editor kódu je najlepší. TextMate (pre Mac) je životaschopnou komerčnou možnosťou. A Poznámkový blok++ (pre Windows) je dobrá bezplatná možnosť. K dispozícii sú tiež nekonečne prispôsobiteľné možnosti open source PRIŠIEL SOM a Emacs . Buďte však pripravení na zaučenie s každým z nich. Nakoniec nejaký programátor Java navrhne, že potrebujete plnú verziu Integrované vývojové prostredie . Ak vám niekto pomáha naučiť sa kódovať, osvojte si jeho editor a naučte sa každú skratku a konfiguračný trik, ktorý môžete. Editor je najosobnejší z nástrojov a vy sa v ňom budete chcieť cítiť ako doma.

9. Kontrola revízií

Nikdy nerobíš chyby? Nechceš nikdy s nikým spolupracovať? Potom možno nebudete potrebovať kontrola revízií . Oplatí sa ho však použiť, ak chcete elegantný spôsob ukladania záloh, skúšania dočasných verzií súborov a spájania vašej práce s ostatnými. Možno najjednoduchší spôsob, ako sa naučiť ovládanie revízií, je používať Github . Môžete tiež nainštalovať ísť alebo Subversion lokálne.

10. Nástroje analýzy dokumentov

Snáď najzaujímavejšou hranicou v dátovej žurnalistike je teraz pokus považovať veľké súbory dokumentov za dáta. DocumentCloud poskytuje praktické rozhranie na uvoľnenie väzieb vo formáte PDF, čo umožňuje vyhľadávanie v dokumentoch a extrahovanie bodov záujmu.

Jigsaw je počítačový softvér, ktorý je užitočný na navigáciu v relatívne veľkom súbore dokumentov. Nakoniec sa možno budete chcieť pozrieť na výpočtový lingvistický potenciál balíkov ako napr Súprava nástrojov prirodzeného jazyka Pythonu alebo Stanford CoreNLP . A pretože novinári práve poškriabali povrch tejto oblasti, nové nástrojov ktoré zaobchádzajú s dokumentmi ako s údajmi, ktoré sa neustále objavujú.

Toto je druhý príbeh z dvojdielneho seriálu o dátovej žurnalistike. Prvý príbeh „5 tipov, ako začať s dátovou žurnalistikou“, si môžete prečítať tu.


Tento príbeh je tiež súčasťou Poyntera Hackeri/Hackeri séria predstavovať Ako na to je zameranie na to, čo sa môžu novinári naučiť z nových trendov v technológii a nových nástrojov.

oprava: Skoršia verzia tohto príbehu uvádzala, že používatelia musia za program Notepad++ platiť. V skutočnosti je to zadarmo.